實用的家電語音控制系統的設計

發布時間:2007/9/11 0:00:00 訪問次數:439

摘要：家電語音控制系統在復雜的背景環境下，由于識別率顯著下降而導致關鍵詞檢出率偏低。介紹了利用孤立詞、連接詞以及連續語音識別引擎構造的多識別引擎的識別器，該識別器允許用戶自由選擇語音輸入方式，擴大了關鍵詞的檢出范圍，從而達到提高關鍵詞檢出率的目的。同時給出了家電語音控制系統的整體結構，分析了影響系統性能的關鍵因素，并且給出了相應的解決方案。

關鍵詞：語音識別家電語音控制語音確認關鍵詞檢出

近年來，隨著語音識別與確認技術的逐漸成熟，基于語音識別技術的對話控制系統受到了越來越多的關注。現有的語音技術雖然在實驗室環境中取得取得了較好的識別效果，但是一旦由于環境或者說話人的客觀原因使得語音信號變差時，就會導致系統檢出率急劇下降，從而使得語音控制系統的性能變差甚至不能正常工作。

針對殘疾人行動不便的問題，在日本富士通公司的資助下開發了一套殘疾人利用語音進行家電控制的系統。本系統的用戶主要是康復中心的特殊用戶，由于身體長期癱瘓或者其它原因，他們不僅行動不便，而且語言交流能力也有很大程度的下降，尤其是發音不夠清晰準確，僅僅用傳統的語音識別器很難滿足控制系統實際應用的需要。因此，提出了綜合利用孤立詞識別器、連接詞識別以及連續語音識別器構建一個基于多識別引擎的識別器的方法，使得關鍵詞被正確檢出的可能性大大增加，在允許用戶自由使用孤立或者連續語音交流的同時，還最大限度地利用不同識別引擎的優點，改善了家電語音控制系統的性能。

另外，還分析了語音控制系統中確認、模型自適應以及對話控制策略等關鍵技術，并且給出了相應的解決方案，從而給出家電語音控制系統的完整結構，在電梯、輪椅、電視等設備的實際控制中取得了良好的效果。

1 家電語音控制系統的結構

家電語音控制系統包括軟件設計和硬件設計兩部分。本文主要討論軟件設計部分，其中包括：語音識別模塊、語音確認模塊、對話控制及硬件指令傳輸模塊以及模型自適應模塊。整個系統的流程是：首先，用戶的語音被送入語音識別模塊進行Viterbi解碼識別，得到相應的候選關鍵詞；然后，將候選關鍵詞送入語音確認模塊進行確認，從中檢出可能的關鍵詞，并給出相應的確認分值；再后，根據檢出的關鍵詞及其對應的確認分值產生相應的對話或者控制命令對硬件進行控制，同時利用已經確認的語音對識別中的語音模型進行更新。圖1給出了家電語音控制系統的結構圖。

2 基于多識別引擎的識別器設計

2．1 傳統識別引擎簡介

根據待識別語音屬于單一用戶還是公眾進行分類，可以將其分為特定人識別以及非特定人識別。由于設計目標是針對特定用戶的，因此采用特定人識別器。如果根據輸入語音特點以及建模方法進行分類，當前的識別引擎主要分為孤立詞識別、連續語音識別以及連接詞識別等引擎。下面分別介紹幾種不同的識別引擎以及各自的優缺點。

2．1．1 孤立詞識別引擎

由于孤立詞識別引擎的輸入是孤立的詞匯，因此其識別范圍小，建模精確，識別率高，非特定人的孤立詞識別引擎的識別率可達95%左右，特定人的識別率甚至可達99%以上。但是孤立詞識別引擎要求用戶的輸入必須是一個個獨立的單詞，顯然對于連續的語音流無法處理。即使是獨立的單詞，如果由于用戶的習慣或者生理原因，在語音中含有一些語氣詞或者其它高能量的突發噪聲，將嚴重影響系統的識別率。

2．1．2 連續語音識別引擎

連續語音識別引擎是以音節或者音素為單位進行建模的，很好地解決了孤立詞識別中對輸入語音的限制，而且通過對常見的語氣詞以及噪聲的建模，也能夠解決由其引起的識別率下降的問題。但是連續語音的識別率很低，即使在實驗室環境下，其識別率最高也只能達90%左右。顯然連續語音識別引擎難以單獨用于家電語音控制系統。

2．1．3 連接詞識別引擎

連接詞識別引擎介于孤立詞識別引擎和連續語音識別引擎之間。它以孤立詞為模型，通過對孤立詞的拼接實現對連續語音流的識別。對于小型的語音識別系統來說，由于其詞表較小，因此建模方便，而且建模精度高，對關鍵詞的識別率接近于孤立詞識別引擎，很好地解決了孤立詞識別引擎