語音識別在家電遙控器中的應用
發布時間:2008/5/26 0:00:00 訪問次數:569
來源:電子技術應用 作者:清華大學 周季華 史媛媛 劉潤生
摘要:介紹一種適合家電遙控器應用的語音識別算法,該算法使用雙模塊和兩級端點檢測方法,能有效地提高識別和穩健性;介紹利用該技術實現的一種新型學習型遙控器,展現了語音識別技術在家電領域的廣闊前景。
關鍵詞:語音識別 dtw fed fred 學習型遙控器家用電器發展的一個重要方面是讓用戶界面更加人性化,更加方便自然,做到老年人和殘疾人可以無障礙地使用。利用語音識別技術實現語音控制是提高家電產品用戶界面質量的一條重要途徑。本文以語音控制遙控器為例,說明語音識別技術如何應用在家電器領域。
適合家用電器應用的語音識別嵌入式系統結構如圖1所示,它由四個部分組成。第一部分為模/數轉換部分,其輸入端接收輸入的語音信號,并將其轉化成數字芯片可處理的數字采集信號;在輸出端將解碼后的語音數字信號轉換為音頻模擬信號,通過揚聲器放聲。第二部分為語音識別部分,它的作用是對輸入的數字語音詞條信號進行分析,識別出詞條信號所代表的命令,一般由dsp完成。第三部分語音提示和語音回放部分,它一般也是在dsp中完成的,其核心是對語音信號進行數字壓縮編碼和解碼,目的是提示用戶操作并對識別語音的響應,完成人機的語音交互。第四部分是系統控制部分,它將語音識別結果轉換成相應的控制信號,并將其輸出轉換成物理層操作,完成具體功能。語音識別與系統控制的有機結合是完成聲控交互的關鍵,下面將對語音識別算法及遙控系統控制部分作詳細的討論。
1 語音識別算法
目前,常以單片機(mcu)或dsp作炎硬件平臺的實現消費類電子產品中的語音識別。這類語音識別主要為孤立詞識別,它有兩種實現方案:一種是基于隱含馬爾科夫統計模型(hmm)框架的非特定人識別;另一種是基于動態規劃(dp)原理的特定人識別。它們在應用上各有優缺點。hmm非特定人員的優點是用戶無需經過訓練,可以直接使用;并且具良好的穩定性(即對使用者而言,語音識別性能不會隨著時間的延長而降低)。但非特定人語音識別也有其很難克服的缺陷。首先,使用該方法需要預先采集大量的語料庫,以便訓練出相應的識別模型,這就大大提高了應用此技術的前期成本;其次,非特定人語音識別很難解決漢語中不同方言的問題,限制了它的使用區域;另外還有一個因素也應予以考慮,家電中用于控制的具體命令詞語最好不要完全固定,應當根據的用戶的習慣而改變,這一點在非特定人識別中幾乎不可能實現。因此大多數家電遙控器不適合采用此方案。dp特定人識別的優點是方法簡單,對硬件資源要求較低;此外,這一方法中的訓練過程也很簡單,不需預先采集過多的樣本,不僅降低了前期成本,而且可以根據用戶習慣,由用戶任意定義控制項目的具體命令語句,因而適合大多數家電遙控器的應用。dp特定識別的嚴重缺點是它的穩健性不理想,對有些人的語音識別率高,有的人識別率卻不高;剛訓練完時識別率較高,但隨著時間的推遲而識別率降低。些缺點往往給用戶帶來不便。為克服這些缺陷,對傳統方法作為改進,使識別性能和穩健性都有顯著的提高,取得令人滿意的結果。
1.1 端點檢測方法
影響孤立詞識別性能的一個重要因素是端點檢測準確性[4]。在10個英語數字的識別測試中,60毫秒的端點誤差就使識別率下降3%。對于面向消費類應用的語音識別芯片系統,各種干擾因素更加復雜,使精確檢測端點問題更加困難。為此,提出了稱為fred(frame-based readl_time endpoint detection)算法[3]的兩級端點檢測方案,提高端點檢測的精度。第一級對輸入語音信號,根據其能量和過零率的變化,進行一次簡單的實時端點檢測,以便去掉靜音得到輸入語音的時域范圍,并且在此基礎上進行頻譜特征提取工作。第二級根據輸入語音頻譜的fft分析結果,分別計算出高頻、中頻和低頻段的能量分布特性,用來判別輕輔音、濁輔音和元音;在確定了元音、濁音段后,再向前后兩端擴展搜索包含語音端點的幀。fred端點檢測算法根據語音的本質特征進行端點檢測,可以更好地適應環境的干擾和變化,提高端點檢測的精度。
在特定人識別中,比較了常用的fed(fast endpoint detection)[5]和fred兩種端點檢測算法的性能。兩種算法測試使用相同的數據庫,包括7個人的錄音,每個人說100個人名,每個人名讀3遍。測試中的dp模板訓練和識別算法為傳統的固定端點動態時間伸縮(dtw)模板匹配算法[4]。兩種端點檢測算法的識別率測試結果列在表1中。
表1 比較fed和fred端點檢測算法對dtw模板匹配識別率的影響
端點檢測算法
第1人
第2
來源:電子技術應用 作者:清華大學 周季華 史媛媛 劉潤生
摘要:介紹一種適合家電遙控器應用的語音識別算法,該算法使用雙模塊和兩級端點檢測方法,能有效地提高識別和穩健性;介紹利用該技術實現的一種新型學習型遙控器,展現了語音識別技術在家電領域的廣闊前景。
關鍵詞:語音識別 dtw fed fred 學習型遙控器家用電器發展的一個重要方面是讓用戶界面更加人性化,更加方便自然,做到老年人和殘疾人可以無障礙地使用。利用語音識別技術實現語音控制是提高家電產品用戶界面質量的一條重要途徑。本文以語音控制遙控器為例,說明語音識別技術如何應用在家電器領域。
適合家用電器應用的語音識別嵌入式系統結構如圖1所示,它由四個部分組成。第一部分為模/數轉換部分,其輸入端接收輸入的語音信號,并將其轉化成數字芯片可處理的數字采集信號;在輸出端將解碼后的語音數字信號轉換為音頻模擬信號,通過揚聲器放聲。第二部分為語音識別部分,它的作用是對輸入的數字語音詞條信號進行分析,識別出詞條信號所代表的命令,一般由dsp完成。第三部分語音提示和語音回放部分,它一般也是在dsp中完成的,其核心是對語音信號進行數字壓縮編碼和解碼,目的是提示用戶操作并對識別語音的響應,完成人機的語音交互。第四部分是系統控制部分,它將語音識別結果轉換成相應的控制信號,并將其輸出轉換成物理層操作,完成具體功能。語音識別與系統控制的有機結合是完成聲控交互的關鍵,下面將對語音識別算法及遙控系統控制部分作詳細的討論。
1 語音識別算法
目前,常以單片機(mcu)或dsp作炎硬件平臺的實現消費類電子產品中的語音識別。這類語音識別主要為孤立詞識別,它有兩種實現方案:一種是基于隱含馬爾科夫統計模型(hmm)框架的非特定人識別;另一種是基于動態規劃(dp)原理的特定人識別。它們在應用上各有優缺點。hmm非特定人員的優點是用戶無需經過訓練,可以直接使用;并且具良好的穩定性(即對使用者而言,語音識別性能不會隨著時間的延長而降低)。但非特定人語音識別也有其很難克服的缺陷。首先,使用該方法需要預先采集大量的語料庫,以便訓練出相應的識別模型,這就大大提高了應用此技術的前期成本;其次,非特定人語音識別很難解決漢語中不同方言的問題,限制了它的使用區域;另外還有一個因素也應予以考慮,家電中用于控制的具體命令詞語最好不要完全固定,應當根據的用戶的習慣而改變,這一點在非特定人識別中幾乎不可能實現。因此大多數家電遙控器不適合采用此方案。dp特定人識別的優點是方法簡單,對硬件資源要求較低;此外,這一方法中的訓練過程也很簡單,不需預先采集過多的樣本,不僅降低了前期成本,而且可以根據用戶習慣,由用戶任意定義控制項目的具體命令語句,因而適合大多數家電遙控器的應用。dp特定識別的嚴重缺點是它的穩健性不理想,對有些人的語音識別率高,有的人識別率卻不高;剛訓練完時識別率較高,但隨著時間的推遲而識別率降低。些缺點往往給用戶帶來不便。為克服這些缺陷,對傳統方法作為改進,使識別性能和穩健性都有顯著的提高,取得令人滿意的結果。
1.1 端點檢測方法
影響孤立詞識別性能的一個重要因素是端點檢測準確性[4]。在10個英語數字的識別測試中,60毫秒的端點誤差就使識別率下降3%。對于面向消費類應用的語音識別芯片系統,各種干擾因素更加復雜,使精確檢測端點問題更加困難。為此,提出了稱為fred(frame-based readl_time endpoint detection)算法[3]的兩級端點檢測方案,提高端點檢測的精度。第一級對輸入語音信號,根據其能量和過零率的變化,進行一次簡單的實時端點檢測,以便去掉靜音得到輸入語音的時域范圍,并且在此基礎上進行頻譜特征提取工作。第二級根據輸入語音頻譜的fft分析結果,分別計算出高頻、中頻和低頻段的能量分布特性,用來判別輕輔音、濁輔音和元音;在確定了元音、濁音段后,再向前后兩端擴展搜索包含語音端點的幀。fred端點檢測算法根據語音的本質特征進行端點檢測,可以更好地適應環境的干擾和變化,提高端點檢測的精度。
在特定人識別中,比較了常用的fed(fast endpoint detection)[5]和fred兩種端點檢測算法的性能。兩種算法測試使用相同的數據庫,包括7個人的錄音,每個人說100個人名,每個人名讀3遍。測試中的dp模板訓練和識別算法為傳統的固定端點動態時間伸縮(dtw)模板匹配算法[4]。兩種端點檢測算法的識別率測試結果列在表1中。
表1 比較fed和fred端點檢測算法對dtw模板匹配識別率的影響
端點檢測算法
第1人
第2