基于HMM的語音識別技術在嵌入式系統中的應用
發布時間:2007/4/23 0:00:00 訪問次數:496
摘要:介紹語音識別技術在嵌入式系統中的應用狀況與發展,以及在嵌入式系統中使用HMM語音識別算法的優點,并對基于HMM語音識別技術的系統進行介紹。
關鍵詞:SoC芯片 HMM 語音識別 嵌入式系統
語音識別ASR(Automatic Speech Recognition)系統的實用化研究是近十年語音識別研究的一個主要方向。近年來,消費類電子產品對低成本、高穩健性的語音識別片上系統的需求快速增加,語音識別系統大量地從實驗室的PC平臺轉移到嵌入式設備中。
語音識別技術目前在嵌入式系統中的應用主要為語音命令控制,它使得原本需要手工操作的工作用語音就可以方便地完成。語音命令控制可廣泛用于家電語音遙控、玩具、智能儀器及移動電話等便攜設備中。使用語音作為人機交互的途徑對于使用者來說是最自然的一種方式,同時設備的小型化也要求省略鍵盤以節省體積。
嵌入式設備通常針對特定應用而設計,只需要對幾十個詞的命令進行識別,屬于小詞匯量語音識別系統。因此在語音識別技術的要求不在于大詞匯量和連續語音識別,而在于識別的準確性與穩健性。
對于嵌入式系統而言,還有許多其它因素需要考慮。首先是成本,由于成本的限制,一般使用定點DSP,有時甚至只能考慮使用MPU,這意味著算法的復雜度受到限制;其次,嵌入式系統對體積有嚴格的限制,這就需要一個高度集成的硬件平臺,因此,SoC(System on Chip)開始在語音識別領域嶄露頭角。SoC結構的嵌入式系統大大減少了芯片數量,能夠提供高集成度和相對低成本的解決方案,同時也使得系統的可靠性大為提高。
語音識別片上系統是系統級的集成芯片。它不只是把功能復雜的若干個數字邏輯電路放入同一個芯片,做成一個完整的單片數字系統,而且在芯片中還應包括其它類型的電子功能器件,如模擬器件(如ADC/DAC)和存儲器。
筆者使用SoC芯片實現了一個穩定、可靠、高性能的嵌入式語音識別系統。包括一套全定點的DHMM和CHMM嵌入式語音識別算法和硬件系統。
1 硬件平臺
本識別系統是在與Infineon公司合作開發的芯片UniSpeech上實現的。UniSpeech芯片是為語音信號處理開發的專用芯片,采用0.18μm工藝生產。它將雙核(DSP+MCU)、存儲器、模擬處理單元(ADC與DAC)集成在一個芯片中,構成了一種語音處理SoC芯片。這種芯片的設計思想主要是為語音識別和語音壓縮編碼領域提供一個低成本、高可靠性的硬件平臺。
該芯片為語音識別算法提供了相應的存儲量和運算能力。包括一個內存控制單元MMU(Memory Management Unit)和104KB的片上RAM。其DSP核為16位定點DSP,運算速度可達到約100MIPS.MCU核是8位增強型8051,每兩個時鐘周期為一個指令周期,其時鐘頻率可達到50MHz。
UniSpeech芯片集成了2路8kHz采樣12bit精度的ADC和2路8kHz采樣11bit的DAC,采樣后的數據在芯片內部均按16bit格式保存和處理。對于語音識別領域,這樣精度的ADC/DAC已經可以滿足應用。ADC/DAC既可以由MCU核控制,也可以由DSP核控制。
2 嵌入式語音識別系統比較
以下就目前基于整詞模型的語音識別的主要技術作一比較。
(1)基于DTW(Dynamic Time Warping)和模擬匹配技術的語音識別系統。目前,許多移動電話可以提供簡單的語音識別功能,幾乎都是甚至DTM和模板匹配技術。
DTW和模板匹配技術直接利用提取的語音特征作為模板,能較好地實現孤立詞識別。由于DTW模版匹配的運算量不大,并且限于小詞表,一般的應用領域孤立數碼、簡單命令集、地名或人名集的語音識別。為減少運算量大多數使用的特征是LPCC(Linear Predictive Cepstrum Coefficient)運算。
DTW和模板匹配技術的缺點是只對特定人語音識別有較好的識別性能,并且在使用前需要對所有詞條進行訓練。這一應用從20世紀90年代就進入成熟期。目前的努力方向是進一步降低成本、提高穩健性(采用雙模板)和抗噪性能。
(2)基于隱含馬爾科夫模型HMM(Hidden Markov Model)的識別算法。這是Rabiner等人在20世紀80年代引入語音識別領域的一種語音識別算法。該算法通過對大量語音數據進行數據統計,建
摘要:介紹語音識別技術在嵌入式系統中的應用狀況與發展,以及在嵌入式系統中使用HMM語音識別算法的優點,并對基于HMM語音識別技術的系統進行介紹。
關鍵詞:SoC芯片 HMM 語音識別 嵌入式系統
語音識別ASR(Automatic Speech Recognition)系統的實用化研究是近十年語音識別研究的一個主要方向。近年來,消費類電子產品對低成本、高穩健性的語音識別片上系統的需求快速增加,語音識別系統大量地從實驗室的PC平臺轉移到嵌入式設備中。
語音識別技術目前在嵌入式系統中的應用主要為語音命令控制,它使得原本需要手工操作的工作用語音就可以方便地完成。語音命令控制可廣泛用于家電語音遙控、玩具、智能儀器及移動電話等便攜設備中。使用語音作為人機交互的途徑對于使用者來說是最自然的一種方式,同時設備的小型化也要求省略鍵盤以節省體積。
嵌入式設備通常針對特定應用而設計,只需要對幾十個詞的命令進行識別,屬于小詞匯量語音識別系統。因此在語音識別技術的要求不在于大詞匯量和連續語音識別,而在于識別的準確性與穩健性。
對于嵌入式系統而言,還有許多其它因素需要考慮。首先是成本,由于成本的限制,一般使用定點DSP,有時甚至只能考慮使用MPU,這意味著算法的復雜度受到限制;其次,嵌入式系統對體積有嚴格的限制,這就需要一個高度集成的硬件平臺,因此,SoC(System on Chip)開始在語音識別領域嶄露頭角。SoC結構的嵌入式系統大大減少了芯片數量,能夠提供高集成度和相對低成本的解決方案,同時也使得系統的可靠性大為提高。
語音識別片上系統是系統級的集成芯片。它不只是把功能復雜的若干個數字邏輯電路放入同一個芯片,做成一個完整的單片數字系統,而且在芯片中還應包括其它類型的電子功能器件,如模擬器件(如ADC/DAC)和存儲器。
筆者使用SoC芯片實現了一個穩定、可靠、高性能的嵌入式語音識別系統。包括一套全定點的DHMM和CHMM嵌入式語音識別算法和硬件系統。
1 硬件平臺
本識別系統是在與Infineon公司合作開發的芯片UniSpeech上實現的。UniSpeech芯片是為語音信號處理開發的專用芯片,采用0.18μm工藝生產。它將雙核(DSP+MCU)、存儲器、模擬處理單元(ADC與DAC)集成在一個芯片中,構成了一種語音處理SoC芯片。這種芯片的設計思想主要是為語音識別和語音壓縮編碼領域提供一個低成本、高可靠性的硬件平臺。
該芯片為語音識別算法提供了相應的存儲量和運算能力。包括一個內存控制單元MMU(Memory Management Unit)和104KB的片上RAM。其DSP核為16位定點DSP,運算速度可達到約100MIPS.MCU核是8位增強型8051,每兩個時鐘周期為一個指令周期,其時鐘頻率可達到50MHz。
UniSpeech芯片集成了2路8kHz采樣12bit精度的ADC和2路8kHz采樣11bit的DAC,采樣后的數據在芯片內部均按16bit格式保存和處理。對于語音識別領域,這樣精度的ADC/DAC已經可以滿足應用。ADC/DAC既可以由MCU核控制,也可以由DSP核控制。
2 嵌入式語音識別系統比較
以下就目前基于整詞模型的語音識別的主要技術作一比較。
(1)基于DTW(Dynamic Time Warping)和模擬匹配技術的語音識別系統。目前,許多移動電話可以提供簡單的語音識別功能,幾乎都是甚至DTM和模板匹配技術。
DTW和模板匹配技術直接利用提取的語音特征作為模板,能較好地實現孤立詞識別。由于DTW模版匹配的運算量不大,并且限于小詞表,一般的應用領域孤立數碼、簡單命令集、地名或人名集的語音識別。為減少運算量大多數使用的特征是LPCC(Linear Predictive Cepstrum Coefficient)運算。
DTW和模板匹配技術的缺點是只對特定人語音識別有較好的識別性能,并且在使用前需要對所有詞條進行訓練。這一應用從20世紀90年代就進入成熟期。目前的努力方向是進一步降低成本、提高穩健性(采用雙模板)和抗噪性能。
(2)基于隱含馬爾科夫模型HMM(Hidden Markov Model)的識別算法。這是Rabiner等人在20世紀80年代引入語音識別領域的一種語音識別算法。該算法通過對大量語音數據進行數據統計,建
上一篇:基于圖像的OMR技術的實現