AF13Q20A華潤矽威一級代理商,歡迎來電咨詢0755-83224649陳小姐。深圳市哲瀚電子科技專業代理LED電源管理芯片,代理經銷各大品牌:華潤矽威,聚積,上海芯龍,芯聯,OCS燦瑞,昂寶,矽力杰,亞成微,士蘭微,矽恩微, 穩先微, 圣邦威, 晶豐明源,華晶,昂寶,杰華特,微盟,美國芯源,ST意法,TI,NS,FSC仙童等更多品牌,建立了長期合作關系,大量現貨庫存,技術支持13714441972陳小姐。
PT4115
PT4119
PT4515
PT4211
PT4121
PT4240
PT4238
PT1301
PT4205
PT1502
PT4110
PT4501
PT4253
PT4255
PT4256
PT4218
PT4220
PT4230
PT4229
PT4511
PT4207
華潤矽威一級代理商,長期備有大量現貨庫存,歡迎來電咨詢0755-83259945/13714441972陳小姐。
眾所周知,語音交互是一門多項技術融合的交叉學科,涉及到信號處理、模式識別、概率論與信息論、發聲機理和聽覺機理、神經網絡,語音識別,機器學習等。因此在談語音助理的技術挑戰之前,我們首先需要明白語音識別分為語音層和語言層兩部分,語音(Speech)是語言(Language)的信號載體,語音是人的發音器官發出的,承載一定的語言意義,而語言才承載人類的智慧,因此想要實現語音識別就需要先解決語音拾取的問題。Alexa與Siri同屬于語音識別,不過分別代表著語音識別的兩個領域,Alexa主要是遠場語音交互,Siri則主要是近場語音交互。
中國科學院聲學研究所副研究員/聲智科技CEO陳孝良
以Siri為代表的近場語音交互場景的語音拾取一般都是采用單麥克風系統。中國科學院聲學研究所副研究員/聲智科技CEO陳孝良介紹,單麥克風系統可以在低噪聲、無混響、距離聲源很近的情況下獲得符合語音識別需求的聲音信號。但若聲源距離麥克風距離較遠,并且真實環境存在大量的噪聲、多徑反射和混響,導致拾取信號的質量下降,這會嚴重影響語音識別率。而且,單麥克風接收的信號,是由多個聲源和環境噪聲疊加的,很難實現各個聲源的分離,這樣就無法實現聲源定位和分離。這很重要,因為還有一類聲音的疊加并非噪聲,但是在語音識別中也要抑制,就是人聲的干擾,語音識別顯然不能同時識別兩個以上的聲音。
除了聲音拾取的問題,要讓機器聽懂用戶的命令,還面臨語音識別模型和語義理解的挑戰。陳孝良表示,遠場語音識別可以基于深度學習技術,因為當前的語音識別基本都是深度學習訓練的結果。不過深度學習有個局限就是嚴重依賴于輸入訓練的樣本庫,若處理后的聲音與樣本庫不匹配則識別效果也不會太好。從這個角度應該非常容易理解,物理世界的信號處理也并非越是純凈越好,而是越接近于訓練樣本庫的特征越好,即便這個樣本庫的訓練信號很差。顯然,這是一個非常難于實現的過程,因此至少要聲學處理和深度學習的兩個團隊配合才能做好這個事情。但好消息是,利用麥克風處理的遠場數據直接訓練遠場語音識別模型這種方法已經證明非常有效果。
思必馳CMO龍夢竹
思必馳CMO龍夢竹還告訴記者:“語音助理還有一個亟待突破的技術方向,就是ASR++(即語音識別++),傳統語音識別是通過音頻采集,拾取,對信號進行處理,更關注音素本身。而ASR++則更關注音素以外的其他信號,識別發聲人的聲紋、性別、年齡等特征。在未來,這個方向的技術會有很強的商用價值。”
麥克風陣列及深度學習技術解決語音助理普及難題
當語音交互場景從近場語音交互過渡到以Echo為代表的遠場語音交互的時候,單麥克風的局限性就凸顯出來。為了能夠滿足遠場語音交互的聲音拾取,利用麥克風陣列進行語音處理的方法應時而生。麥克風陣列由一組按一定幾何結構(常用線形、環形)擺放的麥克風組成,對采集的不同空間方向的聲音信號進行空時處理,實現噪聲抑制、混響去除、人聲干擾抑制、聲源測向、聲源跟蹤、陣列增益等功能,進而提高語音信號處理質量,以提高真實環境下的語音識別率。
北京靈隆科技首席科學家湯躍忠
據了解,受訪的幾家公司麥克風陣列方案都各具特色,處于行業領先水平。陳孝良介紹:“聲智的核心產品已經在360、小米等客戶量產的產品中應用。我們的遠場語音交互方案很齊全,包括單麥、雙麥、4+1麥環形,4麥線形、6麥環形、6+1環形和8+1環形等麥克風陣列以及適配不同場景的遠場語音識別引擎。”北京靈隆科技首席科學家湯躍忠則透露叮咚智能音箱采用了具有世界領先水平的8麥克風陣列方案。龍夢竹表示:“思必馳在2015年12月推出了國內首款環形6+1遠場麥克風陣列,在中文自然語言交互領域受到關注,能夠實現5米遠場交互,360°全角度拾音,識別角度精準度控制在±10°以內。”
當然,麥克風陣列仍然還需要解決小型化和低成本的問題。陳孝良表示,麥克風陣列受制于半波長理論的限制,現在的口徑還是較大,聲智科技現在可以做到2cm-8cm的間距,但是結構布局仍然還是限制了ID設計的自由性。很多產品采用2個麥克風其實并非成本問題,而是ID設計的考慮。因此麥克風陣列朝著小型化發展。另外,當前無論是2個麥克風還是4、6個麥克風陣列,成本都是比較高的,這影響了麥克風陣列的普及。低成本化不是簡單的更換芯片器件,而是整個結構的重新設計,包括器件、芯片、算法和云端。
語義理解還是一個比較困難的事情,目前以深度學習為突破點。深度學習是近年來新興的一門機器學習子領域,主要探討包含多層結點的人工神經網絡的建模和學習問題。這種深度神經網絡在面對復雜的智能問題時可以更好地進行處理,網絡模型的信息處理方式在模仿人腦方面更進一步,模型可以好的用于進行語音識別。目前語音助理的算法主要有基于動態時間規整(DTW)算法、基于非參數模型的矢量量化(VQ)方法、基于參數模型的隱馬爾可夫模型(HMM)的方法、基于人工神經網絡(ANN)和支持向量機等。
不過,陳孝良表示:“當前用戶實際上不需要復雜的語言理解,只需要根據場景不同優化不同的語言模型,基本上就能解決很多用戶的問題。”叮咚智能音箱在語義理解的處理上,湯躍忠解釋說:“我們最新的版本已經使用了深度學習方法。而語義理解一直是我們的核心優勢之一,它使用了最新的人工智能方面的技術,比如RNN。而且針對智能家居控制的需求,我們專門開發了智件云系統,來處理智能家居的語義理解需求。”龍夢竹則表示,語音識別要求對自然口語交互有非常場景化和垂直化的能力。要實現識別、合成、語義理解,不僅需要軟件,也需要硬件模塊的配合。(責編:振鵬)
公司:深圳市哲瀚電子科技有限公司
聯系人:陳小姐
手機:13714441972
電話:0755-82549527/83259945/13714441972
傳真:0755-83259945
地址:深圳市福田區深圳市福田區華強北街道深南中路3006號佳和大廈3C006