91精品一区二区三区久久久久久_欧美一级特黄大片色_欧美一区二区人人喊爽_精品一区二区三区av

位置:51電子網 » 電子資訊 » 國際新聞

谷歌:人類語言波形直接建模

發布時間:2016/12/22 10:14:05 訪問次數:10931

在人機交互和機器語音識別領域,google和其他科技公司已經取得了巨大的進步。但是,要想做到使機器語音如同人類說話那樣自然流暢,迄今為止一直都是機器學習領域的一大難題。

51電子網公益庫存:
74HCT7541PW-Q100J
74LVC16373APAG
74LVC16374ADGG-Q1J
74LVC16374ADL112
74LS02
74HC165D653
74HC175PW112
74HC175PW118
74HC175PW-Q100J
74HC14
74HCT174DB112
74HCT174DB118

截至目前,大多數的文本閱讀(text-to-speech ,tts)系統都是基于所謂的語音拼接技術,這嚴重依賴于單詞組合的語音片段數據庫。這就會產生因為數據庫不完善,而導致的語音突變或者斷句錯誤等問題,讓人聽起來很不自然。

通過對人類語言的原始波形進行直接建模,deepmind正在改變語音合成的方式。在wavenet平臺上,這一先進的方法可以合成任意類型的語音,甚至包括音樂。下面就是通過語音拼接技術和wavenet語音合成的例子,可以感受一下語音品質。

0:05語音拼接技術合成的聲音 來自deeptech深科技

將人類語音的原始波形進行直接建模成波形是件無比困難的工作,這對于機器學習而言,無疑是個巨大的挑戰。

在建模的過程中,每秒都需要對下一時刻做上千個預測,而大多數預測都是基于前期的結果。deepmind利用神經網絡技術,并用人類語音波形對其進行訓練,在下面的gif動畫中,你可以看到多層計算網絡來估計語音概率分布,進而得出最終輸出音頻。

多層計算網絡來估計語音概率分布

通過對輸出音頻的比較,deepmind團隊發現,wavenet產生的音頻比其他方法得到的合成語音更加逼真。甚至對于wavenet來說,即使沒有輸入文本,神經網絡也能得到相應的輸出音頻。

只不過,這時你聽到的是機器的牙牙學語,聽起來就像是一個人在說你從未聽過的語言。這時,如果你使用古典鋼琴曲而不是人聲來訓練,這種機器的“咕嚕”聲就會變成狂亂但是有趣的音樂片段。

十幾年前,人工智能開始出現在我們生活中。現在,我們把調侃siri當成一種樂趣。試想一下,未來幾年,從冰冷的手機揚聲器中,如果傳來的比你男/女朋友還溫柔的聲音,你還有心思去談戀愛嗎?現在,那個憑借開發alphago火爆全球google deepmind團隊,正在為你量身打造一款你喜歡的另一半。

的確,我們從呱呱墜地到呀呀囈語,早就習慣了人類語言的語氣和發聲模式,任何聲音只要有一絲偏離我們意識中的“正常”語言,都會被我們馬上辨認出來。這就是為什么一直以來開發真正人聲語音文本是件極其困難的工作。

但是現在,google的deepmind ai研究團隊通過改變他們的機器學習模型,解決了這一難題,并且在“wavenet”平臺上展示出了他們驚人的科學成果。

在人機交互和機器語音識別領域,google和其他科技公司已經取得了巨大的進步。但是,要想做到使機器語音如同人類說話那樣自然流暢,迄今為止一直都是機器學習領域的一大難題。

51電子網公益庫存:
74HCT7541PW-Q100J
74LVC16373APAG
74LVC16374ADGG-Q1J
74LVC16374ADL112
74LS02
74HC165D653
74HC175PW112
74HC175PW118
74HC175PW-Q100J
74HC14
74HCT174DB112
74HCT174DB118

截至目前,大多數的文本閱讀(text-to-speech ,tts)系統都是基于所謂的語音拼接技術,這嚴重依賴于單詞組合的語音片段數據庫。這就會產生因為數據庫不完善,而導致的語音突變或者斷句錯誤等問題,讓人聽起來很不自然。

通過對人類語言的原始波形進行直接建模,deepmind正在改變語音合成的方式。在wavenet平臺上,這一先進的方法可以合成任意類型的語音,甚至包括音樂。下面就是通過語音拼接技術和wavenet語音合成的例子,可以感受一下語音品質。

0:05語音拼接技術合成的聲音 來自deeptech深科技

將人類語音的原始波形進行直接建模成波形是件無比困難的工作,這對于機器學習而言,無疑是個巨大的挑戰。

在建模的過程中,每秒都需要對下一時刻做上千個預測,而大多數預測都是基于前期的結果。deepmind利用神經網絡技術,并用人類語音波形對其進行訓練,在下面的gif動畫中,你可以看到多層計算網絡來估計語音概率分布,進而得出最終輸出音頻。

多層計算網絡來估計語音概率分布

通過對輸出音頻的比較,deepmind團隊發現,wavenet產生的音頻比其他方法得到的合成語音更加逼真。甚至對于wavenet來說,即使沒有輸入文本,神經網絡也能得到相應的輸出音頻。

只不過,這時你聽到的是機器的牙牙學語,聽起來就像是一個人在說你從未聽過的語言。這時,如果你使用古典鋼琴曲而不是人聲來訓練,這種機器的“咕嚕”聲就會變成狂亂但是有趣的音樂片段。

十幾年前,人工智能開始出現在我們生活中。現在,我們把調侃siri當成一種樂趣。試想一下,未來幾年,從冰冷的手機揚聲器中,如果傳來的比你男/女朋友還溫柔的聲音,你還有心思去談戀愛嗎?現在,那個憑借開發alphago火爆全球google deepmind團隊,正在為你量身打造一款你喜歡的另一半。

的確,我們從呱呱墜地到呀呀囈語,早就習慣了人類語言的語氣和發聲模式,任何聲音只要有一絲偏離我們意識中的“正常”語言,都會被我們馬上辨認出來。這就是為什么一直以來開發真正人聲語音文本是件極其困難的工作。

但是現在,google的deepmind ai研究團隊通過改變他們的機器學習模型,解決了這一難題,并且在“wavenet”平臺上展示出了他們驚人的科學成果。

上一篇:曹德旺美國建廠

下一篇:全新5G NR技術

熱門點擊

推薦電子資訊

微軟新專利:皮膚感應邊框
該專利名為“基于抓握的裝置適應(Grip-Based&... [詳細]
版權所有:51dzw.COM
深圳服務熱線:13751165337  13692101218
粵ICP備09112631號-6(miitbeian.gov.cn)
公網安備44030402000607
深圳市碧威特網絡技術有限公司
付款方式


 復制成功!
诸城市| 开化县| 彭水| 博白县| 敦煌市| 万盛区| 阆中市| 杨浦区| 司法| 乌鲁木齐市| 大荔县| 连云港市| 南郑县| 乌兰察布市| 夏河县| 穆棱市| 济宁市| 花莲市| 正蓝旗| 涟源市| 南充市| 天门市| 玉溪市| 黔江区| 钟祥市| 玉环县| 探索| 会理县| 巴青县| 布拖县| 泰顺县| 芮城县| 武定县| 北宁市| 纳雍县| 鱼台县| 陈巴尔虎旗| 景宁| 闽侯县| 都匀市| 平泉县|