語音信號編碼
發布時間:2008/12/17 0:00:00 訪問次數:611
早期的語音信號處理及傳輸均是以模擬的方式進行的。20世紀30年代末脈沖編碼調制(pcm,pulse code modulation)原理和聲碼器(vocoder)概念被提出后,語音數字編碼便一直沿著這兩個方向發展。語音數據壓縮目的是能在盡可能低的傳輸速率上獲得高質量的語音效果,即希望語音信號可以在帶寬較窄的信道中傳輸而語音質量下降的不多或盡可能不下降。語音編碼系統早期用的是波形編碼方法,也叫波形編碼(或非參數編碼),其目的是力圖使重建的語音波形保持原語音信號的波形形狀。這種編碼器是把語音信號當成一般的波形信號來處理,而并未考慮語音信號的冗佘度。它的優點是具有較強的適應能力,有較好的合成語音質量,然而編碼速率高(64kbit/s),編碼效率極低。脈沖編碼調制(pcm)、自適應增量調制(adm)、自適應差分編碼(adpcm)、自適應編碼(apc)等都是屬于波形編碼(非參數編碼)。而聲碼器則是不同于波形編碼器的高效編碼方式。聲碼器又稱參數編碼(或模型編碼),它主要是對提取的語音信號特征參數進行編碼,目的主要是使重建的語音信號具有盡可能高的可懂度,而不是要求重建波形保持原語音波形的形狀。因此,可能出現的情況是即使重建語音的可懂度高,但其時域波形與原語音的時域波形有較大的差別。這種編碼器的優點是可達到極低的編碼速率而語音依然可懂,編碼速率可達到8kbit/s、4.8kbit/s甚至更低。主要缺點是重建語音自然度低,韻律感差,合成語音質量差。聲碼器的典型代表是通道聲碼器、共峰聲碼器及線性預測聲碼器等。
20世紀80年代至今,不僅聲碼器和波形編碼器得到了很大發展,并且還有一種全新的革命性編碼方法被普遍推廣,這類編碼器叫混合編碼器。這種編碼器在傳送器中對給定編碼結構的所有可能性進行綜合,找出輸人語音的最好編碼形式,并從這些可能性中發現輸入語音的最優主觀匹配,然后用數碼表示這種主觀匹配并發送到接收器。利用線性預測、vq、a-b-s、感覺加權、后濾波等技術得到的多脈沖激勵線性預測(mpelp,multi pulse enspirit lineprognosticate),規則脈沖激勵線性預測(rpelp,rule pulse enspirit line prognosticate),碼本激勵線性預測(celp,code enspirit line prognosticate) 編碼速率達到8~16kbit/s甚至更底,其話音質量高、編碼速率低,但算法復雜。
近年來,itu-t在多媒體數字通信方面(包括電視會議等)制定了一系列國際標準(按itu的說法是建議)。
表1 itu-t多媒體會議標準(基本模式)
在現有的網路設施條仵下,h.320和h.323比較適用的標準。h.320的基本音頻模式是g.711 log-pcm(對數脈碼調制)編碼解碼器,它是一種簡單的8khz采樣頻率對數脈碼調制模式,長期以來它都是數字電話網絡主要的編碼方法(長途電話盡管起源于模擬電話,現在長途電話在數字網絡上傳輸)。
g.711定義為8位編碼,速率為64kbit/s,但在h.320中采樣截短為6或7比特位,因為速率相應變為48kbit/s或56kbit/s。g.711提供了出色的長話音質窄帶(3khz音頻帶寬)語音、不太明顯的編解碼延遲(低于1ms)以及非常低的實現復雜性。為了提供與普通g.711音頻電話的兼容性,所有的h.320呼叫在h.221 fas和bas信道中進行同步初始化和模式協商時開始發送和接收g.711音頻。
g.711有很多優點,但是g.711指定了兩個不同的編碼a律和μ律,在采用g.711標準的區域,不同地方使用上述兩種不同的方法。ccitt不能達成統一的編碼方法。結果是h.320系統必須由遠端在每次呼叫開始時自動發現使用的編碼律,或者避免使用音頻直到h.320控制過程能用來建立另一音頻模式。而且,g.711因為它的低復雜性和與普遍電話的兼容性成為h.320的基本音頻模式,但與其他h.320音頻模式相比在使用帶寬方面它是效率低下的。如果轉到其他音頻模式下節省的數據帶寬可用來傳送更多的視頻位,將使h.320視頻質量有很大不同,特別是在普通的2-b(128kbit/s)h.320呼叫上。
鑒于g.711語音壓縮協議本身的一些缺點,人們一直在找一種替代它的協議,現在已經開始用的有g.722協議和g.728協議。
g.728是目前h.320中用得較多的窄帶音頻模式。它是基于通常的8khz窄帶采樣和5個采樣(0.625ms)的音頻幀的低時延碼本激勵線性編碼(ld-celp),比特率為16kbit/s,提供很好的長話音質,總延遲為大約1.875ms。
在現有網絡條件下,需要一個窄帶音頻模式,但是又要有相當好的語音質量。 最近建立的8kbit/s電話標準真正提高了該速率下的語音品質并改善了復雜性,這種編碼器在某種程度上是一個突破,因此它的嚴格規范使性能達到或超過了32kbit/s的g.726 adpcm,但速率僅為8kbit/s。itu g.729 skbit/s標準在性能上不亞于g.726,其算法延時少于16ms,隨機誤碼和背景噪聲的
早期的語音信號處理及傳輸均是以模擬的方式進行的。20世紀30年代末脈沖編碼調制(pcm,pulse code modulation)原理和聲碼器(vocoder)概念被提出后,語音數字編碼便一直沿著這兩個方向發展。語音數據壓縮目的是能在盡可能低的傳輸速率上獲得高質量的語音效果,即希望語音信號可以在帶寬較窄的信道中傳輸而語音質量下降的不多或盡可能不下降。語音編碼系統早期用的是波形編碼方法,也叫波形編碼(或非參數編碼),其目的是力圖使重建的語音波形保持原語音信號的波形形狀。這種編碼器是把語音信號當成一般的波形信號來處理,而并未考慮語音信號的冗佘度。它的優點是具有較強的適應能力,有較好的合成語音質量,然而編碼速率高(64kbit/s),編碼效率極低。脈沖編碼調制(pcm)、自適應增量調制(adm)、自適應差分編碼(adpcm)、自適應編碼(apc)等都是屬于波形編碼(非參數編碼)。而聲碼器則是不同于波形編碼器的高效編碼方式。聲碼器又稱參數編碼(或模型編碼),它主要是對提取的語音信號特征參數進行編碼,目的主要是使重建的語音信號具有盡可能高的可懂度,而不是要求重建波形保持原語音波形的形狀。因此,可能出現的情況是即使重建語音的可懂度高,但其時域波形與原語音的時域波形有較大的差別。這種編碼器的優點是可達到極低的編碼速率而語音依然可懂,編碼速率可達到8kbit/s、4.8kbit/s甚至更低。主要缺點是重建語音自然度低,韻律感差,合成語音質量差。聲碼器的典型代表是通道聲碼器、共峰聲碼器及線性預測聲碼器等。
20世紀80年代至今,不僅聲碼器和波形編碼器得到了很大發展,并且還有一種全新的革命性編碼方法被普遍推廣,這類編碼器叫混合編碼器。這種編碼器在傳送器中對給定編碼結構的所有可能性進行綜合,找出輸人語音的最好編碼形式,并從這些可能性中發現輸入語音的最優主觀匹配,然后用數碼表示這種主觀匹配并發送到接收器。利用線性預測、vq、a-b-s、感覺加權、后濾波等技術得到的多脈沖激勵線性預測(mpelp,multi pulse enspirit lineprognosticate),規則脈沖激勵線性預測(rpelp,rule pulse enspirit line prognosticate),碼本激勵線性預測(celp,code enspirit line prognosticate) 編碼速率達到8~16kbit/s甚至更底,其話音質量高、編碼速率低,但算法復雜。
近年來,itu-t在多媒體數字通信方面(包括電視會議等)制定了一系列國際標準(按itu的說法是建議)。
表1 itu-t多媒體會議標準(基本模式)
在現有的網路設施條仵下,h.320和h.323比較適用的標準。h.320的基本音頻模式是g.711 log-pcm(對數脈碼調制)編碼解碼器,它是一種簡單的8khz采樣頻率對數脈碼調制模式,長期以來它都是數字電話網絡主要的編碼方法(長途電話盡管起源于模擬電話,現在長途電話在數字網絡上傳輸)。
g.711定義為8位編碼,速率為64kbit/s,但在h.320中采樣截短為6或7比特位,因為速率相應變為48kbit/s或56kbit/s。g.711提供了出色的長話音質窄帶(3khz音頻帶寬)語音、不太明顯的編解碼延遲(低于1ms)以及非常低的實現復雜性。為了提供與普通g.711音頻電話的兼容性,所有的h.320呼叫在h.221 fas和bas信道中進行同步初始化和模式協商時開始發送和接收g.711音頻。
g.711有很多優點,但是g.711指定了兩個不同的編碼a律和μ律,在采用g.711標準的區域,不同地方使用上述兩種不同的方法。ccitt不能達成統一的編碼方法。結果是h.320系統必須由遠端在每次呼叫開始時自動發現使用的編碼律,或者避免使用音頻直到h.320控制過程能用來建立另一音頻模式。而且,g.711因為它的低復雜性和與普遍電話的兼容性成為h.320的基本音頻模式,但與其他h.320音頻模式相比在使用帶寬方面它是效率低下的。如果轉到其他音頻模式下節省的數據帶寬可用來傳送更多的視頻位,將使h.320視頻質量有很大不同,特別是在普通的2-b(128kbit/s)h.320呼叫上。
鑒于g.711語音壓縮協議本身的一些缺點,人們一直在找一種替代它的協議,現在已經開始用的有g.722協議和g.728協議。
g.728是目前h.320中用得較多的窄帶音頻模式。它是基于通常的8khz窄帶采樣和5個采樣(0.625ms)的音頻幀的低時延碼本激勵線性編碼(ld-celp),比特率為16kbit/s,提供很好的長話音質,總延遲為大約1.875ms。
在現有網絡條件下,需要一個窄帶音頻模式,但是又要有相當好的語音質量。 最近建立的8kbit/s電話標準真正提高了該速率下的語音品質并改善了復雜性,這種編碼器在某種程度上是一個突破,因此它的嚴格規范使性能達到或超過了32kbit/s的g.726 adpcm,但速率僅為8kbit/s。itu g.729 skbit/s標準在性能上不亞于g.726,其算法延時少于16ms,隨機誤碼和背景噪聲的
熱門點擊
- D/A轉換器的基本原理
- AD轉換器的選擇
- 語音信號的μ/A律壓縮
- 并行A/D轉換器AD574
- 語音信號模數/數模轉換
- 語音信號的采集和播放
- DFT的屬性
- D/A轉換器的特性與技術指標
- D/A轉換器雙極性工作
- 高速數據采集系統的時鐘電路設計
推薦技術資料
- DS2202型示波器試用
- 說起數字示波器,普源算是國內的老牌子了,FQP8N60... [詳細]