摘要:介紹國內外手語研究的主要方向及研究現狀,手語識別的各種方法、手語合成的組成部分、手語網絡通信的實現技術以及手的運動約束問題。
關鍵詞:人體語言 手語 識別 合成 通信 運動約束
手語是聾啞人使用的語言。它是由手形動作輔之以表情姿勢而構成的比較穩定的表達系統,是一種靠動作/視覺進行交際的特殊語言。
人類交互往往聲情并茂,除了采用自然語言(口語、書面語言)外,人體語言(表情、體勢、手勢)也是人類交互的基本方式之一。與人類交互相比,人機交互就呆板得多,因而研究人體語言理解,即人體語言的感知,及人體語言與自然語言的信息融合對于提高計算機的人類語言理解水平和加強人機接口的可實用性的極有意義的。手語是人體語言的一個非常重要的組成部分,它是包含信息量最多的一種人體語言,它與語言及書面語等自然語言的表達能力相同,因而人機交互方面,手語完全可以作為一種手段,而且具有很強的視覺效果,它生動、形象、直觀。
手語的研究不僅有助于改善和提高聾啞人的生活學習和工作條件,為他們供更好的服務。同時也可以應用于計算機輔助啞語教學、電視節目雙語播放、虛擬人的研究、電影制作中的特技處理、動畫的制作、醫療研究、游戲娛樂等諸多方面。另外,手語的研究涉及到教學、計算機圖形學、機器人運動學、醫學等多學科。因此,手語的研究是一個非常有意義的課題。這里將結合國內外手語研究的相關方向,對手語的識別、手語的合成、手語的網絡通信、手的運動約束這幾方面作一下綜述。
1 手語的識別
手語的識別不但具有深遠的研究意義,而且具有廣闊的實際應用前景,至少表現在以下幾個方面:(1)能夠使得聾啞人,尤其是使得文件程度比較低的聾啞人,使用手語和正常人交流;(2)從認知科學的角度,研究人的視覺語言理解的機制,提高計算機對人類語言的理解水平;(3)利用手勢控制VR中的智能化;(4)機器人的示范學習;(5)虛擬現實系統中的多模式接口等。
從手語輸入設備來看,手語識別系統主要分為基于數據手套的識別和基于視覺(圖像)的手語識別系統。基于數據手套的手語識別系統,是利用數據手套和位置跟蹤測量手勢在空間運動的軌跡和時序信息。這種方法的優點是系統的識別率高。缺點是打手語的人要穿戴復雜的數據手套和位置跟蹤器,并且輸入設備比較昂貴。利用數據手套等典型傳感設備的方法,臺灣大學的Liang等人利用單個VPL數據手套作為手語輸入設備,可識別臺灣手語課本中的250個基本詞條,識別率為90.5%。CMU的Christopher Lee和Xu在1995年完成了一個操縱機器人的手勢控制系統。Kadous用Power Gloves作為手語輸入設備,識別有95個孤立詞構成的詞匯集,正確率為80%。基于視覺的手勢識別是利用攝像機采集手勢信息,并進行識別。該方法的優點是輸入設備比較便宜,但識別率比較底,實時性較差,特別是很難用于大詞匯量的手語錄的識別。在基于視覺的方法方面,具有代表性的研究成果包括:1991年富士通實驗室完成了對46個手語符號的識別工作。Davis和Shah將戴上指間具有高亮標記的視覺手套的手勢作為系統的輸入,可識別7種手勢。Starner等在對美國手語中帶有詞性的40個詞匯隨機組成短句子識別率達到99.2%。Grobel和Assam從視頻錄像中是取特征,采用HMM技術識別262個孤立詞,正確率為91.3%。此外,Vogler與Metaxas將兩種方法結合用于美國手語識別,交互采用一個位置跟蹤器及三個互相垂直的攝像機作為手勢輸入設備,完成了53個孤立詞的識別,識別率為89.9%。
從識別技術來看,以往手語識別系統主要采用基于人工神經網絡(ANN)及基于隱Markov模型(HMM)等方法。神經網絡方法具有分類特性及抗干擾性,然而由于其處理時間序列的能力不強,目前廣泛用于靜態手勢的識別。著名的Fels的GloveTalk系統采用神經網絡方法作為識別技術。對于分析區間內的手語信號,通常采取HMM方法進行模型化。HMM是眾周知并廣泛使用的統計方法,一般拓撲結構下的HMM具有非常強的描述手語信號的時空變化能力,在動態手勢識別領域一直占有主導地址,如卡內基·梅隆大學的美國手語識別系統及臺灣大學的臺灣手語識別系統等均采用HMM作為系統的識別技術。另外,Grobel與Assam利用HMM識別由戴有色手套的用戶通過攝像機輸入的262個孤立手語詞,正確率為91.3%。然而正是由于HMM拓撲結構的一般性,導致這種模型在分析手語信號時過于復雜,使得HMM訓練和識別計算量過大。尤其是在連續的HMM中,由于需要計算大量的