淺析語音識別技術所面臨的問題和前景展望

來源:投影時代 更新日期:2021-10-20 作者:pjtime資訊組

    當今語音識別技術的主流算法,主要有基于動態(tài)時間規(guī)整(DTW)算法、基于非參數(shù)模型的矢量量化(VQ)方法、基于參數(shù)模型的隱馬爾可夫模型(HMM)的方法、基于人工神經(jīng)網(wǎng)絡(ANN)和支持向量機等語音識別方法。

    (1) 動態(tài)時間規(guī)整(DTW)

    DTW是把時間規(guī)整和距離測度計算結合起來的一種非線性規(guī)整技術,是較早的一種模式匹配和模型訓練技術。該方法成功解決了語音信號特征參數(shù)序列比較時時長不等的難題,在孤立詞語音識別中獲得了良好性能。

    (2) 矢量量化(VQ)

    矢量量化是一種重要的信號壓縮方法,主要適用于小詞匯量、孤立詞的語音識別中。其過程是:將語音信號波形的k個樣點的每1幀,或有k個參數(shù)的每1參數(shù)幀,構成k維空間中的1個矢量,然后對矢量進行量化。量化時,將k維無限空間劃分為M個區(qū)域邊界,然后將輸入矢量與這些邊界進行比較,并被量化為“距離”最小的區(qū)域邊界的中心矢量值。

    (3) 隱馬爾可夫模型(HMM)

    HMM是對語音信號的時間序列結構建立統(tǒng)計模型,將其看作一個數(shù)學上的雙重隨機過程:一個是用具有有限狀態(tài)數(shù)的Markov鏈來模擬語音信號統(tǒng)計特性變化的隱含的隨機過程,另一個是與Markov鏈的每一個狀態(tài)相關聯(lián)的觀測序列的隨機過程。前者通過后者表現(xiàn)出來,但前者的具體參數(shù)是不可測的。人的言語過程實際上就是一個雙重隨機過程,語音信號本身是一個可觀測的時變序列,是由大腦根據(jù)語法知識和言語需要(不可觀測的狀態(tài))發(fā)出的音素的參數(shù)流。HMM合理地模仿了這一過程,很好地描述了語音信號的整體非平穩(wěn)性和局部平穩(wěn)性,是較為理想的一種語音模型。

    (4 )人工神經(jīng)元網(wǎng)絡(ANN)

    人工神經(jīng)元網(wǎng)絡在語音識別中的應用是目前研究的又一熱點。ANN實際上是一個超大規(guī)模非線性連續(xù)時間自適應信息處理系統(tǒng),它模擬了人類神經(jīng)元活動的原理,最主要的特征為連續(xù)時間非線性動力學、網(wǎng)絡的全局作用、大規(guī)模并行分布處理及高度的穩(wěn)健性和學習聯(lián)想能力。這些能力是HMM模型不具備的。但ANN又不具有HMM模型的動態(tài)時間歸正性能。因此,人們嘗試研究基于HMM和ANN的混合模型,把兩者的優(yōu)點有機結合起來,從而提高整個模型的魯棒性,這也是目前研究的一個熱點。

    (5) 支持向量機(SVM)

    支持向量機是應用統(tǒng)計學習理論的一種新的學習機模型,它采用結構風險最小化原理(SRM),有效克服了傳統(tǒng)經(jīng)驗風險最小化方法的缺點,在解決小樣本、非線性及高維模式識別方面有許多優(yōu)越的性能。其基本思想可以概括為:首先通過非線性變換將輸入空間變換到一個高維空間,然后在這個新空間中求取最優(yōu)線性分類面,而這種非線性變換是通過定義適當?shù)膬?nèi)積函數(shù)實現(xiàn)的。

    語音識別所面臨的問題

    (1)識別系統(tǒng)的適應性差。主要體現(xiàn)在對環(huán)境依賴性強,特別在高噪音環(huán)境下語音識別性能還不理想。

    (2)語音識別系統(tǒng)從實驗室演示系統(tǒng)到商品的轉化過程中,還有許多具體問題需要解決。例如,口語中的重復、改正、強調(diào)、倒敘、省略、拖音、韻律、識別速度、拒識等問題,還有連續(xù)語音中去除不必要語氣詞如“呃”、“啊”等語音的技術細節(jié)問題。

    (3)語言學、生理學、心理學方面的研究成果已有不少,但如何把這些知識量化、建模并用于語音識別,還需要進一步研究。

    (4)語音識別的方言和口音問題

    (5)信道問題:我們知道在無線互聯(lián)應用中,涉及到的信道種類可能會很多,比如固定電話、手機、IP、網(wǎng)絡、車載系統(tǒng)等等,各種各樣的信道都有不同的特性。語音識別、聲紋識別和語音理解如何去適應不同信道的差異是一個不得不面對的問題。

    (6)語音合成:語音合成當中,怎樣能夠很好地把感情色彩、情緒等正確地表達出來,也需要進一步去研究。

    可以預測在近五到十年內(nèi),語音識別系統(tǒng)的應用將更加廣泛。各種各樣的語音識別系統(tǒng)產(chǎn)品將出現(xiàn)在市場上。人們也將調(diào)整自己的說話方式以適應各種各樣的識別系統(tǒng)。在短期內(nèi)還不可能造出具有和人相比擬的語音識別系統(tǒng),要建成這樣一個系統(tǒng)仍然是人類面臨的一個大的挑戰(zhàn),我們只能一步步朝著改進語音識別系統(tǒng)的方向一步步地前進。至于什么時候可以建立一個像人一樣完善的語音識別系統(tǒng)則是很難預測的。就像在60年代,誰又能預測今天超大規(guī)模集成電路技術會對我們的社會產(chǎn)生這么大的影響。

    語音識別技術的前景展望

    語音作為當前通信系統(tǒng)中最自然的通信媒介,語音識別技術是非常重要的人機交互技術。隨著計算機和語音處理技術的發(fā)展,語音識別系統(tǒng)的實用性將進一步提高。應用語音的自動理解和翻譯,可消除人類相互交往的語言障礙。

    近年來語音交互功能被應用到了應急指揮中心當中,通過語音調(diào)用大屏幕場景,語音調(diào)用監(jiān)控,語音調(diào)用信號源,語音調(diào)用預設內(nèi)容等;

    智能語音交互基于指揮中心的應用,領導只需按鍵,說出關鍵詞即可調(diào)用想要的監(jiān)控、PC、及相關信息,提高了整體指揮調(diào)度的水平。

    中天智領研發(fā)的智慧語音交互系統(tǒng):用戶按下遙控器上的語音鍵,下達清晰和直接的單向預設語音指令,傳輸?shù)骄W(wǎng)絡中的語音識別引擎,達到對應的控制效果。獨有的語音壓縮算法,將語音壓縮以實現(xiàn)抗干擾及較遠距離的語音實時傳輸,30米范圍內(nèi)精準遙控,360°無死角聲源定向。對話模型本地運行,數(shù)據(jù)本地存儲和處理,保障數(shù)據(jù)的私密性。

    中天智領研發(fā)的智慧語音交互系統(tǒng)擁有以下特點:

    應用范圍廣:通過一支智能語音激光遙控,可進行業(yè)務軟件及文檔控制,播放音視頻,調(diào)取監(jiān)控畫面等多項操作。

    識別精度高:系統(tǒng)通過無線藍牙傳輸數(shù)據(jù)和音頻,360度聲源定向,大大提高語音識別精度,系統(tǒng)支持方言模糊識別。

    反應時間短:語音識別結果響應時間≤100ms,從對語音交互設備下達指令到交互指令被執(zhí)行整個過程完成的時間≤1s。

    硬件配置優(yōu):專業(yè)防噴麥設計,聲音內(nèi)容更加清晰;高保真采聲,使聲音采集更加清晰;語音鍵設置高度貼合人體工學。(臨場指揮 得心應手)

    中天智領可根據(jù)用戶需求及建設目標,搭建應急指揮中心,中天智領智慧應急指揮中心擁有多種系統(tǒng):智慧交互激光遙控系統(tǒng)、AI語音交互系統(tǒng)、智慧交互系統(tǒng)級觸控系統(tǒng)、智慧交互手勢識別系統(tǒng)、大屏KVM管控系統(tǒng)、云享控系統(tǒng)、智慧交互電子沙盤、分布式交互處理器、聯(lián)合標繪、實物交互等。系統(tǒng)實現(xiàn)通過網(wǎng)絡及通訊傳輸,將全需要監(jiān)控的前端視音頻及多媒體信息資源匯集到監(jiān)控指揮中心綜合管控平臺,實現(xiàn)信息的資源共享、統(tǒng)一處理。

廣告聯(lián)系:010-82755684 | 010-82755685 手機版:m.pjtime.com官方微博:weibo.com/pjtime官方微信:pjtime
Copyright (C) 2007 by PjTime.com,投影時代網(wǎng) 版權所有 關于投影時代 | 聯(lián)系我們 | 歡迎來稿 | 網(wǎng)站地圖
返回首頁 網(wǎng)友評論 返回頂部 建議反饋
快速評論
驗證碼: 看不清?點一下
發(fā)表評論