語音識(shí)別是解決機(jī)器“聽懂”人類語言的一項(xiàng)技術(shù)。作為智能計(jì)算機(jī)研究的主導(dǎo)方向和人機(jī)語音通信的關(guān)鍵技術(shù),語音識(shí)別技術(shù)一直受到各國科學(xué)界的廣泛關(guān)注。
隨著現(xiàn)代科學(xué)的發(fā)展,人們?cè)谂c機(jī)器的信息交流中,需要一種更加方便、自然的方式,而語言是人類最重要、最有效、最常用和最方便的通信形式。這就很容易讓人想到能否用自然語言代替?zhèn)鹘y(tǒng)的人機(jī)交流方式(如鍵盤、鼠標(biāo)等)。人機(jī)自然語音對(duì)話就意味著機(jī)器應(yīng)具有聽覺,能“聽懂”人類的口頭語言,這就是語音識(shí)別(Speech Recognition)的功能。語音識(shí)別是語音信號(hào)處理的重要研究方向之一,它是一門涉及面很廣的交叉學(xué)科,與計(jì)算機(jī)、通信、語音語言學(xué)、數(shù)理統(tǒng)計(jì)、信號(hào)處理、神經(jīng)生理學(xué)、神經(jīng)心理學(xué)、模式識(shí)別、聲學(xué)和人工智能等學(xué)科都有密切的聯(lián)系。它還涉及到生理學(xué)、心理學(xué)以及人的體態(tài)語言。
2、語音識(shí)別系統(tǒng)
語音識(shí)別本質(zhì)上是一種模式識(shí)別的過程,未知語音的模式與已知語音的參考模式逐一進(jìn)行比較,最佳匹配的參考模式被作為識(shí)別結(jié)果。圖1是基于模式匹配原理的自動(dòng)語音識(shí)別系統(tǒng)原理框圖。
(1)預(yù)處理模塊:對(duì)輸入的原始語音信號(hào)進(jìn)行處理,濾除掉其中的不重要的信息以及背景噪聲,并進(jìn)行語音信號(hào)的端點(diǎn)檢測(cè)、語音分幀以及預(yù)加重等處理。
(2)特征提取模塊:負(fù)責(zé)計(jì)算語音的聲學(xué)參數(shù),并進(jìn)行特征的計(jì)算,以便提取出反映信號(hào)特征的關(guān)鍵特征參數(shù)用于后續(xù)處理。現(xiàn)在較常用的特征參數(shù)有線性預(yù)測(cè)(LPC)參數(shù)、線譜對(duì)(LSP)參數(shù)、LPCC、MFCC、ASCC、感覺加權(quán)的線性預(yù)測(cè)(PLP)參數(shù)、動(dòng)態(tài)差分參數(shù)和高階信號(hào)譜類特征等[1]。其中,Mel頻率倒譜系數(shù)(MFCC)參數(shù)因其良好的抗噪性和魯棒性而應(yīng)用廣泛。
(3)訓(xùn)練階段:用戶輸入若干次訓(xùn)練語音,經(jīng)過預(yù)處理和特征提取后得到特征矢量參數(shù),建立或修改訓(xùn)練語音的參考模式庫。
(4)識(shí)別階段:將輸入的語音提取特征矢量參數(shù)后與參考模式庫中的模式進(jìn)行相似性度量比較,并結(jié)合一定的判別規(guī)則和專家知識(shí)(如構(gòu)詞規(guī)則,語法規(guī)則等)得出最終的識(shí)別結(jié)果。
語音識(shí)別的應(yīng)用
語音識(shí)別技術(shù)發(fā)展到今天,特別是中小詞匯量非特定人語音識(shí)別系統(tǒng)識(shí)別精度已經(jīng)大于98%,對(duì)特定人語音識(shí)別系統(tǒng)的識(shí)別精度就更高。這些技術(shù)已經(jīng)能夠滿足通常應(yīng)用的要求。由于大規(guī)模集成電路技術(shù)的發(fā)展,這些復(fù)雜的語音識(shí)別系統(tǒng)也已經(jīng)完全可以制成專用芯片,大量生產(chǎn)。在經(jīng)濟(jì)發(fā)達(dá)國家,大量的語音識(shí)別產(chǎn)品已經(jīng)進(jìn)入市場(chǎng)和服務(wù)領(lǐng)域。一些用戶交機(jī)、電話機(jī)、手機(jī)已經(jīng)包含了語音識(shí)別撥號(hào)功能,還有語音記事本、語音智能玩具等產(chǎn)品也包括語音識(shí)別與語音合成功能。人們可以通過電話網(wǎng)絡(luò)用語音識(shí)別口語對(duì)話系統(tǒng)查詢有關(guān)的機(jī)票、旅游、銀行信息,并且取得很好的結(jié)果。調(diào)查統(tǒng)計(jì)表明多達(dá)85%以上的人對(duì)語音識(shí)別的信息查詢服務(wù)系統(tǒng)的性能表示滿意,近年來語音交互功能被應(yīng)用到了應(yīng)急指揮中心當(dāng)中,通過語音調(diào)用大屏幕場(chǎng)景,語音調(diào)用監(jiān)控,語音調(diào)用信號(hào)源,語音調(diào)用預(yù)設(shè)內(nèi)容等;
智能語音交互基于指揮中心的應(yīng)用,領(lǐng)導(dǎo)只需按鍵,說出關(guān)鍵詞即可調(diào)用想要的監(jiān)控、PC、及相關(guān)信息,提高了整體指揮調(diào)度的水平。
中天智領(lǐng)研發(fā)的智慧語音交互系統(tǒng):用戶按下遙控器上的語音鍵,下達(dá)清晰和直接的單向預(yù)設(shè)語音指令,傳輸?shù)骄W(wǎng)絡(luò)中的語音識(shí)別引擎,達(dá)到對(duì)應(yīng)的控制效果。獨(dú)有的語音壓縮算法,將語音壓縮以實(shí)現(xiàn)抗干擾及較遠(yuǎn)距離的語音實(shí)時(shí)傳輸,30米范圍內(nèi)精準(zhǔn)遙控,360°無死角聲源定向。對(duì)話模型本地運(yùn)行,數(shù)據(jù)本地存儲(chǔ)和處理,保障數(shù)據(jù)的私密性。
中天智領(lǐng)研發(fā)的智慧語音交互系統(tǒng)擁有以下特點(diǎn):
應(yīng)用范圍廣:通過一支智能語音激光遙控,可進(jìn)行業(yè)務(wù)軟件及文檔控制,播放音視頻,調(diào)取監(jiān)控畫面等多項(xiàng)操作。
識(shí)別精度高:系統(tǒng)通過無線藍(lán)牙傳輸數(shù)據(jù)和音頻,360度聲源定向,大大提高語音識(shí)別精度,系統(tǒng)支持方言模糊識(shí)別。
反應(yīng)時(shí)間短:語音識(shí)別結(jié)果響應(yīng)時(shí)間≤100ms,從對(duì)語音交互設(shè)備下達(dá)指令到交互指令被執(zhí)行整個(gè)過程完成的時(shí)間≤1s。
硬件配置優(yōu):專業(yè)防噴麥設(shè)計(jì),聲音內(nèi)容更加清晰;高保真采聲,使聲音采集更加清晰;語音鍵設(shè)置高度貼合人體工學(xué)。(臨場(chǎng)指揮 得心應(yīng)手)
中天智領(lǐng)可根據(jù)用戶需求及建設(shè)目標(biāo),搭建應(yīng)急指揮中心,中天智領(lǐng)智慧應(yīng)急指揮中心擁有多種系統(tǒng):智慧交互激光遙控系統(tǒng)、AI語音交互系統(tǒng)、智慧交互系統(tǒng)級(jí)觸控系統(tǒng)、智慧交互手勢(shì)識(shí)別系統(tǒng)、大屏KVM管控系統(tǒng)、云享控系統(tǒng)、智慧交互電子沙盤、分布式交互處理器、聯(lián)合標(biāo)繪、實(shí)物交互等。系統(tǒng)實(shí)現(xiàn)通過網(wǎng)絡(luò)及通訊傳輸,將全需要監(jiān)控的前端視音頻及多媒體信息資源匯集到監(jiān)控指揮中心綜合管控平臺(tái),實(shí)現(xiàn)信息的資源共享、統(tǒng)一處理。