6月24日,2023年度國(guó)家科學(xué)技術(shù)獎(jiǎng)勵(lì)大會(huì)在京召開,科大訊飛作為第一完成單位的“多語種智能語音關(guān)鍵技術(shù)及產(chǎn)業(yè)化”項(xiàng)目獲得國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng)。這是深度學(xué)習(xí)引發(fā)全球人工智能浪潮以來,過去十年人工智能領(lǐng)域首個(gè)國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng)。這也是科大訊飛繼2002年和2011年分別獲得國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)二等獎(jiǎng)之后,首次獲得國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng)。
國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)創(chuàng)辦于1984年9月,是國(guó)務(wù)院設(shè)立的國(guó)家科學(xué)技術(shù)獎(jiǎng)5大獎(jiǎng)項(xiàng)(國(guó)家最高科學(xué)技術(shù)獎(jiǎng)、國(guó)家自然科學(xué)獎(jiǎng)、國(guó)家技術(shù)發(fā)明獎(jiǎng)、國(guó)家科學(xué)技術(shù)進(jìn)步獎(jiǎng)、中華人民共和國(guó)國(guó)際科學(xué)技術(shù)合作獎(jiǎng))之一。因2021年、2022年國(guó)家科技獎(jiǎng)暫停的緣故,2023年度國(guó)家科技獎(jiǎng)積累了大量的優(yōu)秀成果,競(jìng)爭(zhēng)激烈。
關(guān)鍵技術(shù)取得四大突破達(dá)到國(guó)際領(lǐng)先水平
語音是人類最自然便捷的溝通方式,是智能設(shè)備人機(jī)交互的關(guān)鍵入口,也是諸多敏感信息的重要載體,還是民族團(tuán)結(jié)和國(guó)際合作的基礎(chǔ)。多語種智能語音技術(shù)對(duì)于支撐人機(jī)交互、人類語言互通及國(guó)家安全等需求具有重大戰(zhàn)略意義,具有十分廣闊的產(chǎn)業(yè)前景,是當(dāng)前國(guó)際科技競(jìng)爭(zhēng)核心焦點(diǎn)之一。
持續(xù)攻關(guān)多年,科大訊飛攻克了多個(gè)技術(shù)難題,并打破技術(shù)封鎖,提出了四個(gè)方面的技術(shù)創(chuàng)新。
創(chuàng)新點(diǎn)一,復(fù)雜語音信號(hào)解耦建模關(guān)鍵技術(shù)突破。
語音識(shí)別研究中最具挑戰(zhàn)的是遠(yuǎn)場(chǎng)、噪聲、多人語音混疊等現(xiàn)象導(dǎo)致的“雞尾酒會(huì)”效應(yīng)典型難題。
科大訊飛提出了多通道語音信號(hào)時(shí)空分離建模方法和多維度語音屬性解耦表征方法,實(shí)現(xiàn)語音信號(hào)中內(nèi)容、噪聲等高度耦合的多維屬性特征解耦,解決了“雞尾酒會(huì)”的難題,使得復(fù)雜場(chǎng)景下語音識(shí)別準(zhǔn)確率得到重大突破。
在這些技術(shù)的支撐下,科大訊飛連續(xù)4屆獲得國(guó)際多通道語音分離和識(shí)別比賽CHIME冠軍;連續(xù)8屆獲得國(guó)際語音合成大賽Blizzard Challenge冠軍。2015年,相關(guān)技術(shù)首次在大會(huì)演講場(chǎng)景實(shí)現(xiàn)語音轉(zhuǎn)寫超過人類速記員水平;2019年起連續(xù)六年服務(wù)全國(guó)兩會(huì);個(gè)性化語音合成首次應(yīng)用于中央電視臺(tái)節(jié)目配音(《創(chuàng)新中國(guó)》),并在新華社、人民日?qǐng)?bào)、學(xué)習(xí)強(qiáng)國(guó)等廣泛應(yīng)用。
創(chuàng)新點(diǎn)二,多語種共享建模關(guān)鍵技術(shù)突破。
為了應(yīng)對(duì)多語種技術(shù)“卡脖子”問題,必須解決小語種智能語音系統(tǒng)構(gòu)建所面臨的知識(shí)匱乏、訓(xùn)練數(shù)據(jù)稀缺等難題。
科大訊飛設(shè)計(jì)了全新的多語種通用音素體系和基本語言單元,實(shí)現(xiàn)多語種統(tǒng)一音素韻律體系的構(gòu)建,又通過基于元學(xué)習(xí)的多語種預(yù)訓(xùn)練和基于語族分組的多語種共享建!ㄋ椎卣f,就是將不同的小語種進(jìn)行分類,找到同類語種的共同規(guī)律,進(jìn)行分析建模和訓(xùn)練——最終,顯著提升了小語種語音系統(tǒng)性能。
相關(guān)技術(shù)在2021年國(guó)際低資源多語種語音識(shí)別競(jìng)賽OpenASR中獲得15個(gè)語種受限賽道和7個(gè)語種非受限賽道的冠軍。2024年,結(jié)合語音屬性解耦表征、多語種多任務(wù)共享建模等關(guān)鍵技術(shù)成果發(fā)布星火語音大模型,首批37個(gè)主流語種的語音識(shí)別效果超過OpenAI Whisper V3。
在奇瑞、一汽等的交互評(píng)測(cè)中,科大訊飛的技術(shù)效果全面領(lǐng)先國(guó)際車載語音技術(shù)競(jìng)品賽倫思(原Nuance車載公司),在華為的評(píng)測(cè)中也領(lǐng)先谷歌。
創(chuàng)新點(diǎn)三,語音語義聯(lián)合建模關(guān)鍵技術(shù)突破。
復(fù)雜應(yīng)用場(chǎng)景下語音交互、語音翻譯面臨著深層次語義理解困難、專業(yè)性不足等問題。
科大訊飛提出語音語義互增強(qiáng)的魯棒口語理解技術(shù),有效提升語音交互、語音翻譯等復(fù)雜場(chǎng)景的語義理解準(zhǔn)確率;提出多源知識(shí)增強(qiáng)的可信文本生成技術(shù),提升專有詞匯及領(lǐng)域知識(shí)引用的準(zhǔn)確率。
相關(guān)技術(shù)于2018年在業(yè)內(nèi)首次達(dá)到CATTI考試英語二級(jí)《口譯實(shí)務(wù)(交替?zhèn)髯g類)》合格標(biāo)準(zhǔn);并在2021-2023年連續(xù)三屆獲得國(guó)際權(quán)威機(jī)器口語翻譯評(píng)測(cè)比賽IWSLT冠軍,覆蓋同傳、離線、方言翻譯等多類任務(wù)。
技術(shù)成果應(yīng)用在多個(gè)方面:如英語口語評(píng)測(cè)首次達(dá)到人類專家水平,是滿足高考應(yīng)用要求的技術(shù),累計(jì)服務(wù)超1.3億考生;智能客服系統(tǒng)規(guī)模應(yīng)用,累計(jì)服務(wù)超8億人,多行業(yè)對(duì)話成功率超90%。
創(chuàng)新點(diǎn)四,國(guó)產(chǎn)異構(gòu)硬件平臺(tái)訓(xùn)練及推理加速關(guān)鍵技術(shù)突破。
使用國(guó)產(chǎn)芯片開展智能語音算法模型訓(xùn)練和推理面臨性能低、適配難等問題。
科大訊飛提出硬件親和的變長(zhǎng)輸入算子融合和聯(lián)合統(tǒng)一量化感知訓(xùn)練技術(shù),通過軟硬件協(xié)同優(yōu)化的動(dòng)態(tài)張量算子自動(dòng)融合方法,實(shí)現(xiàn)對(duì)語音等變長(zhǎng)輸入的訓(xùn)練性能優(yōu)化達(dá)到國(guó)際主流芯片同等水平;通過多硬件聯(lián)合的量化計(jì)算模擬,達(dá)到模型單次訓(xùn)練后可在不同硬件平臺(tái)上一鍵部署,解決了智能語音技術(shù)硬件平臺(tái)的“卡脖子”問題。
目前,已建成5個(gè)國(guó)產(chǎn)化集群,語音合成、識(shí)別、翻譯、交互等國(guó)產(chǎn)化能力日服務(wù)8.73億次。2023年,科大訊飛與華為聯(lián)合攻關(guān)大模型國(guó)產(chǎn)化算力底座核心難題,建設(shè)首個(gè)萬卡全國(guó)產(chǎn)算力平臺(tái)“飛星一號(hào)”,填補(bǔ)了國(guó)產(chǎn)超大模型訓(xùn)練平臺(tái)空白。
基于這些關(guān)鍵技術(shù)的持續(xù)攻關(guān)和突破,該項(xiàng)目獲批牽頭建設(shè)4個(gè)國(guó)家級(jí)創(chuàng)新平臺(tái):語音產(chǎn)業(yè)界唯一的國(guó)家級(jí)研究開放平臺(tái)語音及語言信息處理國(guó)家工程研究中心,智能語音國(guó)家新一代人工智能開放創(chuàng)新平臺(tái),首批20家標(biāo)桿全國(guó)重點(diǎn)實(shí)驗(yàn)室之一的認(rèn)知智能全國(guó)重點(diǎn)實(shí)驗(yàn)室,智能語音領(lǐng)域唯一的國(guó)家技術(shù)標(biāo)準(zhǔn)創(chuàng)新基地;并主導(dǎo)編制11項(xiàng)國(guó)際和國(guó)家標(biāo)準(zhǔn),獲授權(quán)發(fā)明專利257項(xiàng);近五年累計(jì)獲得國(guó)際權(quán)威評(píng)測(cè)冠軍20余項(xiàng),持續(xù)保持技術(shù)引領(lǐng)。
實(shí)現(xiàn)規(guī);a(chǎn)業(yè)立地有效支撐國(guó)家戰(zhàn)略
科大訊飛一直堅(jiān)持“技術(shù)頂天、應(yīng)用立地”的戰(zhàn)略,圍繞多語種智能語音技術(shù)構(gòu)建了自主可控的產(chǎn)業(yè)生態(tài)。
第一,語音是萬物互聯(lián)時(shí)代人機(jī)交互的關(guān)鍵入口,項(xiàng)目開創(chuàng)引領(lǐng)我國(guó)語音產(chǎn)業(yè),支撐智能制造產(chǎn)業(yè)升級(jí)和出海。
智能手機(jī)方面,項(xiàng)目支持各主流手機(jī)廠商累計(jì)激活設(shè)備超10億臺(tái),有效解決華為等廠商出海的多語種“卡脖子”問題;智能汽車方面,車載智能化產(chǎn)品累計(jì)前裝超5300萬套,支持奇瑞、一汽、長(zhǎng)安等車企超200萬套訂單出海;智能軟硬件方面,開創(chuàng)智能翻譯機(jī)、智能辦公本、智能錄音筆等智能硬件新品類,連續(xù)三年獲得京東&天貓雙平臺(tái)銷售冠軍,其中,訊飛翻譯機(jī)目前能支持85個(gè)語種的翻譯,覆蓋全球200多個(gè)國(guó)家和地區(qū),連續(xù)8年獲得京東618、連續(xù)7年獲得天貓雙11銷售冠軍;在會(huì)議、辦公等場(chǎng)景,訊飛聽見系列產(chǎn)品服務(wù)遍及全球50多個(gè)國(guó)家和地區(qū),支持了超過40萬場(chǎng)會(huì)議,觸及超過4億觀眾;面向更多用戶,訊飛輸入法月活躍用戶超1.4億人,日語音交互次數(shù)超10億次。
第二,項(xiàng)目助力民族團(tuán)結(jié),促進(jìn)全球語言互通和“一帶一路”建設(shè)。
發(fā)布“多語種語音云”平臺(tái),月服務(wù)超過5.46億人次;每年提供翻譯服務(wù)51.5億次,語音同傳服務(wù)全球50余個(gè)國(guó)家超4億觀眾;多語種技術(shù)有效服務(wù)北京冬奧會(huì)和冬殘奧會(huì)、中國(guó)國(guó)際進(jìn)口博覽會(huì)、博鰲論壇等國(guó)家重大活動(dòng)。
第三,項(xiàng)目還構(gòu)建了自主可控的多語種智能語音技術(shù)及全球產(chǎn)業(yè)生態(tài)。
2017年開始承建的智能語音國(guó)家新一代人工智能開放創(chuàng)新平臺(tái),已聚集平臺(tái)開發(fā)者數(shù)700.7萬,終端設(shè)備數(shù)40.5億;構(gòu)建全球多語種技術(shù)生態(tài),目前平臺(tái)聚集海外開發(fā)者數(shù)超過40萬。
第四,讓科技更有溫度,項(xiàng)目持續(xù)助力公益,關(guān)愛弱勢(shì)群體和特殊人群。
“聽見AI的聲音”公益行動(dòng),為聽力障礙人士提供免費(fèi)的實(shí)時(shí)語音轉(zhuǎn)文字服務(wù)、捐贈(zèng)免費(fèi)時(shí)長(zhǎng),截至2024年6月,累計(jì)捐贈(zèng)時(shí)長(zhǎng)超一億分鐘;發(fā)起“三聲有幸”項(xiàng)目,累計(jì)服務(wù)1368萬人,助力公益團(tuán)隊(duì)創(chuàng)建無障礙應(yīng)用超3萬個(gè);進(jìn)行推普脫貧攻堅(jiān),累計(jì)助力超115萬少數(shù)民族群眾,成為《國(guó)家通用語言文字法》施行22年來首次表彰活動(dòng)中的企業(yè)先進(jìn)集體。
項(xiàng)目產(chǎn)業(yè)生態(tài)繁榮、成效顯著。近三年,多語種智能語音技術(shù)產(chǎn)業(yè)化項(xiàng)目累計(jì)實(shí)現(xiàn)直接經(jīng)濟(jì)效益521.28億元,并帶動(dòng)由工信部和安徽省政府共建、以科大訊飛為核心的“中國(guó)聲谷”產(chǎn)業(yè)集聚發(fā)展,并上升為中部崛起的國(guó)家戰(zhàn)略。
未來:智能語音+認(rèn)知大模型用人工智能建設(shè)美好世界
十年磨一劍,科大訊飛創(chuàng)業(yè)25年來第三次獲得國(guó)家科技進(jìn)步獎(jiǎng),對(duì)于科大訊飛而言,是一個(gè)總結(jié),也是新開始!
通用人工智能時(shí)代,科大訊飛多語種智能語音關(guān)鍵技術(shù)中的創(chuàng)新和大模型技術(shù)相互補(bǔ)充、相互促進(jìn)。
語音屬性解耦、語音信號(hào)時(shí)空分離等技術(shù)突破,可以將語音信號(hào)經(jīng)過編碼后輸入到大語言模型,顯著提升語音大模型的效果。2024年1月30日,科大訊飛就基于上述技術(shù)融合路線發(fā)布了星火語音大模型,顯著超過了OpenAI的Whisper v3的語音大模型能力,Whisper v3的24個(gè)主要語種的平均識(shí)別率為82%,而星火語音大模型達(dá)到了90%。4月26日,科大訊飛又首發(fā)多情感超擬人合成和一句話聲音復(fù)刻能力,使機(jī)器具備更加豐富的超擬人情緒感知和表達(dá)。
大模型技術(shù)可以在復(fù)雜語義理解、長(zhǎng)文本建模能力上進(jìn)一步提升語音識(shí)別、合成和翻譯的效果,同時(shí)基于其強(qiáng)大的語義理解、知識(shí)問答、多輪對(duì)話、多模態(tài)建模能力,也能進(jìn)一步大幅提升智能語音技術(shù)的使用場(chǎng)景和應(yīng)用價(jià)值,支撐實(shí)現(xiàn)語音同傳、自動(dòng)客服、輔學(xué)答疑、家庭醫(yī)生、虛擬員工、陪伴機(jī)器人、服務(wù)機(jī)器人等未來智能產(chǎn)品創(chuàng)新,帶來巨大產(chǎn)業(yè)機(jī)會(huì),加速通用人工智能時(shí)代的到來。
6月27日,訊飛星火V4.0也將正式發(fā)布,底座能力全面對(duì)標(biāo)GPT-4 Turbo,語音大模型也將迎來全新升級(jí)。
未來,在科大訊飛國(guó)際領(lǐng)先的智能語音技術(shù)基礎(chǔ)之上,訊飛星火將進(jìn)一步向著“解放生產(chǎn)力、釋放想象力,為每個(gè)企業(yè)和每個(gè)人打造專屬AI助手”的更大愿景,持續(xù)攀登、持續(xù)進(jìn)步,用人工智能建設(shè)美好世界!