科大訊飛副總裁章繼東:訊飛輸入法的十年技術(shù)變革史

田進(jìn)2020-10-21 12:00

經(jīng)濟(jì)觀察網(wǎng) 記者 田進(jìn) 從訊飛輸入法誕生到日語音交互次數(shù)超過10億次,科大訊飛花了十年。

10月20日,在訊飛輸入法10周年沙龍活動上,科大訊飛副總裁章繼東介紹了訊飛輸入法過去十年發(fā)生的技術(shù)變革。與此同時,章繼東發(fā)布了訊飛輸入法10.0版本。據(jù)了解,該版本搭載了“動態(tài)自適應(yīng)編解碼語音識別引擎”,新增的唇形輔助輸入,能夠提高嘈雜環(huán)境及近距離多人說話的識別效果。另一方面優(yōu)化了領(lǐng)域詞識別,可更精準(zhǔn)的匹配游戲、醫(yī)療、旅游、購物等不同的場景詞匯。

對于下一個十年,科大訊飛方面表示,訊飛輸入法將發(fā)力5G和AIoT領(lǐng)域,未來的輸入法不僅僅是文字、表情、符號的輸入工具,而是提供應(yīng)用于各種設(shè)備終端、全鏈條交互的智能服務(wù)。

以下為經(jīng)濟(jì)觀察網(wǎng)整理的章繼東關(guān)于訊飛輸入法十年發(fā)展史的演講及媒體采訪精簡文字:

1999年,訊飛由在校大學(xué)生創(chuàng)業(yè)成立,當(dāng)時中國的智能語音技術(shù)全部掌握在國外企業(yè)手上,如IBM、微軟等。1999年,李開復(fù)老師創(chuàng)建了微軟亞洲研究院,當(dāng)時我們董事長劉慶峰正在中科大讀博,李開復(fù)老師邀請我們董事長去那里工作,但我們董事長拒絕了,他希望中國人的技術(shù)一定要掌握在中國人的手上。

科大訊飛作為中國第一個由在校大學(xué)生創(chuàng)業(yè)的上市公司,2010年10月22號,我們發(fā)布了訊飛開放平臺,2017年開放平臺成為中國首批4家國家級人工智能創(chuàng)新平臺,現(xiàn)在已有230多萬開發(fā)者在我們整體生態(tài)里。2010年10月28號,我們正式發(fā)布了訊飛輸入法。

當(dāng)時訊飛輸入法作為我們開放平臺的一個智能語音示范應(yīng)用,確實是一個比較小的產(chǎn)品,甚至于在互聯(lián)網(wǎng)上都沒有形成一定的傳播。

這時,核心技術(shù)怎樣促進(jìn)產(chǎn)業(yè)的發(fā)展?我覺得有三點特別重要。第一是理解深度使用網(wǎng)絡(luò)為主的算法;第二是大數(shù)據(jù);第三是漣漪效應(yīng),需要不斷的迭代和優(yōu)化。通過這三點,產(chǎn)品才越來越好。我們輸入法在早期準(zhǔn)確率是比較弱的,但現(xiàn)在準(zhǔn)確率能達(dá)到百分之98%,甚至在很好的情況下能達(dá)到99%,這都是來自于科技的發(fā)展。

2010年10月28號發(fā)布訊飛輸入法后,這成為第一個中文語音輸入法。2011年7月4日,谷歌輸入法發(fā)布,然后QQ輸入法、搜狗輸入法才接連誕生。

很多的技術(shù)是看不見的,但我們相信技術(shù)會改變世界。我們每一次的技術(shù)革新都會放在我們的產(chǎn)品上。比如說我們最早在2012年,我們就把全球首個中文云識別的DNA,即當(dāng)時講的深度神經(jīng)網(wǎng)絡(luò),上線到我們的產(chǎn)品中,使得語音識別率一下子提升80%。

2010年,我們就曾將GMM-hmm-隱馬爾可夫模型應(yīng)用到語音識別系統(tǒng)中:運用WFST解碼器,提高復(fù)雜的語言模型,識別率達(dá)到70%;2011年,運用BN(bottom neck)識別模型,通過神經(jīng)網(wǎng)絡(luò)提取音素特征,提升識別準(zhǔn)確率;2012年,全球首個中文語音識別DNN系統(tǒng)上線,識別率相對提升35%,準(zhǔn)確率提升至80%;2013年,運用SDT-DNN和基于DNN的VAD模型、深度學(xué)習(xí)離線版本,語音識別準(zhǔn)確率提升至85%,實現(xiàn)離線語音識別;2014年,運用UB-LSTM,語音識別率提高至95%。

2015年,我們運用無監(jiān)督的speak code技術(shù) ,實現(xiàn)了聲學(xué)個性化識別。因為除了語言模型之外,還有聲學(xué)模型,即每個人的聲音特征不一樣,可以基于我們每個人的聲音個性化來進(jìn)行分辨的技術(shù),實現(xiàn)實際效率的提升。2016年,將DFCNN應(yīng)用于語音識別,語音識別準(zhǔn)確率達(dá)97%,離線、噪聲、遠(yuǎn)場識別率顯著提升。

2017年,我們運用Cache based Fast Adaptation技術(shù),創(chuàng)新融合個性化語音和語音模型,實現(xiàn)智適應(yīng)語音識別;2018年,運用HybridCNN算法,通過結(jié)構(gòu)優(yōu)化大幅提升并發(fā)路數(shù),語音識別準(zhǔn)確率突破98%;2019年,基于注意力機(jī)制的Encode-Deconde模型應(yīng)用,實現(xiàn)中英文免切換語音識別;2020年,動態(tài)自適應(yīng)編解碼語音識別引擎 ,多模態(tài)輸入和領(lǐng)域個性化識別。

在過往10年當(dāng)中,我們的產(chǎn)品得到了很多用戶的認(rèn)可,比如說我們的輸入法日語音交互次數(shù)已經(jīng)達(dá)到10億次,累計服務(wù)設(shè)備數(shù)超5億,語音用戶占比超70%。2020年2月,經(jīng)過10天的緊急技術(shù)攻關(guān),訊飛輸入法上線武漢話轉(zhuǎn)普通話功能,通過訊飛輸入法上線開放給廣大用戶,助力醫(yī)患溝通,在短短的的時間里,累計服務(wù)人數(shù)達(dá)3萬。

版權(quán)聲明:以上內(nèi)容為《經(jīng)濟(jì)觀察報》社原創(chuàng)作品,版權(quán)歸《經(jīng)濟(jì)觀察報》社所有。未經(jīng)《經(jīng)濟(jì)觀察報》社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,否則將依法追究相關(guān)行為主體的法律責(zé)任。版權(quán)合作請致電:【010-60910566-1260】。
大國資新聞部記者
關(guān)注宏觀經(jīng)濟(jì)以及人社部相關(guān)產(chǎn)業(yè)政策。擅長細(xì)節(jié)深度寫作。

熱新聞

電子刊物

點擊進(jìn)入