來(lái)源:電子發(fā)燒友網(wǎng)
1952年,貝爾實(shí)驗室(Bell Labs)制造一臺6英尺高自動(dòng)數字識別機“Audrey”,它可以識別數字0~9的發(fā)音,且準確度高達90%以上。并且它對熟人的精準度高,而對陌生人則偏低。
1956年,普林斯頓大學(xué)RCA實(shí)驗室開(kāi)發(fā)了單音節詞識別系統,能夠識別特定人的十個(gè)單音節詞中所包含的不同音節。
1959年,MIT的林肯實(shí)驗室開(kāi)發(fā)了針對十個(gè)元音的非特定人語(yǔ)音識別系統。
智能語(yǔ)音的發(fā)展過(guò)程歷史詳細概述
二十世紀六十年代初,東京無(wú)線(xiàn)電實(shí)驗室、京都大學(xué)和NEC實(shí)驗室在語(yǔ)音識別領(lǐng)域取得了開(kāi)拓性的進(jìn)展,各自先后制作了能夠進(jìn)行語(yǔ)音識別的專(zhuān)用硬件。
1964年的世界博覽會(huì )上,IBM向世人展示了數字語(yǔ)音識別的“shoe box recognizer”。
二十世紀七十年代,語(yǔ)音識別的研究取得了突破性的進(jìn)展,研究重心仍然是孤立詞語(yǔ)語(yǔ)音識別。
1971年,美國國防部研究所(Darpa)贊助了五年期限的語(yǔ)音理解研究項目,希望將識別的單詞量提升到1000以上。參與該項目的公司和學(xué)術(shù)機構包括IBM、卡內基梅隆大學(xué)(CMU)、斯坦福研究院。就這樣,Harpy在CMU誕生了。不像之前的識別器,Harpy可以識別整句話(huà)。
二十世紀八十年代,NEC提出了二階動(dòng)態(tài)規劃算法,Bell實(shí)驗室提出了分層構造算法,以及幀同步分層構造算法等。同時(shí),連接詞和大詞匯量連續語(yǔ)音的識別得到了較大發(fā)展,統計模型逐步取代模板匹配的方法,隱馬爾科夫模型(HMM)成為語(yǔ)音識別系統的基礎模型。
八十年代中期,IBM創(chuàng )造了一個(gè)語(yǔ)音控制的打字機—Tangora,能夠處理大約20000單詞。IBM的研究就是基于隱形馬爾科夫鏈模型(hidden Markov model),在信號處理技術(shù)中加入統計信息。這種方法使得在給定音素情況下,很有可能預測下一個(gè)因素。
1984年,IBM發(fā)布的語(yǔ)音識別系統在5000個(gè)詞匯量級上達到了95%的識別率。
1985年AT&T貝爾實(shí)驗室建造了第一個(gè)智能麥克風(fēng)系統,用來(lái)研究大室內空間的聲源位置追蹤問(wèn)題。
1987年開(kāi)始,國家開(kāi)始執行963計劃后,國家863智能計算機主題專(zhuān)家組為語(yǔ)音識別研究立項,每?jì)赡暌淮巍?/p>
1987年12月,李開(kāi)復開(kāi)發(fā)出世界上第一個(gè)“非特定人連續語(yǔ)音識別系統”。
1988年,卡耐基梅隆大學(xué)結合矢量量化技術(shù)(VQ),用VQ/HMM方法開(kāi)發(fā)了世界上第一個(gè)非特定人大詞匯量連續語(yǔ)音識別系統SPHINX,能夠識別包括997個(gè)詞匯的4200個(gè)連續語(yǔ)句。
同年,清華大學(xué)和中科院聲學(xué)所在大詞庫漢語(yǔ)聽(tīng)寫(xiě)機的研制上取得了突破性進(jìn)展。
1990年,聲龍發(fā)布了第一款消費級語(yǔ)音識別產(chǎn)品Dragon Dictate,價(jià)格高達9000美元。
1992年,IBM引入了它的第一個(gè)聽(tīng)寫(xiě)系統,稱(chēng)為“IBM Speech Server Series (ISSS)”。
1992年研發(fā)的Sphinx-II在同年美國國防部先進(jìn)技術(shù)研究計劃署(DARPA)資助的語(yǔ)音基準評測中獲得了最高的識別準確度,這主要得益于其在高斯混合和馬爾可夫狀態(tài)層次上用栓連參數平衡了可訓練性和高效性。
1995年,Windows 95上首次搭載微軟SAPI,它使應用程序開(kāi)發(fā)者能夠在Windows上創(chuàng )建語(yǔ)音程序。
1995年,AT&T研究院的 Dave Ladd, Chris Ramming, Ken Rehor 以及 Curt Tuckey 在頭腦風(fēng)暴關(guān)于互聯(lián)網(wǎng)會(huì )如何改變電話(huà)應用的時(shí)候,產(chǎn)生了一些新的想法:為什么不設計這樣一個(gè)系統來(lái)運行一種可以解析某種語(yǔ)音標記語(yǔ)言的語(yǔ)音瀏覽器,用來(lái)把互聯(lián)網(wǎng)的內容和服務(wù)提供到千家萬(wàn)戶(hù)的電話(huà)上。于是,AT&T就開(kāi)始“電話(huà)網(wǎng)絡(luò )項目”(Phone Web Project)。之后,Chris繼續留在A(yíng)T&T,Ken去了朗訊,Dave和Curt去了摩托羅拉。(1999年初的時(shí)候,他們分別在各自的公司邁出了語(yǔ)音標記語(yǔ)言規范實(shí)質(zhì)性的第一步。因為他們的密友關(guān)系,這幾家公司合作成立了一個(gè)VoiceXML論壇組織,IBM也作為一個(gè)創(chuàng )始公司加入了進(jìn)來(lái)。)
1997年IBM ViaVoice首個(gè)語(yǔ)音聽(tīng)寫(xiě)產(chǎn)品問(wèn)世,你只要對著(zhù)話(huà)筒喊出要輸入的字符,它就會(huì )自動(dòng)判斷并且幫你輸入文字。次年又開(kāi)發(fā)出可以識別上海話(huà)、廣東話(huà)和四川話(huà)等地方口音的語(yǔ)音識別系統ViaVoice’ 98。
1998年,微軟在北京成立亞洲研究院,將漢語(yǔ)語(yǔ)音識別納入重點(diǎn)研究方向之一。
2001年,比爾蓋茨在美國消費電子展上展示了一臺代號為MiPad的原型機。Mipad展現了語(yǔ)音多模態(tài)移動(dòng)設備的愿景。
2002年,中科院自動(dòng)化所及其所屬模式科技公司推出了“天語(yǔ)”中文語(yǔ)音系列產(chǎn)品——Pattek ASR,結束了該領(lǐng)域一直被國外公司壟斷的局面。
2002年,美國國防部先進(jìn)技術(shù)研究計劃署(DARPA)首先啟動(dòng)了EARS項目和TIDES 項目; 由于EARS項目過(guò)于敏感,EARS和TIDES兩個(gè)項目合并為“全球自主語(yǔ)言開(kāi)發(fā)”(Global Autonomous Language Exploitation,GALE)。GALE目標是應用計算機軟件技術(shù)對海量規模的多語(yǔ)言語(yǔ)音和文本進(jìn)行獲取、轉化、分析和翻譯。
2006年,辛頓(Hinton)提出深度置信網(wǎng)絡(luò )(DBN),促使了深度神經(jīng)網(wǎng)絡(luò )(Deep Neural Network,DNN)研究的復蘇,掀起了深度學(xué)習的熱潮。
2009年,辛頓以及他的學(xué)生默罕默德(D. Mohamed)將深度神經(jīng)網(wǎng)絡(luò )應用于語(yǔ)音的聲學(xué)建模,在小詞匯量連續語(yǔ)音識別數據庫TIMIT上獲得成功。
2009年微軟Win7集成語(yǔ)音功能。
2010年Google Vioce Action支持語(yǔ)音操作與搜索。
2011年初,微軟的DNN模型在語(yǔ)音搜索任務(wù)上獲得成功。
同年科大訊飛將DNN 首次成功應用到中文語(yǔ)音識別領(lǐng)域,并通過(guò)語(yǔ)音云平臺提供給廣大開(kāi)發(fā)者使用。
2011年10月,蘋(píng)果iPhone 4S發(fā)布,個(gè)人手機助理Siri誕生,人機交互翻開(kāi)新篇章。
2012年,科大訊飛在語(yǔ)音合成領(lǐng)域首創(chuàng )RBM技術(shù)。
2012年,谷歌的智能語(yǔ)音助手Google Now 的形式出現在眾人面前,用在安卓 4.1 和 Nexus 手機上。
2013年,Google發(fā)布Google Glass,蘋(píng)果也加大了對iWatch的研發(fā)投入,穿戴式語(yǔ)音交互設備成為新熱點(diǎn)。
同年,科大訊飛在語(yǔ)種識別領(lǐng)域首創(chuàng )BN-ivec技術(shù)。
2014 年,思必馳推出首個(gè)可實(shí)時(shí)轉錄的語(yǔ)音輸入板。
2014年11月,亞馬遜智能音箱Echo發(fā)布。
2015 年,思必馳推出首個(gè)可智能打斷糾正的語(yǔ)音技術(shù)。
2016年,Google Assistant伴隨Google Home 正式亮相,搶奪亞馬遜智能音箱市場(chǎng)。(亞馬遜Echo在2016年的智能音箱市場(chǎng)占有率達到了巔峰的88%)
同年,科大訊飛上線(xiàn)DFCNN(深度全序列卷積神經(jīng)網(wǎng)絡(luò ),Deep Fully Convolutional Neural Network)語(yǔ)音識別系統。
同年11月,科大訊飛、搜狗、百度先后召開(kāi)發(fā)布會(huì ),對外公布語(yǔ)音識別準確率均達到“97%”。
2017年3月,IBM結合了 LSTM 模型和帶有 3 個(gè)強聲學(xué)模型的 WaveNet 語(yǔ)言模型?!凹袛U展深度學(xué)習應用技術(shù)終于取得了 5.5% 詞錯率的突破”。相對應的是去年5月的6.9%。
2017年8月,微軟發(fā)布新的里程碑,通過(guò)改進(jìn)微軟語(yǔ)音識別系統中基于神經(jīng)網(wǎng)絡(luò )的聽(tīng)覺(jué)和語(yǔ)言模型,在去年基礎上降低了大約12%的出錯率,詞錯率為5.1%,聲稱(chēng)超過(guò)專(zhuān)業(yè)速記員。相對應的是去年10月的5.9%,聲稱(chēng)超過(guò)人類(lèi)。
2017年12月,谷歌發(fā)布全新端到端語(yǔ)音識別系統(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),詞錯率降低至5.6%。相對于強大的傳統系統有 16% 的性能提升。
市場(chǎng)分析公司Canalys在2018年1月分布一份報告,其預測2018年將是普及智能音箱的“決定性一年”,相比全年出貨量剛過(guò)3000萬(wàn)臺的2017年,2018年智能音箱全球出貨量預計將達到5630萬(wàn)臺。
智能語(yǔ)音的發(fā)展過(guò)程歷史詳細概述
中投顧問(wèn)發(fā)布的《2018-2022年中國智能語(yǔ)音行業(yè)深度調研及投資前景預測報告》顯示我國智能語(yǔ)音市場(chǎng)整體處于啟動(dòng)期,智能車(chē)載,智能家居,智能可穿戴等垂直領(lǐng)域處于爆發(fā)前夜。