盤點(diǎn):語(yǔ)音交互國(guó)內(nèi)外現(xiàn)狀
智能化的產(chǎn)品正在逐漸走入消費(fèi)者的日常生活,但是關(guān)于什么樣的產(chǎn)品才更智能,市場(chǎng)上一直爭(zhēng)論不休。有人說(shuō)達(dá)到一種無(wú)感化的控制,讓產(chǎn)品能夠根據(jù)用戶的個(gè)人喜好而自動(dòng)調(diào)節(jié)以達(dá)到用戶習(xí)慣的狀態(tài)才是最好的,聽起來(lái)不錯(cuò),一件能夠主動(dòng)智能的產(chǎn)品是能夠帶來(lái)很多的便利,但是只是根據(jù)用戶的歷史習(xí)慣去調(diào)控便會(huì)陷入另一種機(jī)械式的困境,不能隨機(jī)應(yīng)變。
筆者個(gè)人覺得,作為一款產(chǎn)品,用戶能夠通過某種手段對(duì)其進(jìn)行控制是 “智能”的基礎(chǔ)。而通過什么樣途徑進(jìn)行控制呢,雖然不同的應(yīng)用場(chǎng)景會(huì)有不同的操控交互技術(shù),但是對(duì)于多數(shù)的應(yīng)用場(chǎng)景來(lái)說(shuō)語(yǔ)音交互便是最方便省事的,可以說(shuō)語(yǔ)音交互技術(shù)將會(huì)成為越來(lái)越主流的技術(shù)。
前不久,英特爾宣布與語(yǔ)音識(shí)別技術(shù)公司Sensory達(dá)成了合作,將在以后Intel最新的芯片中集成整合Sensory公司的TrulyHandsfree語(yǔ)音識(shí)別技術(shù)。作為芯片行業(yè)的龍頭企業(yè),此舉無(wú)疑是對(duì)未來(lái)語(yǔ)音識(shí)別技術(shù)的極大認(rèn)可。
語(yǔ)音交互,主要取決于兩點(diǎn):語(yǔ)音識(shí)別,和語(yǔ)義理解
語(yǔ)音識(shí)別——通過直接人機(jī)語(yǔ)音對(duì)話方式即對(duì)人類語(yǔ)音的詞匯語(yǔ)法的分解,并將內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或字符序列。思維是人腦的機(jī)能,是對(duì)外部現(xiàn)實(shí)的反映;語(yǔ)言則是現(xiàn)實(shí)思維、鞏固和傳達(dá)思維成果即思想的工具。
在日常生活當(dāng)中,如果只從語(yǔ)音出發(fā),我們根本沒有可能聽懂“XX牌普通話”,但是我們還是聽懂了,更能用另一種牌子的普通話和他交流,這就涉及到語(yǔ)義理解。
有了語(yǔ)義理解的突破,語(yǔ)音識(shí)別才能脫離桎梏,更上一層樓。
關(guān)于語(yǔ)義理解,目前一門技術(shù)正火,神經(jīng)網(wǎng)絡(luò)。這是一種十分炫酷的技術(shù),將機(jī)器學(xué)習(xí)的方式模仿人類大腦的神經(jīng)元,當(dāng)處理的語(yǔ)言越來(lái)越多時(shí),這種網(wǎng)絡(luò)就可以逐漸理解語(yǔ)言。
實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),這種技術(shù)可使得精確度提升25%以上,這是一個(gè)巨大的飛躍,因?yàn)檫@個(gè)行業(yè)只需要提升5%就具備革命意義。
語(yǔ)音識(shí)別國(guó)內(nèi)外現(xiàn)狀如何,有哪些差距
Nuance
提及語(yǔ)音識(shí)別,就不能不說(shuō)Nuance,就像提到PC處理器不能跨過intel, Nuance有著輝煌的歷史,曾經(jīng)在語(yǔ)音領(lǐng)域一統(tǒng)江湖。
就算現(xiàn)在,瘦死的駱駝比馬大,它仍舊是全球最大的語(yǔ)音技術(shù)公司,專利數(shù)量和市場(chǎng)份額都遙遙領(lǐng)先。蘋果iPhone手機(jī)的虛擬語(yǔ)音助手Siri、三星的語(yǔ)音助手S-Voice、各大航空公司和頂級(jí)銀行的自動(dòng)呼叫中心以及虛擬在線語(yǔ)音助手,都采用了Nuance的技術(shù)。
微軟
微軟通過深度神經(jīng)網(wǎng)絡(luò)技術(shù)獲語(yǔ)音識(shí)別重大突破,錯(cuò)誤率降低至 18.5%,準(zhǔn)確率比傳統(tǒng)技術(shù)提升了 33%。這讓流利的語(yǔ)音對(duì)語(yǔ)音程序變得更加現(xiàn)實(shí)。
該技術(shù)無(wú)需用戶對(duì)識(shí)別系統(tǒng)進(jìn)行 “訓(xùn)練”,而是通過 “即時(shí)、因人而異的自動(dòng)語(yǔ)音識(shí)別” 技術(shù)實(shí)現(xiàn)。換言之,真正的人聲識(shí)別。
微軟表示該技術(shù)突破大大提升了語(yǔ)音技術(shù)商業(yè)化的潛力。
谷歌
和大名鼎鼎的蘋果Siri相比,谷歌的語(yǔ)音搜索服務(wù)Google Voice Search顯得不那么有名氣。而實(shí)際上,如果你留意應(yīng)該會(huì)發(fā)現(xiàn),谷歌語(yǔ)音搜索技術(shù)最近已經(jīng)有了飛躍式的進(jìn)步,其識(shí)別率更是甩Siri幾條街。
和有美國(guó)國(guó)防部背景的Siri不同,Google Voice Search一直都備受語(yǔ)音識(shí)別算法困擾,而后人工智能大師杰弗里?希爾頓加盟谷歌,同時(shí)谷歌還挖走了Nuance的一些職員,這令谷歌的語(yǔ)音識(shí)別技術(shù)得到提升,并從產(chǎn)品設(shè)計(jì)之初就自帶了AI屬性。
谷歌前段時(shí)間向第三方開發(fā)者開放其語(yǔ)音識(shí)別API,與Nuance及其它的語(yǔ)音識(shí)別公司競(jìng)爭(zhēng)。谷歌云語(yǔ)音API(Google Cloud Speech API)將覆蓋超過80種語(yǔ)言,兼容任何實(shí)時(shí)串流或者批處理模式的應(yīng)用,它將為應(yīng)用程序提供一整套API,給它們帶來(lái)“看、聽與翻譯”方面的功能。谷歌的這一舉措將會(huì)對(duì)整個(gè)行業(yè)產(chǎn)生不小的影響——尤其是對(duì)Nuance。
種種跡象顯示,谷歌似乎變得更加注重語(yǔ)音技術(shù)和眾多的使用案例。例如,該公司在2月宣布將允許Google Docs用戶通過語(yǔ)音來(lái)編輯和設(shè)計(jì)文檔。
蘋果

Google和微軟都摻和了,蘋果當(dāng)然不會(huì)落后。
2013年,蘋果悄悄收購(gòu)了一家語(yǔ)音識(shí)別技術(shù)公司Novauris Technologies,價(jià)格未知。Novauris公司以語(yǔ)音識(shí)別著稱,由其推出的產(chǎn)品和語(yǔ)音識(shí)別系統(tǒng)并非簡(jiǎn)單的識(shí)別單個(gè)的詞句,而是理解上下文。Novauris 也曾推出一個(gè)名為 Novasystem 的分布式服務(wù)器語(yǔ)音識(shí)別系統(tǒng),可同時(shí)處理多個(gè)并發(fā)語(yǔ)音請(qǐng)求,識(shí)別完整的句子,并分析音節(jié)結(jié)構(gòu)。
另外,在過去幾年,蘋果不僅吸納了Siri的語(yǔ)音技術(shù)人才,更是將Nuance公司的多名高級(jí)語(yǔ)音研究人員挖角過來(lái),包括了前研發(fā)副總裁Larry Gillick,以及來(lái)自微軟語(yǔ)音識(shí)別項(xiàng)目高管Alex Acero,后者在微軟工作達(dá) 20 年之久。
蘋果打算利用神經(jīng)網(wǎng)絡(luò)來(lái)提升語(yǔ)音識(shí)別率,微軟研究部門主管 Peter Lee 認(rèn)為,蘋果大約需要花6個(gè)月才能趕上Google 和微軟。
亞馬遜
Echo 音箱就是一個(gè)黑色的小柱子,相比起其他的智能語(yǔ)音助手比如 Siri,它的特點(diǎn)在于看得見、摸得著。一年多下來(lái),Echo 已經(jīng)成為了語(yǔ)音控制智能家居的入口。
上市一年多以來(lái),Echo已經(jīng)學(xué)會(huì)了朗讀小說(shuō)、用Uber叫車、叫達(dá)美諾的匹薩外賣,甚至是配合蝙蝠俠電影上映帶著用戶玩語(yǔ)音探索游戲。
Alexa從一開始就是一個(gè)互聯(lián)網(wǎng)服務(wù)的入口,Siri還停留在蘋果硬件支持的程度,這么說(shuō)起來(lái),更像人工智能的反而是那個(gè)最初被稱作實(shí)體Siri的小黑家伙呢。
再看國(guó)內(nèi)
科大訊飛:中科院典范,站穩(wěn)教育市場(chǎng)
科大訊飛依靠中科大的語(yǔ)音處理技術(shù)以及國(guó)家的大力扶持,穩(wěn)坐“中國(guó)的nuance”之位。根據(jù)調(diào)查,科大訊飛占據(jù)了超過60%的市場(chǎng)份額,絕對(duì)是語(yǔ)音技術(shù)的龍頭企業(yè)。一提到科大訊飛,可能大家想到的都是語(yǔ)音識(shí)別很牛,但其實(shí)它最大的收益來(lái)源是教育,特別是在2013年左右,收購(gòu)了很多家語(yǔ)音評(píng)測(cè)公司,包括啟明科技等,對(duì)教育市場(chǎng)形成了壟斷,經(jīng)過一系列的收購(gòu)后,目前所有省份的口語(yǔ)評(píng)測(cè)用的都是科大訊飛的引擎,由于其占據(jù)了考試的制高點(diǎn),所有的學(xué)校及家長(zhǎng)都愿意為其買單。這種局面很難打破,所以其霸主的地位也很難撼動(dòng)。
百度語(yǔ)音:有錢任性,技術(shù)實(shí)力很強(qiáng)大
百度語(yǔ)音其實(shí)很早就被確立為戰(zhàn)略方向,2010年與中科院聲學(xué)所合作研發(fā)語(yǔ)音識(shí)別技術(shù),但是市場(chǎng)發(fā)展相對(duì)緩慢。百度幾乎成為了很多歸國(guó)人員刷簡(jiǎn)歷的跳板,因此直到2014年,百度重新梳理了戰(zhàn)略,終于找對(duì)了人,請(qǐng)來(lái)了人工智能領(lǐng)域的泰斗級(jí)大師吳恩達(dá),正式組建了語(yǔ)音團(tuán)隊(duì),專門研究語(yǔ)音相關(guān)技術(shù),由于有百度強(qiáng)大的資金支持,到目前為止收獲頗豐,斬獲了近13%的市場(chǎng)份額,其技術(shù)實(shí)力已經(jīng)可以和擁有十多年技術(shù)與經(jīng)驗(yàn)積累的科大訊飛相提并論。
其他諸如中科信利,尚科語(yǔ)音,捷通華聲等等都是國(guó)內(nèi)做語(yǔ)音交互技術(shù)走的比較遠(yuǎn)的企業(yè),總得來(lái)說(shuō),語(yǔ)音識(shí)別的門檻并不高,因此國(guó)內(nèi)各大公司也逐漸加入進(jìn)來(lái)。搜狗開始采用的是云知聲的語(yǔ)音識(shí)別引擎,但很快就搭建起自己的語(yǔ)音識(shí)別引擎,主要應(yīng)用于搜狗輸入法,效果也還可以。騰訊當(dāng)然不會(huì)落后,微信也建立了自己語(yǔ)音識(shí)別引擎,用于將語(yǔ)音轉(zhuǎn)換為文字,但這個(gè)做的還是有點(diǎn)差距,想必大家也都體驗(yàn)過。阿里,愛奇藝,360,樂視等等也都在搭建自己的語(yǔ)音識(shí)別引擎,但這些多的是自研自用,技術(shù)乏善可陳。
國(guó)內(nèi)外巨頭布局語(yǔ)音識(shí)別的策略差異
上面歷數(shù)了國(guó)內(nèi)外各個(gè)巨頭陸續(xù)建立語(yǔ)音識(shí)別引擎的過程和優(yōu)勢(shì)技術(shù),有一點(diǎn)我們還是要特別留意一下:國(guó)外巨頭欲進(jìn)入語(yǔ)音識(shí)別行業(yè),首先想到的就是收購(gòu)初創(chuàng)的團(tuán)隊(duì),這些團(tuán)隊(duì)大都也在5-20人之間,掌握著一定的優(yōu)勢(shì)技術(shù)。顯然收購(gòu)一家初創(chuàng)團(tuán)隊(duì)很難滿足其戰(zhàn)略發(fā)展,因此一旦技術(shù)與公司業(yè)務(wù)融合以后,這些巨頭都會(huì)頻繁出手再次收購(gòu)以補(bǔ)齊短板,逐漸建立起適合自己公司發(fā)展的語(yǔ)音識(shí)別優(yōu)勢(shì)。
對(duì)于技術(shù)相對(duì)重要而技術(shù)點(diǎn)又比較分散的科技型公司,國(guó)外巨頭一般不會(huì)采取大手筆收購(gòu)的商業(yè)模式,這也是導(dǎo)致Nuance最終無(wú)人問津的重要因素。想想也是,巨頭自然不會(huì)用別人家的引擎以免將來(lái)掣肘,何況收購(gòu)技術(shù)類的大型公司無(wú)疑也是給自己找了個(gè)麻煩。
國(guó)內(nèi)的語(yǔ)音識(shí)別發(fā)展脈絡(luò)沒有那么清晰,剛開始各個(gè)巨頭也都是采用專用公司比如科大訊飛、中科信利、云知聲等公司的引擎。后來(lái)醒悟過來(lái),紛紛謀求自建,但是除了百度不斷砸入重金后獲得了一定的效果外,其他自建的各大公司沒有啥實(shí)質(zhì)性進(jìn)展。這一點(diǎn)從他們?cè)噲D低薪聘請(qǐng)語(yǔ)音識(shí)別相關(guān)人才的策略上,也可知道其戰(zhàn)略上沒什么可發(fā)展的。語(yǔ)音識(shí)別行業(yè)屬于聲學(xué)和計(jì)算機(jī)的交叉技術(shù),本來(lái)培養(yǎng)的人才就很稀缺,而從上述分析可以看出,國(guó)內(nèi)外的技術(shù)源頭很集中,無(wú)非就是業(yè)界相關(guān)的研究機(jī)構(gòu)和擁有研發(fā)實(shí)力的巨頭公司。
目前智能語(yǔ)音識(shí)別主要有哪些問題亟待解決
1、對(duì)自然語(yǔ)言的識(shí)別和理解。首先必須將連續(xù)的講話分解為詞、音素等單位,其次要建立一個(gè)理解語(yǔ)義的規(guī)則。
2、語(yǔ)音信息量大。語(yǔ)音模式不僅對(duì)不同的說(shuō)話人不同,對(duì)同一說(shuō)話人也是不同的,例如,一個(gè)說(shuō)話人在隨意說(shuō)話和認(rèn)真說(shuō)話時(shí)的語(yǔ)音信息是不同的。一個(gè)人的說(shuō)話方式隨著時(shí)間變化。
3、語(yǔ)音的模糊性。說(shuō)話者在講話時(shí),不同的詞可能聽起來(lái)是相似的。這在英語(yǔ)和漢語(yǔ)中常見。
4、環(huán)境噪聲和干擾對(duì)語(yǔ)音識(shí)別有嚴(yán)重影響,致使識(shí)別率低。
可以說(shuō)聲音已經(jīng)融入我們的身體,成為一種本能,它是最優(yōu)的表達(dá)方式,自然語(yǔ)言回答代表未來(lái)智能化的產(chǎn)品的終極形式。
基于云計(jì)算的自然回答功能結(jié)合智能家居系統(tǒng)在功能和應(yīng)用上更是可以開拓?zé)o數(shù)。
不得不說(shuō),智能語(yǔ)音產(chǎn)業(yè)正在形成一種趨勢(shì),這對(duì)于正在發(fā)展中的物聯(lián)網(wǎng)行業(yè)來(lái)說(shuō),又將是一片待開發(fā)的新藍(lán)海,很值得關(guān)注。
對(duì)于智能語(yǔ)音類應(yīng)用來(lái)說(shuō),蘋果的Siri讓用戶接受了這種方式,這種交互方式還有很長(zhǎng)的路要走,而智能語(yǔ)音真正深入到用戶生活,還需要好多個(gè)Siri來(lái)引爆。