語音識別技術(shù)發(fā)展史與行業(yè)最佳實踐全解析
在人工智能技術(shù)的探索征程里,語音語義識別技術(shù)一直扮演著先驅(qū)的角色,不管是在技術(shù)探索還是商業(yè)落地方面都走在了前面。近兩年來隨著深度學(xué)習(xí)技術(shù)的進(jìn)一步深入,其識別準(zhǔn)確率更是得以大大提升。為教育、客服、電信等傳統(tǒng)行業(yè)的產(chǎn)業(yè)升級帶來了一大助力,在車載、家居、醫(yī)療、智能硬件等領(lǐng)域又開辟出了新的商業(yè)應(yīng)用探索實踐。
語音語義技術(shù)目前發(fā)展到了哪個階段?NLP技術(shù)在企業(yè)日常業(yè)務(wù)中能發(fā)揮怎樣的作用?在十億級別日活的微信端有何應(yīng)用案例?在騰訊云海量客戶場景下又為企業(yè)帶來了怎樣的助力?9月13日,TVP AI技術(shù)閉門會語音語義專題遍邀行業(yè)大咖,為行業(yè)找尋更多解題思路。
微信語音識別理論和實踐
在語音識別技術(shù)的落地過程中,微信是探索得比較深入的一個代表。現(xiàn)在的微信不僅可以非常方便地將語音轉(zhuǎn)換為文字,甚至可以識別出語音中蘊(yùn)含的情緒,在轉(zhuǎn)化出的文字中用貼切的emoji表情表達(dá)情感。
微信智聆語音技術(shù)負(fù)責(zé)人盧鯉老師向與會者介紹了語音識別技術(shù)的發(fā)展歷程,他表示如果我們想更客觀地判斷一項技術(shù)的今天和明天,回顧其發(fā)展歷程是很有必要的。
語音識別發(fā)展歷史回顧
語音識別技術(shù)的研究早在上世紀(jì)5、60年代就已經(jīng)開始了,傳統(tǒng)語音識別使用Hybrid框架,該系統(tǒng)具備一個明顯的層次結(jié)構(gòu),包括聲學(xué)模型、詞典、語言模型三個部分。對傳統(tǒng)Hybrid系統(tǒng)而言,聲學(xué)模型是其中非常重要的部分,后續(xù)技術(shù)的諸多改進(jìn)也是面向聲學(xué)模型進(jìn)行的。
2009年以后,語音識別技術(shù)迎來了一次較大的發(fā)展。業(yè)界主流的觀點認(rèn)為這是因為語音識別技術(shù)搭上了深度學(xué)習(xí)發(fā)展的快車,盧鯉老師表示這是其中一個重要原因,但不是唯一原因。這個過程中,GPU等硬件設(shè)施的發(fā)展提供了基礎(chǔ),互聯(lián)網(wǎng)尤其移動互聯(lián)網(wǎng)的飛速發(fā)展帶來更多的場景,使得語音識別技術(shù)從實驗室到廣泛民用市場。
在語音識別技術(shù)的發(fā)展過程中,盧鯉老師重點介紹了DNN、TDNN、LSTM以及Transformer等模型的發(fā)展以及對性能帶來的提升。從2014年以后,部分科學(xué)家開始在Hybrid系統(tǒng)以外嘗試端到端的系統(tǒng),相比前者,該系統(tǒng)輸入語音,輸出的就變成了文字。
“語音識別技術(shù)領(lǐng)域沒有完美的系統(tǒng)。Hybrid系統(tǒng)使用靈活,但整體擬合能力不如端到端系統(tǒng);端到端系統(tǒng)數(shù)據(jù)整體建模能力強(qiáng),但靈活度不及Hybrid系統(tǒng)。”
微信智聆平臺
“微信智聆平臺起步于2011年底,直到2017年才給自己取了個品牌的名字。當(dāng)時是覺得效果做得不好,用戶想吐槽的時候也沒有具體對象?!北R鯉老師開玩笑著介紹了微信智聆平臺的發(fā)展史,這個騰訊自主研發(fā)的語音技術(shù)平臺,截至目前已經(jīng)在C端、B端、G端等多個領(lǐng)域落地近百個產(chǎn)品,日請求量超30億。在獨(dú)立第三方機(jī)構(gòu)SpeechIO的測試報告中名列前茅。
微信智聆平臺是目前在大規(guī)模提供服務(wù)的廠家中處于最好的幾家之一,盧鯉老師介紹了微信智聆平臺在性能提升方面所做的一些工作。
首先是TLCBLSTM網(wǎng)絡(luò)。LSTM網(wǎng)絡(luò)結(jié)構(gòu)的主要形式有兩種,一種是單向,一種是雙向。一般情況下,雙向LSTM性能比單向的要高出10%左右,但雙向LSTM卻有著無法用在流式場景下的局限。TLCBLSTM就是一種既可以把LSTM用在流式場景下,同時又能保持雙向10%性能優(yōu)勢的解決方案。
在LSTM以外,微信智聆平臺還實現(xiàn)了Transformer的網(wǎng)絡(luò)結(jié)構(gòu)。目前該系統(tǒng)的開發(fā)正在有序進(jìn)行中,盧鯉老師指出這種Transformer的結(jié)構(gòu)可以有效利用運(yùn)行的并行性,無損地應(yīng)用在流式系統(tǒng)中。
除了對網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)以外,語音識別還有一個很重要的問題就是魯棒性。影響魯棒性的因素一般有錄音設(shè)備、環(huán)境影響、原始錄音的信號處理等幾類。為此,微信智聆平臺通過SpecAgument技術(shù),強(qiáng)迫網(wǎng)絡(luò)學(xué)習(xí)這類糟糕的數(shù)據(jù),增強(qiáng)網(wǎng)絡(luò)適應(yīng)性。另外還收集了上百種不同的噪聲以及房間混響,加入到原始信號去模擬不同場景,以及利用混合頻帶訓(xùn)練等方式,加強(qiáng)語音識別的魯棒性。
最后,在系統(tǒng)層面,智聆平臺也做了Hybrid和端到端的系統(tǒng)結(jié)構(gòu),同時在實驗室場景下針對二者的互補(bǔ)性做了一些相關(guān)的測試,具體見下圖。
面向應(yīng)用場景
訓(xùn)練好模型、做好系統(tǒng)僅僅只是萬里長征的第一步,盧鯉老師以智聆平臺為例分享了他認(rèn)為在實用中需要考慮的點。
第一,對語音識別的前端考慮。不同的場景對體驗的要求不同,對前端的配置和要求也就不盡相同,也基于此可能造成識別的損失。
第二,在線學(xué)習(xí)之難。通用的語音識別器無法覆蓋所有場景,千萬條句子和關(guān)鍵詞的在線學(xué)習(xí)對算法也有很高要求。
第三,方言識別之難。國內(nèi)方言種類多、某一類方言下的子類彼此不相通,用戶到底需要什么樣的方言識別也仍舊是個問題。
分享結(jié)束后,盧鯉老師在QA環(huán)節(jié)和觀眾討論區(qū)都針對用戶關(guān)注的技術(shù)、細(xì)節(jié)的問題做了細(xì)致的回復(fù),此處限于篇幅不再贅述。
騰訊云AI語音語義助力企業(yè)發(fā)展
騰訊云AI語音語義與應(yīng)用平臺產(chǎn)品中心總經(jīng)理周超向與會者匯報了騰訊云在AI落地過程中的實踐與思考,他表示騰訊云未來將向業(yè)界提供深入各行業(yè)的全AI能力解決方案。
企業(yè)AI需求盤點
根據(jù)目前業(yè)界對企業(yè)AI能力需求的調(diào)查報告顯示,計算機(jī)視覺目前是最受關(guān)注的企業(yè)AI能力,緊隨其后的就是智能語音技術(shù)、自然語言處理技術(shù)的份額。在對AI技術(shù)趨勢發(fā)展做分類,從技術(shù)的觸發(fā)期、期望膨脹期、泡沫破滅期、啟蒙爬升期、再到高原期的曲線可以很清晰地看出各AI技術(shù)所處的發(fā)展位置。
企業(yè)選擇部署AI的原因,最主要的3大構(gòu)成是降低成本、提升效率、創(chuàng)新業(yè)務(wù)。在IDC 2019年中國人工智能白皮書中顯示,目前企業(yè)采納AI后能對業(yè)務(wù)效能有優(yōu)秀的提升的占比不高,AI落地企業(yè)的效果有較大的提升空間。
今年以來,疫情影響推動了AI落地的應(yīng)用,騰訊云在疫情期間協(xié)助抗疫所廣泛采用的AI能力讓人們看到了AI的強(qiáng)大。在此期間,企業(yè)營業(yè)受到極大影響,線上化、數(shù)字化的趨勢在加速,在后疫情時代,出于降本增效的目的,線上線下結(jié)合的實踐也會帶來更多對AI能力的需求。與此同時,人工智能作為國家的新基建戰(zhàn)略7大領(lǐng)域中的重要組成部分,為企業(yè)應(yīng)用人工智能帶來了更大的想象空間。
騰訊云將企業(yè)部署AI面臨的困境總結(jié)為兩大挑戰(zhàn)、三大問題:碎片化和場景化的挑戰(zhàn);行業(yè)知識的門檻、行業(yè)數(shù)據(jù)轉(zhuǎn)換成AI所需語料的挑戰(zhàn)、業(yè)務(wù)改造的成本的問題。在這樣的背景之下,騰訊云希望向客戶提供效果好、門檻低、場景化/個性化的AI能力特質(zhì),助力企業(yè)發(fā)展。
騰訊云AI產(chǎn)品
目前騰訊云AI語音語義產(chǎn)品架構(gòu)從基礎(chǔ)層到產(chǎn)品方案層分為:產(chǎn)品運(yùn)營平臺、基礎(chǔ)模型服務(wù)、應(yīng)用Paas服務(wù)和應(yīng)用產(chǎn)品方案四個部分。在每個產(chǎn)品方向上,騰訊云AI都提供了詳盡的AI能力,企業(yè)可以基于自己的業(yè)務(wù)場景,選擇基礎(chǔ)模型服務(wù)、應(yīng)用PaaS服務(wù)、應(yīng)用產(chǎn)品方案等不同層次的產(chǎn)品,降低企業(yè)應(yīng)用AI能力的門檻。
在企業(yè)客戶的落地過程中,騰訊云觀察到客戶的需求非常全面,除了對語音語義能力的使用以外,還會用到其他相關(guān)能力進(jìn)行結(jié)合。騰訊云也提出了一套全AI能力解決方案,在底層會結(jié)合包括人臉、車輛、物體識別、圖像AI識別、OCR、生物分析、NLP等全AI能力,基于Ti Matrix云智天樞AI應(yīng)用平臺,深入廣泛的行業(yè),打造泛政務(wù)民生、泛金融、工業(yè)、智慧零售、廣電傳媒、運(yùn)營商等AI解決方案。
周超老師以協(xié)同辦公場景為例,介紹了騰訊云基于實時語音、圖像處理的線上實時多人音視頻會議案例。會議記錄是會議的剛需,方便人們對重要的會議內(nèi)容進(jìn)行留檔并回顧總結(jié)。隨著深度學(xué)習(xí)的出現(xiàn),語音識別技術(shù)越來越成熟,會議記錄的整理形式也從極其耗費(fèi)人力成本的人工記錄越來越多的被語音識別自動轉(zhuǎn)錄所替代。騰訊云語音語義AI提供語音識別、自然語言處理技術(shù),以及說話人分離、文本摘要提取等功能,解決會議記錄場景下存在的各種痛點。
除了協(xié)同辦公場景,騰訊云AI能力在泛娛樂、政務(wù)民生、金融和呼叫中心等多個場景下均有非常具有代表性的案例。周超老師表示,騰訊云會繼續(xù)深入各個行業(yè)去輸出場景化的解決方案,同時提供完備的AI基礎(chǔ)能力輸出,滿足客戶二次開發(fā)、定制化的需求。
“騰訊云AI希望建立一個與合作伙伴共贏的AI生態(tài),在產(chǎn)品合作生態(tài)方面進(jìn)行聯(lián)合探索、聯(lián)合開發(fā),在市場共贏生態(tài)方面希望聚攏更多戰(zhàn)略合作伙伴、渠道共享伙伴、認(rèn)證合作伙伴。一起共建AI新生態(tài),加速AI的落地化,解決碎片化、場景化的難題。”
針對用戶提問的小公司缺乏AI技術(shù)人才,但AI能力又是剛需,騰訊云如何幫助解決的問題,周超老師也非常細(xì)致地做了解答,他表示不管是底層AI能力的開放還是解決方案的需求,都可以通過騰訊云的AI產(chǎn)品予以解決,非常歡迎各位用戶去試用。
騰訊云NLP能力在法務(wù)領(lǐng)域的應(yīng)用實踐
法大大合同智能化負(fù)責(zé)人劉謙帶來了騰訊云AI能力在法務(wù)場景下的應(yīng)用實踐,也是一次非常典型的騰訊云與客戶共建AI產(chǎn)品的代表案例。
法務(wù)行業(yè)現(xiàn)狀與痛點
劉謙老師向與會者介紹了法務(wù)人群的工作日常,這個場景下從業(yè)人員的工作一般分為合同、合規(guī)、咨詢、部門需求、爭議解決五大類別,這其中又以合同占比最大,一般達(dá)到日常工作的70%左右。
劉謙老師總結(jié)了合同審查的痛點有以下幾類:
合同審閱工作量大,響應(yīng)時間長;
日常合同審核內(nèi)容重復(fù),效率低;
合同審核標(biāo)準(zhǔn)不統(tǒng)一,易出錯;
內(nèi)控體系難以貫徹執(zhí)行,風(fēng)險高;
相對方風(fēng)險難以評估把控。
合同審查痛點植根于法務(wù)行業(yè)長期基于人工服務(wù)的傳統(tǒng)模式。從源頭上來說,法務(wù)部門屬于職能部門而非銷售部門,天生事多人少,有限的部門人力預(yù)算需要解決的是持續(xù)增長的法務(wù)風(fēng)控需求。從過程上來看,需要人工處理大量合同文本,業(yè)務(wù)需求排隊等待,工作量大且重復(fù)繁瑣,效率低下。從結(jié)果上看,響應(yīng)滯后。一方面是公司業(yè)務(wù)快速發(fā)展變化,另一方面是職能部門的被動跟進(jìn),流程沒有打通。
在這樣的行業(yè)現(xiàn)狀與痛點之下,法大大選擇和騰訊云合作,聯(lián)合開發(fā)AI產(chǎn)品,提供客戶價值。
打造聯(lián)合AI產(chǎn)品
合同審查領(lǐng)域的人工智能早在2016年就一直有很多人在聊,但最近5年來在國內(nèi)其實沒有一個特別好的產(chǎn)品實例。要么是底層能力的缺失,要么是對行業(yè)的理解不夠,而在技術(shù)層面上還面臨著三大核心難題亟待解決。
首先是數(shù)據(jù)樣本非常有限。從2013年最高法的裁判文書網(wǎng)上線以來,陸續(xù)被公開的裁判文書有一億多份??此茦颖玖亢艽?但細(xì)分在刑法、民法等大類及其下的各個小類之后,可能每個類別數(shù)量平均下來不過數(shù)千甚至數(shù)百份。這在AI的訓(xùn)練集里只能算小樣本數(shù)。
其次是合同樣本差異非常大。對合同數(shù)據(jù)來說,因為行業(yè)、業(yè)務(wù)類型、每個客戶的不同特點,甚至包括一些客戶有意或者無意的不規(guī)范操作,導(dǎo)致每一類合同,不同場景之間的差異都非常大。
最后是法務(wù)審核要求非常準(zhǔn)確,精準(zhǔn)識別只是前提條件,召回率、準(zhǔn)確率都必須同時做到高標(biāo)準(zhǔn),否則就會有很大的風(fēng)控漏洞。
法大大選擇與騰訊云合作,在底層采用騰訊云AI的技術(shù)支持,同時加上法大大自身在法務(wù)行業(yè)的多年積累,通過連接優(yōu)圖實驗室、騰訊云AI語義算法團(tuán)隊與法大大開發(fā)團(tuán)隊一起精誠協(xié)作,最終打造了這樣一款解法務(wù)場景燃眉之急的AI產(chǎn)品。具體合作模式如下:
該產(chǎn)品目前已可滿足三層合同審閱需求,最終的目的是希望基于業(yè)務(wù)場景、系統(tǒng)流程和法律Know-how,給參與合同全生命周期的多種角色人群,提供7x24的智能法務(wù)合同審核支持。
“目前實際使用中,可以幫助客戶提升平均85%的效率,合同審核環(huán)節(jié)從以前的小時計到現(xiàn)在的六七分鐘。一些普通、常見的合同審核甚至已經(jīng)不再需要法務(wù)人力支持,業(yè)務(wù)人員可以自己審核完成,客戶滿意度相當(dāng)高?!?/span>
分享最后,劉謙老師也對評論區(qū)討論問題做了精彩的解答,由于篇幅所限,此處不再贅述。
圓桌論道:AI在產(chǎn)業(yè)落地中的難與不難
鮑捷:人工智能已經(jīng)有過多次高潮和低谷,我最早接觸人工智能是在1998年,當(dāng)時是針對醫(yī)療影像的應(yīng)用。后來也在法務(wù)、國防等領(lǐng)域有過從業(yè)經(jīng)歷,可以說人工智能傳統(tǒng)四大領(lǐng)域的醫(yī)療、法務(wù)、政府、金融我都有過涉及。我個人目前在做金融方向的AI應(yīng)用,也非常看好金融這個領(lǐng)域。在人工智能的各個落地方向上,其實有一些共同的特性,核心就是三個方面:一個是數(shù)據(jù)必須有邊界,第二個是業(yè)務(wù)必須有邊界,第三個是一旦出錯是否會導(dǎo)致不可逆的后果。因此在人工智能落地的方向上也可以按照這幾個維度去套用檢測,L5級別的自動駕駛在我看來就不是一個值得追求的方向,因為它的三大要素都不具備。但在金融、醫(yī)療、工業(yè)、政務(wù)等方向卻是值得探索的,我個人認(rèn)為目前凡是跟流程自動化有關(guān)的工作,其實都是值得去探索的方向,這是我的考慮。
徐增林:學(xué)術(shù)界對人工智能的關(guān)注可能與工業(yè)界不同,我們所關(guān)注的技術(shù)未必在當(dāng)下就能推向落地,但卻有非常大的研究價值,例如我們研究的認(rèn)知啟發(fā)的神經(jīng)網(wǎng)絡(luò)和量子啟發(fā)的神經(jīng)網(wǎng)絡(luò)是解決當(dāng)前深度學(xué)習(xí)對大數(shù)據(jù)和海量計算資源依賴問題的重要途徑。我比較贊同鮑捷老師關(guān)于AI邊界的觀點,AI落地確實要抓好賽道和場景。技術(shù)層面上,因為現(xiàn)在是基于5G和互聯(lián)網(wǎng)基礎(chǔ)設(shè)施(包括邊緣計算和云計算),再加上人工智能+增強(qiáng)現(xiàn)實算法的結(jié)合,技術(shù)上可能會有一定的突破。如果讓我預(yù)測一個未來AI爆款產(chǎn)品的領(lǐng)域,我個人認(rèn)為可能會出現(xiàn)在醫(yī)療健康領(lǐng)域,未來的AI會越來越懂醫(yī)生,醫(yī)生會慢慢的AI化。
周超:騰訊云AI幫助各類企業(yè)做業(yè)務(wù)的落地,首先關(guān)注的是AI入場以后可以幫助企業(yè)降低成本,第二關(guān)注AI的替換可以提高企業(yè)效率,第三這個替換本身就是具備創(chuàng)新性的。在這個原則判斷下,目前騰訊云的AI已經(jīng)在多個行業(yè),包括醫(yī)療、教育、政務(wù)、文旅、金融、能源等行業(yè)企業(yè)中深度落地。騰訊云所提供的全AI能力的解決方案都是可以做一個應(yīng)用和落地去改善行業(yè)、企業(yè)的業(yè)務(wù)流程。在這個過程中騰訊云不會做到面面俱到,而是會以提供開放的基礎(chǔ)能力以及與合作伙伴深度共建的方式共同探索。
盧鯉:個人認(rèn)為語音識別技術(shù)還遠(yuǎn)未到非常成熟的地步,單純準(zhǔn)確率數(shù)字目前來說本身沒有太大意義。這背后的邏輯其實就兩個原因,第一無法覆蓋全部場景,第二無法覆蓋所有人群。使用場景、使用人群、地域口音方言等因素綜合影響下,語音識別技術(shù)還有很長的路要走。我們未來努力的方向也就是覆蓋更多的場景,覆蓋更多的人群,讓更多的場景、更多的人都能很方便的使用語音識別這個技術(shù)來提高效率。
劉謙:法大大在做AI產(chǎn)品落地的過程中,首先考慮的產(chǎn)品規(guī)劃就是圍繞合同展開的,在想明白這個產(chǎn)品邏輯和實際痛點以后延伸開去,發(fā)現(xiàn)用戶的需求又不斷處于變化中,從簡單的電子合同簽署到管理訴求再到分析訴求,這樣反過來也給我們的產(chǎn)品發(fā)展規(guī)劃帶來了益處,因為我們找到了真實的客戶價值所在。和騰訊云的合作給了我們非常強(qiáng)的模型調(diào)優(yōu)能力和數(shù)據(jù)處理的準(zhǔn)確性,大大提升了產(chǎn)品效果,客戶也十分信任。這對法務(wù)、業(yè)務(wù)和公司都是一個多方共贏的局面。
在圓桌討論環(huán)節(jié),幾位嘉賓還就AI創(chuàng)業(yè)方向選擇、學(xué)術(shù)研究方向等議題做了精彩的論述。本場閉門會主持人騰訊云AI語音語義與應(yīng)用平臺產(chǎn)品中心專家產(chǎn)品經(jīng)理王天也給出了自己對AI落地的未來趨勢判斷:
結(jié)語
人工智能尋覓了60年的價值,要從實踐中追尋。
TVP組織的這次AI技術(shù)閉門會,以計算機(jī)視覺、AI語音語義2大熱門技術(shù)風(fēng)口為話題,為業(yè)界輸出了6小時無保留的經(jīng)驗分享,邀請12位學(xué)術(shù)界、工業(yè)界從業(yè)大咖論道技術(shù)與商業(yè)趨勢,只為窮盡AI技術(shù)跨過概念鴻溝走向落地的那些可能。
在這場技術(shù)交流與商業(yè)思維碰撞的盛宴上,我們看到了計算機(jī)視覺的全新應(yīng)用,看到了AI語音語義的發(fā)展脈絡(luò),看到了從靈感迸發(fā)到產(chǎn)品落地的創(chuàng)業(yè)故事,也看到了死磕技術(shù)永不言敗的探索精神。
時代賦予技術(shù)以風(fēng)口,商業(yè)賦予技術(shù)以舞臺,開發(fā)者賦予技術(shù)的,是無限的可能。