讓機(jī)器「看懂」語言,更加自然的與人交流
我們自稱智人(Homo sapiens),因?yàn)樽陨愍?dú)特的智能對(duì)我們來說非常重要。數(shù)千年來,我們一直試圖理解人類如何思考,如何利用僅有的少量物質(zhì)就能感知、理解、預(yù)測和操縱一個(gè)遠(yuǎn)大于自身且比自身復(fù)雜得多的世界。另一方面,我們也希望將這些智能賦予更多的物體,比如說——機(jī)器。
自人工智能在1956年達(dá)特茅斯會(huì)議上首次提出,讓機(jī)器完成更多的智力工作成為科學(xué)家努力的方向。其中一個(gè)重要的目標(biāo)就是希望機(jī)器能夠與人類進(jìn)行更加自然高效的交流,希望機(jī)器讀懂人類深?yuàn)W的語言,同時(shí)以一種我們習(xí)慣的方式進(jìn)行交互,而解決這個(gè)問題的兩個(gè)技術(shù)就是自然語言處理和語音合成。
眾多科技巨頭正在這方面進(jìn)行布局,2013年谷歌以超過3000萬美元收購了新聞閱讀應(yīng)用開發(fā)商Wavii。Wavii擅長自然語言處理技術(shù),可以通過掃描互聯(lián)網(wǎng)發(fā)現(xiàn)新聞,并給出一句話摘要;微軟將自然語言處理技術(shù)應(yīng)用在了智能助手小冰、Cortana上,取得了不錯(cuò)的效果,通過機(jī)器翻譯使Skype具備了實(shí)時(shí)翻譯功能;自然語言處理技術(shù)是Facebook智能助手M背后的核心技術(shù)之一,其產(chǎn)品負(fù)責(zé)人稱「我們對(duì)M做的事情可以讓我們更好地理解自然語言處理?!箛鴥?nèi)公司科大訊飛在去年年底發(fā)布了自然語言處理云平臺(tái),很早推出語音合成產(chǎn)品,在中文領(lǐng)域的自然語言處理和語音合成方面有著深厚積累。
近期,百度新聞客戶端也上線了語音播報(bào)新聞?wù)男鹿δ?,用戶在瀏覽新聞時(shí)可通過下滑屏幕進(jìn)入到語音閱讀模式,借助于自然語言處理技術(shù)和語音合成技術(shù)為用戶朗讀新聞,百度新聞成為第一款將自然語言處理和語音合成結(jié)合在一起的新聞客戶端。
自然語言處理:機(jī)器如何看懂人話?
現(xiàn)代語言學(xué)與人工智能在大約相同的時(shí)間誕生,并且一起長大, 交叉于一個(gè)稱為自然語言處理的混合領(lǐng)域。自然語言處理主要關(guān)注如何讓機(jī)器理解人類的語言,主要包括信息檢索、信息抽取、文本摘要等,信息檢索用來在網(wǎng)絡(luò)上尋找和排名相關(guān)的段落,信息提取用來識(shí)別具體對(duì)象和搜索的實(shí)際答案,文本摘要將它以一種簡潔的方式呈現(xiàn)給用戶。而解決這些問題的一個(gè)共同要素是采用語言模型來預(yù)測語言表達(dá)的概率分布。
一個(gè)自然語言處理系統(tǒng)并不了解人類處理文本的方式,但是它卻可以用非常復(fù)雜與成熟的手段巧妙處理文本,例如自動(dòng)識(shí)別一份文檔中所有被提及的人與地點(diǎn);識(shí)別文檔的核心議題;或者在一堆僅人類可讀的合同中,將各種條款與條件提取出來并制作成表格。
以百度新聞的語音播報(bào)為例,借助于自然語言處理技術(shù)生成新聞的摘要,在信息嚴(yán)重過載的今天,無異幫助用戶提高了信息獲取的效率。
百度新聞此次使用單文檔摘要模塊,能夠給定的文檔中提煉出最重要的信息,從而作為摘要用于描述文檔的主要內(nèi)容。本模塊基于機(jī)器學(xué)習(xí)的方法抽取關(guān)鍵句子,同時(shí)采用子句壓縮技術(shù),對(duì)句子進(jìn)行簡寫。用戶可以根據(jù)任務(wù)的需要選擇此模塊包含的三個(gè)模型:長摘要模型,微摘要模型,短摘要模型。
1)長摘要,是常見的抽取式摘要,此模型直接從正文中選擇出若干句子組成摘要。
2)短摘要,在長摘要的基礎(chǔ)上增加了句子壓縮的功能。句子壓縮能夠?qū)渥舆M(jìn)行簡化保留句子的核心部分。
3)微摘要,既使用的句子壓縮功能,同時(shí)增加了列表類摘要的提取和連貫性策略。
對(duì)于下面的網(wǎng)頁,根據(jù)其標(biāo)題(藍(lán)框部分)和正文(紅框部分),百度新聞能夠生成下列摘要:
長摘要:克里米亞塞瓦斯托波爾軍事機(jī)場被俄羅斯軍隊(duì)控制。塞瓦斯托波爾是前蘇聯(lián)黑海艦隊(duì)所在地。在克里米亞塞瓦托斯波爾軍事機(jī)場周邊地區(qū),俄羅斯士兵已經(jīng)在待命。這些俄羅斯士兵戴著頭盔,穿著護(hù)甲,另外還有人員運(yùn)輸車準(zhǔn)備隨時(shí)提供支援。一群不明身份的武裝分子占領(lǐng)了克里米亞機(jī)場。據(jù)稱,他們的目的是為了阻止烏克蘭過渡政府總統(tǒng)所乘飛機(jī)在機(jī)場降落。據(jù)法新社最新報(bào)道,克里米亞機(jī)場現(xiàn)已恢復(fù)運(yùn)營,飛機(jī)起降沒有延誤。武裝人員在短暫控制后撤離。
短摘要:克里米亞塞瓦斯托波爾軍事機(jī)場被俄羅斯軍隊(duì)控制。塞瓦斯托波爾是前蘇聯(lián)黑海艦隊(duì)所在地。在克里米亞塞瓦托斯波爾軍事機(jī)場周邊地區(qū),俄羅斯士兵已經(jīng)在待命。這些俄羅斯士兵戴著頭盔,穿著護(hù)甲,另外還有人員運(yùn)輸車準(zhǔn)備隨時(shí)提供支援。
微摘要:他們的目的是為了阻止烏克蘭過渡政府總統(tǒng)所乘飛機(jī)在機(jī)場降落。
自然語言處理技術(shù)解決了機(jī)器理解人類語言這個(gè)階段的問題,并生成了三種形式的摘要,從而幫助用戶大大節(jié)約了獲取信息的時(shí)間。而接下來的這個(gè)階段便是將該摘要以一種更容易讓人類接受的形式讀出來,從而使用戶可以在最短時(shí)間內(nèi)獲取到最有價(jià)值的信息。
語音合成:如何讓機(jī)器與人的交流更加自然?
近代語音合成技術(shù)則是起源于貝爾實(shí)驗(yàn)室,涉及聲學(xué)、語言學(xué)、數(shù)字信號(hào)處理、計(jì)算機(jī)科學(xué)等多個(gè)學(xué)科技術(shù),解決的主要問題是如何將文字信息轉(zhuǎn)化為可聽的聲音信息。
語音播報(bào)新聞如何更具情感表現(xiàn)力,更接近真人朗讀的聽覺體驗(yàn),從而使用戶在通過語音獲取信息時(shí)更加自然?百度新聞使用的語音合成技術(shù)這樣實(shí)現(xiàn):
首先,創(chuàng)新語料生產(chǎn)方式,提升數(shù)據(jù)規(guī)模。傳統(tǒng)錄音語料庫的積累,往往以句子為單位,嚴(yán)格控制發(fā)聲人錄音的聲調(diào)、節(jié)奏,導(dǎo)致文章的語義情感無法融入其中。而情感語音語料庫的積累,以段落或者篇章為單位,允許發(fā)音人基于對(duì)文本的理解加入個(gè)人自然有感情的語音表達(dá),使得語音中蘊(yùn)含豐富的語義和情感。
其次,創(chuàng)新數(shù)據(jù)處理方式,提高數(shù)據(jù)處理效率。傳統(tǒng)語料數(shù)據(jù)處理方式為手工精標(biāo),需要耗費(fèi)大量人力。百度利用機(jī)器學(xué)習(xí)技術(shù)實(shí)現(xiàn)了數(shù)據(jù)的自動(dòng)化處理,能夠?qū)Υ罅堪楦械恼Z料庫快速進(jìn)行標(biāo)注,大大提高了語音合成數(shù)據(jù)處理的效率。
最后,創(chuàng)新韻律和聲學(xué)建模技術(shù),提高情感表現(xiàn)能力。百度采用了多層次雙向LSTM韻律建模技術(shù),實(shí)現(xiàn)從文本到韻律情感信息的直接端到端的高精度建模,同時(shí)利用多層雙向LSTM-RNN模型對(duì)語義及長時(shí)信息的卓越聲學(xué)建模能力,將豐富的語義相關(guān)信息加入到上下文中,構(gòu)建文本與語音之間的深層次對(duì)應(yīng)關(guān)系,生成富有表現(xiàn)力的模型,使合成的語音具有豐富的情感。
總之,自然語言處理解決的是「如何讓機(jī)器讀懂人類語言」的問題,語音合成解決的是「如何讓機(jī)器像人類一樣開口說話」的問題,這兩者結(jié)合的結(jié)果就是機(jī)器與人之間形成一種最自然的交互方式。而這帶來的直接結(jié)果就是我們?cè)讷@取信息方面效率的極大提高。
人工智能相關(guān)技術(shù)近幾年進(jìn)展飛快,但許多人并未在太多產(chǎn)品中體驗(yàn)到技術(shù)帶來的機(jī)器智能和效率的提高,而將自然語言處理和語音合成應(yīng)用在新聞?lì)I(lǐng)域是一次獨(dú)特的嘗試。由于語言和信息對(duì)人類與生俱來的重要性,這兩項(xiàng)技術(shù)的結(jié)合還會(huì)有不可估量的想象空間。
語言:機(jī)器與人最自然的交互方式
因?yàn)榫哂姓Z言的能力,人類區(qū)別于其他物種。10萬年前,人類知道了如何說話,7000年前,學(xué)會(huì)了如何書寫。就像Magic Leap未來學(xué)家、科幻作家Neal Stephenson在《雪崩》中將語言比喻成人類大腦最底層的結(jié)構(gòu),而《人類簡史》中也提到,人類是因?yàn)槲幕某霈F(xiàn),使自己不再與其他物種一起擁擠在基因進(jìn)化的道路上,而是走上了文化進(jìn)步的快車道。而文化起源的本質(zhì)和承載方式就是語言。語言是我們最自然的交互方式、知識(shí)儲(chǔ)備和表達(dá)媒介。
互聯(lián)網(wǎng)上超過萬億條的信息網(wǎng)頁,幾乎所有這些頁面都是用自然語言描述。更加重要的是,這些信息還在持續(xù)增加——人類因?yàn)樽陨淼恼Z言能力在源源不斷的創(chuàng)造著通過自然語言進(jìn)行表示的信息,信息數(shù)量增加的可能造成的一個(gè)結(jié)果就是我們獲取某些核心信息的成本提高,而解決這個(gè)問題的方法就是機(jī)器的自然語言處理,使之能夠讀懂我們的信息,并幫我們進(jìn)行信息篩選和知識(shí)總結(jié),然后再借助于語音合成技術(shù),將這些總結(jié)過的、有價(jià)值的信息以一種人類更能接受的方式傳遞出來,從而進(jìn)一步增強(qiáng)了我們獲取外部信息的效率。
《信息簡史》一書中探尋了信息的本質(zhì),介紹了我們獲取和傳遞信息的歷史,從非洲部落的鼓點(diǎn),到文本的發(fā)明,再到信息論建立帶動(dòng)的信息技術(shù)革命。部分科學(xué)家甚至認(rèn)為,構(gòu)成世界的基礎(chǔ)不是物質(zhì),不是能量,而是信息。正如物理學(xué)家約翰?惠勒所說的「萬物源自比特」。也正因如此,如今當(dāng)信息如洪流般淹沒了我們,使我們深陷信息焦慮、信息過載、信息疲勞的困擾中時(shí),我們才會(huì)如此無助。
人工智能技術(shù)的發(fā)展讓這個(gè)問題的解決稱為可能,圖像識(shí)別、語音識(shí)別可以讓機(jī)器為我們?nèi)ジ兄獠渴澜?,將處理后的有價(jià)值的信息傳遞給我們。自然語言處理和語音合成則是去挑戰(zhàn)人類最重要的技能——語言,希望創(chuàng)造一種機(jī)器與人最自然的交互方式。