語音識別看似神通廣大 但它真的聽得懂方言么
不管是智能家居還是車載系統(tǒng),語音識別幾乎已經(jīng)成為標配。今年拜亞馬遜Alexa所賜,大部分智能家居設備都可以進行最基本的語音控制,可它的普適性真的有如此之高么?一位來自美國的消費者最近就在投訴亞馬遜Alexa:它并不能識別自己老媽的口音。

面對母親的抱怨,這位美國的消費者決定向亞馬遜反應這一問題。這樣的體驗似乎會讓人想起和Siri一些不愉快的回憶,盡管蘋果在每次發(fā)布會上都似有似無的提到一句“我們又提升了Siri的識別率”,但實際效果正如大家想的那樣,亞馬遜Alexa也面臨這樣尷尬的問題。
究竟語音助手的革命什么時候到來?可能最先必須解決的就是口音問題。先不論英語語種國家究竟有多少口音問題,身為中國人對口音真的不能再熟悉。即便現(xiàn)在在大力推廣普通話,但對于上了年紀的人而言想要改變他們的口音真的是一件很難的事情,可往往最需要語音助手的人群正是他們,無形中成為一對難以克服的矛盾。
正因為如此,國內(nèi)廠商在搭載語音助手時會考慮到方言的搭載,滬語,廣東話,川普等等都可以說,識別率也有一定的保證,但對于全國,甚至全世界不同地區(qū)的口音而言還是小巫見大巫。
那么到底人類什么時候才能攻克語音助手的難關(guān)?根據(jù)專家的意見,最早也要到2020年,才會有一半的普及率。屆時包括互聯(lián)網(wǎng)搜索在內(nèi),可能一半的搜索類需求都會通過語音執(zhí)行。Google Home和亞馬遜Alexa就是要解決這方面的難題。Echo被稱為亞馬遜的王牌是有原因的,在中國市場以外它真的賣得非常好。
實際上造成目前語音助手遭遇瓶頸的重要原因還是各家公司的音頻數(shù)據(jù)并不共享,亞馬遜想要弄到蘋果Siri的識別音頻,除非蘋果開通商業(yè)購買,否則根本不可能。其中,音頻采樣又是一個復雜且費時費力的過程,即便有數(shù)據(jù)庫的支持也無法承載大量人口/人種造成的差異。
“就像和一個小孩子說話?!?/p>
在語音助手搜索錯誤時,用戶要不厭其煩的反復重復剛剛自己說的話,就像是對著一個還沒學會語音的小孩子說話一樣。也正因為如此,才給了研究人員一個啟發(fā):或許深度學習能夠成為語音助手下一個突破口?