影音先锋熟女少妇av资源,国产精品52页,2021精品国产自在现线看,亚洲高清中文字幕在线

物聯(lián)傳媒 旗下網站
登錄 注冊

出門問問李志飛:語音識別的AI將直接給你買票

作者:本站采編
來源:新浪科技
日期:2016-04-15 09:08:49
摘要:李志飛創(chuàng)辦的出門問問公司,是一家擁有自主語音識別、語義分析、垂直搜索技術的創(chuàng)業(yè)公司。2015年,出門問問成為Google Android Wear語音搜索戰(zhàn)略伙伴,并收到了來自Google的C輪融資。
關鍵詞:AI語音識別

  從谷歌回國創(chuàng)業(yè),再到被谷歌投資,出門問問創(chuàng)始人李志飛成功的完成了轉身。

 

  李志飛創(chuàng)辦的出門問問公司,是一家擁有自主語音識別、語義分析、垂直搜索技術的創(chuàng)業(yè)公司。2015年,出門問問成為Google Android Wear語音搜索戰(zhàn)略伙伴,并收到了來自Google的C輪融資。

  在回國前,李志飛是美國約翰霍普金斯大學計算機博士及自然語言處理專家,曾任 Google 美國總部科學家,從事機器翻譯的研究和開發(fā)工作。

  作為一個研究超過10年的人工智能專家和新晉創(chuàng)業(yè)者,李志飛在今年1月的一次演講中談到了人工智能的歷程和未來應用設想。他認為,人工智能在未來有兩個特別大的趨勢。第一個是從軟件到硬件,最終走向軟硬結合。在未來,可能是三年五年或者十年,可穿戴設備、VR設備、無人駕駛汽車、智能家居產品等,將會與圖像識別、語音識別等人工智能技術結合起來,滿足人的需求,在一定程度上解放人類。

  與此同時,人工智能將從單純提供信息到直接提供服務。以前,人工智能系統(tǒng)所做的事情更多是提供信息,比如以前很多人會對Siri一類的語音助手說,“附近有什么咖啡館?”,“查一下明天飛上海的航班”,現(xiàn)在,人工智能系統(tǒng)要做的事情是提供服務,比如“給我送一杯咖啡”、“幫我訂一張明天飛上海的航班”。

  李志飛:人工智能離消費級產品有多遠

  近些年,伴隨著黑科技的不斷涌現(xiàn)和資本市場的青睞,以及科幻電影對人工智能的渲,“人工智能”這個名詞越來越高頻的出現(xiàn)在大眾眼前,人們對人工智能的認識也從簡單的機器人深入到“深度學習“、“知識圖譜”等高深的詞匯。

  人工智能,似乎無所不能,但在目前的生活中,我們也很少看到人工智能“能“做什么。梳理人工智能的歷史,從應用的角度,人工智能發(fā)展到現(xiàn)在,經歷和即將經歷的,一共有三個階段:AI1.0-3.0。

  “人工智能”這個概念可以追溯到計算機的發(fā)明或者圖靈很早期的文章,而真正的“人工智能”即“AI”這個名詞出現(xiàn)在1950年。美國達特茅斯學校的一群教授在開會的時候創(chuàng)建了“人工智能”這個概念,希望某天機器可以模擬人的行為,幫助人類做很多事情。

  什么叫做真正的 AI?環(huán)顧四周,各種各樣的人都在談論AI:工程師、科學家、政府、媒體、記者,還有未來學家和科幻學家……,也涌現(xiàn)了無數(shù)的名詞,比如無人駕駛、Glass、LSTM、Siri等,非常容易讓人覺得困惑。

  那么到底什么是人工智能,為什么這些詞匯出現(xiàn)在不同人的口中?

  這些不同的詞匯代表了幾個層面的可能:第一個層面,創(chuàng)業(yè)者、媒體、政府等人工智能行業(yè)之外的人,說到“人工智能”講的都是產品,比如Glass、Siri等,這類是從外面來看人工智能給我們提供什么樣的產品、提供什么樣的服務;第二個層面,是我這樣技術出身的創(chuàng)業(yè)者和出門問問這樣真正以人工智能為核心的公司,我們會談到具體的技術,因為無論是無人駕駛、機器人還是可穿戴設備,最后都需要技術的支撐,比如語音識別、自然語言處理、計算機視覺,這都是技術本身。第三個層面,是工程師或者科學家,他們每天寫代碼或者思考的是怎么把這個事情做出來,他們可能討論的是模型和算法,比如神經網絡、深度學習、搜索空間的優(yōu)化,還有一些LSTM、CTC等這些絕大部分非科學家以外的人都不會接觸的。所以大家都在講人工智能,但每個世界的每個人看到的東西不一樣,但最關鍵的是一定要是這些工程師、科學家把每一步好好做出來,提供一個技術以后才能提供一個產品,最后把產品推向普通用戶,所以這是非常龐大的體系。

  從應用的角度,把人工智能按照最近的70年時間進行梳理,根據(jù)時間點,我把它分為三個階段:1945-2005年是AI1.0時代,2006-2015年歸為AI2.0時代,從2016年開始到未來的5-10年,是AI3.0的形態(tài)。

  AI1.0即1945-2005年這個時間,是把基礎理論、基礎學科建立起來的時間,很多算法的建立,是計算機科學家或者統(tǒng)計學家天天在試驗室、天天跟博士生討論思考,跟學術界人交流,慢慢梳理出來的,在這段時間,學術界慢慢建立了AI里非常具體的學科,比如語音識別、機器翻譯、自然語言處理、視覺。

  在這個過程中,漸漸的形成了很多人工智能從業(yè)的方法論及學派,比如說,科學家們想造一個機器能夠模擬人的行為,就會把計算機的行為向人類學習,這就形成了仿生派,他們盡力理解人是怎么學習這個語言的,人是怎么理解這個語言的,人是大概什么工作過程,然后用計算機模擬這個過程;計算機學家則會從計算機本身出發(fā),是為邏輯派,邏輯派對計算機很了解,根據(jù)原理看到底怎么實現(xiàn)人工智能的服務。前面兩派都是比較基于某一些原則,比如人類是怎么工作的或者計算機怎么工作的,還有另外一派可能不那么學究,他們直接就把數(shù)據(jù)放進去,比如語音識別只要有一個模型最后能夠識別字,但他其實不關心這個語音識別的過程跟人類語言識別的過程是不是一樣的,可以稱他們?yōu)樾袆优苫蛘邔嵏膳伞?/p>

  在1956年開始到現(xiàn)在,人工智能幾起幾落,在最初人類定義人工智能概念的時候,那些最偉大的科學家都非常樂觀,認為在未來幾年就可以造出一臺機器跟人一樣,可以代替人的很多活動和很多事情。但是摸索五六年,科學家們發(fā)現(xiàn)機器可能連最簡單的語音識別,比如識別數(shù)字都識別不了,這時候就會有一些悲觀的情緒。比如很多高科技都是美國軍方高級研究院支持的,但是后來發(fā)現(xiàn)做了幾年,軍方發(fā)現(xiàn)連識別幾個簡單的號碼都識別不了,所以他們把這個研究停掉了。

  但是人工智能的研究始終是計算機和科學家的夢想,所以很多人即使在資金缺乏的情況下也會不停地做研究,可就會有一些新應用的發(fā)現(xiàn),在這個螺旋式反復的過程中,各種學派、各種基礎模型和算法都逐漸構建了起來,人工智能總體還是在發(fā)展中。

  AI1.0時代,工業(yè)界也有一些形象工程,比如深藍戰(zhàn)勝國際象棋世界冠軍,但是這些系統(tǒng)沒有得到大規(guī)模的應用,直到2006年,在AI2.0的開端,谷歌翻譯正式上線成為互聯(lián)網的產品,這成為了一個非常有象征意味的標志性時間,從那天開始,谷歌通過不停的迭代,提供了90種的語言翻譯,也就是 8100個語言對。歷史上從來沒有一個系統(tǒng)有這么多,這么龐大的語言對,谷歌翻譯每天同時有2億人在使用,每天有10億個翻譯的句子輸?shù)紾oogle的這個網站上去,然后機器自動把它翻譯出來。在人類歷史上,或者在AI發(fā)展歷史上,谷歌翻譯是第一個大規(guī)模被全世界人群大規(guī)模使用,而且頻率非常高的一個系統(tǒng),所以2006年是開啟了人工智能技術面向消費者的具有紀念性意義的一年。

  為什么人工智能在前面幾十年都沒有得到發(fā)展,而2006年谷歌就突然推出谷歌翻譯系統(tǒng)而且得到大規(guī)模的普及?原因可能有兩點:第一,谷歌是一個互聯(lián)網公司,它做的所有產品都是為了滿足用戶的需求,而谷歌面對的用戶是全球的,對這種信息全球的需求匯總起來非常大,谷歌翻譯這個網站才有很大的用戶需求量;第二,谷歌采用了非常合理的架構,就是數(shù)據(jù)、算法和基礎設施。我們以前在學校里面做研究的時候,數(shù)據(jù)非常少,比如一個中文到英文翻譯的系統(tǒng)基于1萬個句子對去訓練就很不得了,但是與學術研究不同,谷歌有100萬、200萬或者1000萬個句子對,他們可以去網上抓,比如圣經有中文版、英文版、法文版,可以把這個抓下來當作機器訓練的語料。另外,谷歌有大規(guī)模云計算的結構,有幾千臺幾萬臺機器在做計算,谷歌的基礎設施足以處理這么大的數(shù)據(jù)量,并且谷歌的算法也有了很多進展。

  另一個進展是,在最近2、3年內,人工智能的深度學習得到重新應用,而且跟大數(shù)據(jù)結合起來,使得我們在語音識別和機器翻譯得到突破,誕生了各種移動端產品。

  AI1.0到AI 2.0的發(fā)展,是從學術界到谷歌這樣的公司主導,從以前的軍用到民用,產品從To B到大規(guī)模的一定是To C的過程。

  隨之而來的,也是一些人工智能“大躍進”一般的說法:“奇點到來,機器超越人類智能”、“人工智能三歲啦”、“機器可能代替甚至毀滅人類”等,但目前的人工智能遠沒有你想象的那么聰明,甚至“笨”。人們平時習以為常的問題,機器卻往往無法區(qū)分。這是因為目前的人工智能還是基于邏輯與數(shù)據(jù)、沒有直覺,情感的理解力和創(chuàng)造力更是無從談起。

  那么,下一步,AI 3.0到底是什么?

  從一個工程師或者比較現(xiàn)實的創(chuàng)業(yè)者去看, AI3.0可能會有兩個特別大的趨勢,第一個是從軟件到硬件,最終走向軟硬結合;第二個是從信息到服務。

  AI的第一個趨勢,產品從軟件到硬件,最終走向軟硬結合。過去早期人工智能硬件載體主要是PC,2010年移動發(fā)展起來了,智能手機被廣泛普及。在未來,會有各種各樣的新的硬件進來,當然這個時間不一定是近期,可能是三年五年或者十年,但是這個趨勢是不可抵擋的,比如可穿戴設備、VR設備、無人駕駛汽車、智能家居產品,產品也會更加綜合,軟件和硬件的結合會更加緊密,這些硬件產品的共同特性首先一定是可移動性,可隨身攜帶的,但針對不同的硬件,會有不同的應用場景,比如可穿戴設備可以天天戴在手上或者穿在鞋上,比如機器人或者無人駕駛汽車,機器可以自己移動,可以自己探索這個世界,那么他們所涉及到的需要搭載的軟件也是不同的,需要有不同的設計考慮,會涉及到不同的應用場景。

  因為設備的不同,未來AI技術發(fā)展的方向也會有很大的變化,首先,是從單一到綜合,現(xiàn)在的語音識別技術根據(jù)聲音去識別,大家可以想象我戴著個頭盔說“不要”,但在未來,用戶也可以有一些動作的反應,機器會同時通過視覺、聲音等識別得更加精準。其次,它提供的服務是多維度的,過去的Siri是軟件服務,現(xiàn)在從技術集成到硬件載體,產品和服務都會是綜合性的。而且以前更多是人跟機器或者跟物理世界溝通,現(xiàn)在因為有機器人、VR、無人駕駛這樣的產品,機器對物理世界的建模變得更為重要,比如機器人知道這邊是不是有桌子,這邊是不是有個小孩,這個顏色是什么樣子的,如果有坡的話這個坡度是多高。過去我們的To C產品比如Siri是虛擬產品,但現(xiàn)在因為機器人和VR的出現(xiàn),機器需要對物理世界進行建模,去跟物理世界進行交互,機械幫助人類增長能力,將成為大的趨勢。

  AI的第二個趨勢將會從信息到服務。讓它直接幫你完成這些任務,而不是找到這個信息。

  以前,人工智能系統(tǒng)所做的事情更多是提供信息,比如以前很多人會對Siri一類的語音助手說,“附近有什么咖啡館?”,“查一下明天飛上海的航班”,現(xiàn)在,人工智能系統(tǒng)要做的事情是提供服務,比如“給我送一杯咖啡”、“幫我訂一張明天飛上海的航班”。

  這種變革是飛躍式的,但同時也是困難的。解決了明確用戶需求,獲取相關信息之后,到服務的執(zhí)行面臨諸多復雜的問題,比如“訂單如何支付?如何快速相應用戶的復雜問題?如何控制服務成本?這些復雜情景對人工智能提出了極大的挑戰(zhàn)。

  以往,秘書、客服系統(tǒng)等人工服務雖然能處理復雜情況,但無法滿足24小時響應且快速的響應;各種機器代表的人工智能服務雖然能24小時快速響應,但還沒用聰明到解決復雜的事情。AI3.0的實現(xiàn)方式將越來越智能化,機器服務與人工服務的融合與迭代使得人工參與其中,人將成為機器的修正師和訓練師,人的作用會越來越少。

  從當前看,AI3.0“人工智能+人工服務”的實現(xiàn)形式是人工智能落地于人們生活的一個極大趨勢,在人工智能系統(tǒng)尚不能真正的“聰明”的情況下,人工智能個人助理是一種非常聰明和現(xiàn)實的實現(xiàn)方法。在未來,除了智能手機,智能手表、車載設備、機器人、智能家居等智能生活的方方面面,基于語音識別的個人助理將能提供真正快捷、優(yōu)質、準確的體驗。

人物訪談