影音先锋熟女少妇av资源,国产精品52页,2021精品国产自在现线看,亚洲高清中文字幕在线

物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊

用戶大數(shù)據(jù)是高校開展互聯(lián)網(wǎng)應(yīng)用研究的必選項

作者:劉挺
來源:百度百家
日期:2015-08-31 09:48:11
摘要:用戶大數(shù)據(jù)是高校開展互聯(lián)網(wǎng)應(yīng)用研究的必選項。


  高校適合做基礎(chǔ)研究、超前研究,應(yīng)用研發(fā)留給企業(yè)去做,這個觀點得到越來越多的同仁們的共識。然而,高校里還是活著兩種人,一種人喜歡也擅長做基礎(chǔ)研究,比如Hinton這樣的學者,能夠從算法上推動機器學習的進步,進而對工業(yè)界產(chǎn)生重大的影響;更多的人在從事應(yīng)用研究,試圖解決應(yīng)用中出現(xiàn)的問題。從事應(yīng)用研究的學者在互聯(lián)網(wǎng)時代,在大數(shù)據(jù)時代,如何才能做出真的對工業(yè)界有用的成果?換句話說,怎么做才能使大企業(yè)在當下或未來真的需要借鑒或購買高校的技術(shù)成果呢?

  在回答這個問題以前,我們先把當前互聯(lián)網(wǎng)大企業(yè)與高校互聯(lián)網(wǎng)域的實驗室在6項技術(shù)研發(fā)要素上做一個對比:

  互聯(lián)網(wǎng)大企業(yè):

  1. 人才:都是各大學(尤其是重點大學)培養(yǎng)出來的優(yōu)秀人才,都是成手,他們帶著在校門里掌握的技術(shù)加入企業(yè)

  2. 工作效率:全職工作,高工資加期權(quán),KPI嚴格考評,行動力極強

  3. 資金:不需要解釋了

  4. 計算設(shè)備:以GPU為代表的大批高性能服務(wù)器,以及工程化的支持大規(guī)模計算的軟件架構(gòu)

  5. 數(shù)據(jù):T級,甚至P級海量真實數(shù)據(jù)

  6. 用戶:海量用戶,每天提供大量用戶行為數(shù)據(jù),這是群體智慧之源

  高?;ヂ?lián)網(wǎng)領(lǐng)域?qū)嶒炇遥?/strong>

  1. 人才:資深教師有眼光和經(jīng)驗,有限數(shù)量的青年教師掌握核心技術(shù),科研力量主要是研究生,每畢業(yè)一批學生,實驗室的實力都會減弱,新入學的研究生需要從頭培養(yǎng)

  2. 工作效率:組織松散,教師需要講課、指導(dǎo)學生、申請項目、學術(shù)交流等,學生要上課、找工作等,效率比較低

  3. 資金:國家投入不斷增加,但跟互聯(lián)網(wǎng)大企業(yè)相比差幾個數(shù)量級

  4. 計算設(shè)備:國家投入不斷增加,但跟互聯(lián)網(wǎng)大企業(yè)差幾個數(shù)量級

  5. 數(shù)據(jù):總體上,跟企業(yè)相比差幾個數(shù)量級

  6. 用戶:幾乎等于零

  從對比中,我們可以看出,1-5項,高校雖然弱,但還是有,而第6項,對于絕大多數(shù)高校實驗室而言就是0。弱,會帶來很多問題,1-4項的弱會導(dǎo)致高校的技術(shù)生產(chǎn)力明顯不如互聯(lián)網(wǎng)大企業(yè),而5的不足將直接導(dǎo)致一些需要大數(shù)據(jù)支撐的科研工作,在高校里做出的成果對企業(yè)無意義,這又分兩種情況:一種是高校在小數(shù)據(jù)上做出的結(jié)果很好,但到企業(yè)大數(shù)據(jù)上一跑,失效了;另一種是高校在小數(shù)據(jù)上做的效果不佳,而企業(yè)使用同樣的方法在大數(shù)據(jù)上卻取得了很好的效果。如此,高校成果對企業(yè)的借鑒意義降低了,這也是國外一些著名的學者,如Hinton、吳恩達等,紛紛離開高校,加盟企業(yè)的主要原因。

  不過,“弱”畢竟還是”有“,可以通過集中優(yōu)勢兵力,超前布局等在一定程度上去克服。更要命的是第6項,在高校里做研究普遍脫離了用戶!吳恩達在2014年的百度世界大會上講述了“人工智能正循環(huán)”的思想,訊飛研究院的胡郁院長也曾提出非常類似的“漣漪效應(yīng)”的觀點,就是把一個不成熟的系統(tǒng)放到互聯(lián)網(wǎng)上讓用戶使,用戶在使用過程中會貢獻大量的群體智慧,這種群體智慧會快速地幫助提高系統(tǒng)的技術(shù)指標。任何一個系統(tǒng)的能力提升,都必須有外界知識、能量的注入,互聯(lián)網(wǎng)大企業(yè)有海量用戶,每天可以吸收到大量的知識,而高校由于與用戶脫節(jié),只有靠人工標注的小規(guī)模(甚至可以說是微規(guī)模的數(shù)據(jù)),加上教師學生們在算法上下的功夫來改進系統(tǒng),這就失去了當前人工智能研發(fā)范式中極其重要的一環(huán)。

  在很多研討會上,都看到高校的老師在問企業(yè)到底能夠向?qū)W術(shù)界開放多少數(shù)據(jù)?其實,數(shù)據(jù)有兩種,一種是用戶貢獻的內(nèi)容數(shù)據(jù)(UGC),一種是用戶行為數(shù)據(jù),前者由于微博等開放數(shù)據(jù)平臺的存在,是可以支持高校做不少研究的,但更為重要的是用戶行為數(shù)據(jù),用戶查詢了什么,點擊了什么,最最重要的是用戶怎樣使用你開發(fā)的系統(tǒng),給出了什么樣的具體反饋。而用戶行為數(shù)據(jù),一方面有隱私問題,另一方面由于其價值非常高,企業(yè)是不會開放的。

  結(jié)論:在當前條件下,高校從事互聯(lián)網(wǎng)應(yīng)用研究的學者,必須與企業(yè)緊密結(jié)合,或者自己做出能夠吸引一定數(shù)量用戶使用的原型系統(tǒng),才能獲得用戶行為數(shù)據(jù)。最好在企業(yè)已經(jīng)搭建起來的大平臺、高平臺上開展企業(yè)暫時做不好或無暇去做的研究,保底也要自己拿到足夠的真實的用戶行為數(shù)據(jù),如此才有可能在某個很聚焦的點上做出真正有價值的應(yīng)用技術(shù)來。否則大企業(yè)在諸多互聯(lián)網(wǎng)應(yīng)用研究上領(lǐng)先于高校的情況將繼續(xù)存在,高校開展應(yīng)用研究的價值真的就只是培養(yǎng)學生了。

  注:本文的觀點是對我四年前關(guān)于高校應(yīng)該與工業(yè)界松耦合想法的一個否定,自我否定的主要原因是意識到用戶大數(shù)據(jù)在技術(shù)提升方面迸發(fā)出的超能量,用戶大數(shù)據(jù)對于高校不是可有可無的,而是必選項。本人的研究領(lǐng)域:自然語言處理、社會媒體處理、信息檢索,本文所謂互聯(lián)網(wǎng)應(yīng)用研究,主要指的也是這幾個研究領(lǐng)域,受本人視野所限,偏頗之處,請讀者見諒、指正。