神奇的大數(shù)據(jù)!微軟幾乎猜對(duì)所有奧斯卡大獎(jiǎng)
David Rothschild是微軟紐約研究院一名經(jīng)濟(jì)學(xué)家,在2012年美國(guó)總統(tǒng)大選中,他正確預(yù)測(cè)了51個(gè)選區(qū)中50個(gè)地區(qū)的選舉結(jié)果,準(zhǔn)確性高于98%。不久前,David Rothschild通過(guò)大數(shù)據(jù)分析,對(duì)第85屆屆奧斯卡各獎(jiǎng)項(xiàng)的歸屬進(jìn)行了預(yù)測(cè)。
北京時(shí)間今日上午,第85屆奧斯卡金像獎(jiǎng)?lì)C獎(jiǎng)禮在美國(guó)好萊塢舉行,《逃離德黑蘭》摘得最佳影片獎(jiǎng),李安憑借《少年派的奇幻漂流》獲得最佳導(dǎo)演獎(jiǎng),其它各項(xiàng)大獎(jiǎng)也都?jí)m埃落定。
那么這次David Rothschild的大數(shù)據(jù)預(yù)測(cè)準(zhǔn)不準(zhǔn)?答案令人稱奇,微軟大數(shù)據(jù)分析堪稱預(yù)言帝,除最佳導(dǎo)演外,其它各項(xiàng)獎(jiǎng)?lì)A(yù)測(cè)全部命中。
David Rothschild預(yù)測(cè)的最佳導(dǎo)演獎(jiǎng)得主是斯蒂芬·斯皮爾伯格(Steven Spielberg)(影片《林肯》),而最終拿下該獎(jiǎng)項(xiàng)的華裔導(dǎo)演李安。
第85屆奧斯卡主要獲項(xiàng)獲獎(jiǎng)名單:
最佳影片:《逃離德黑蘭》Argo
最佳導(dǎo)演:李安 Ang Lee(《少年派的奇幻漂流》 Life of Pi)
最佳男主角:丹尼爾·戴-劉易斯 Daniel Day-Lewis(《林肯》 Lincoln)
最佳女主角:詹妮弗·勞倫斯 Jennifer Lawrence(《烏云背后的幸福線》 Silver Linings Playbook)
最佳男配角:克里斯托弗·瓦爾茲 Christoph Waltz(《被解放的姜戈》 Django Unchained)
最佳女配角:安妮·海瑟薇 Anne Hathaway(《悲慘世界》 Les Miserables)
最佳動(dòng)畫(huà)長(zhǎng)片:《勇敢傳說(shuō)》 Brave
最佳歌曲:《Skyfall》(《007之大破天幕殺機(jī)》 阿黛爾 Adele)
想進(jìn)一步了解David Rothschild的大數(shù)據(jù)分析模式?請(qǐng)看下面CNET對(duì)于其預(yù)測(cè)理念的報(bào)道:
David Rothschild表示:“我預(yù)測(cè)奧斯卡金像獎(jiǎng)得主的方法與預(yù)測(cè)其它事情的方法完全相同,其中包括政治。首先關(guān)注最有效的數(shù)據(jù),然后創(chuàng)建不受任何特別年份結(jié)果干擾的統(tǒng)計(jì)模型,所有模型都根據(jù)歷史數(shù)據(jù)進(jìn)行測(cè)試、校正,我們?cè)诮r(shí)很有耐心,確保模型能夠正確預(yù)測(cè)外樣本結(jié)果,而不僅僅是過(guò)去發(fā)生的結(jié)果。我們創(chuàng)建的模型是能夠預(yù)測(cè)未來(lái)的,而不只是過(guò)去發(fā)生的?!?/P>
他指出:“科學(xué)是相同的,但證明哪些數(shù)據(jù)最有用卻存在千差萬(wàn)別?!?/P>
你或許會(huì)認(rèn)為一個(gè)能夠攻克選票近1.27億張變化莫測(cè)總統(tǒng)大選的預(yù)測(cè)模型也一定能夠在預(yù)測(cè)不太復(fù)雜的事件中輕松獲勝,如奧斯卡投票,其投票成員不足6000人,但美國(guó)總統(tǒng)大選與奧斯卡投票采用的數(shù)據(jù)大相徑庭。
David Rothschild透露:“我通常關(guān)注四個(gè)不同類型的數(shù)據(jù):投票數(shù)據(jù)、預(yù)測(cè)市場(chǎng)數(shù)據(jù)、基本數(shù)據(jù)和用戶產(chǎn)生的數(shù)據(jù)。在預(yù)測(cè)政治時(shí),我采用基礎(chǔ)數(shù)據(jù)如過(guò)去的選舉結(jié)果、義務(wù)和經(jīng)濟(jì)風(fēng)向標(biāo)。通過(guò)基礎(chǔ)數(shù)據(jù)建立一個(gè)基準(zhǔn),然后轉(zhuǎn)向預(yù)測(cè)市場(chǎng)數(shù)據(jù)和投票數(shù)據(jù),因?yàn)檫@兩個(gè)類型的數(shù)據(jù)吸收并包含了更多選舉信息。2012年總統(tǒng)大選預(yù)測(cè)時(shí),我使用了少量用戶產(chǎn)生的數(shù)據(jù),但Xbox Live數(shù)據(jù)對(duì)補(bǔ)充重大事件實(shí)時(shí)分析起了關(guān)鍵作用?!?/P>
“預(yù)測(cè)奧斯卡金像獎(jiǎng)花落誰(shuí)家時(shí)缺少民意測(cè)驗(yàn)投票數(shù)據(jù),而基本票房回報(bào)和電影評(píng)分等數(shù)據(jù)也很難有效統(tǒng)計(jì)。我更關(guān)注的是預(yù)測(cè)市場(chǎng)數(shù)據(jù),這是主要因素,同時(shí)采用部分用戶生成內(nèi)容的數(shù)據(jù)分析,這有助于理解電影內(nèi)部和不同類別之間的相關(guān)度,例如影片《林肯》會(huì)贏得多少個(gè)獎(jiǎng)項(xiàng)?”David Rothschild說(shuō)。
David Rothschild強(qiáng)調(diào):“每當(dāng)我關(guān)注一個(gè)新領(lǐng)域,我都會(huì)認(rèn)真考慮一些關(guān)鍵事情,確保自己的預(yù)測(cè)更有意義?!?/P>
·首先,我會(huì)確定最中肯的預(yù)測(cè)。至于奧斯卡金像獎(jiǎng)得主預(yù)測(cè),我關(guān)注的是所有24個(gè)類別的獲勝概率,并會(huì)預(yù)測(cè)各個(gè)類別主流電影的總獎(jiǎng)項(xiàng)。
·其次,我的所有預(yù)測(cè)結(jié)果會(huì)實(shí)時(shí)更新。從研究觀點(diǎn)看,實(shí)時(shí)更新預(yù)測(cè)結(jié)果至關(guān)重要,我們能夠獲悉最初預(yù)測(cè)與最終事件之間發(fā)生的不同事件的價(jià)值。這些事件就是奧斯卡獎(jiǎng)項(xiàng)歸屬的前奏。
·最后,我借助特定領(lǐng)域的歷史數(shù)據(jù)建模,然后通過(guò)不斷升級(jí)模型確保預(yù)測(cè)的準(zhǔn)確度。我還想強(qiáng)調(diào)的是,我們所做的一切都是為了盡可能保證領(lǐng)域獨(dú)立性,確保所有問(wèn)題的可衡量性。如果該研究能夠催生出更高效的預(yù)測(cè)方法、在眾多領(lǐng)域適用于大量問(wèn)題,將對(duì)微軟、對(duì)學(xué)術(shù)界和這個(gè)世界都有價(jià)值?!?RFID世界網(wǎng)編輯整理)