【漫畫】通俗易懂告訴你什么是機器學(xué)習(xí)?
在一個風(fēng)和日麗的周末……
故事一:瑞雪兆豐年
我們中國有一句關(guān)于農(nóng)業(yè)生產(chǎn)的古老諺語:瑞雪兆豐年。
就是說,如果前一年冬天下很大很多的雪,那么第二年莊家豐收的可能性比較大。
這條諺語是怎么來的呢?我們可以想象當(dāng)時的前景。
第一年
第二年收獲時節(jié)
第二年冬天
第三年收獲時節(jié)
第三年冬天
第四年收獲時節(jié)
年復(fù)一年,若干年后的冬天。。。。
這就是瑞雪兆豐年的故事。頭年的瑞雪和來年的豐收,本是兩個看起來并不相關(guān)的現(xiàn)象,但是智慧的農(nóng)民伯伯通過幾十年甚至幾代人的經(jīng)驗,總結(jié)出了兩個現(xiàn)象之間的規(guī)律。
現(xiàn)代的農(nóng)業(yè)學(xué)家通過科學(xué)的分析,弄清了瑞雪兆豐年規(guī)律背后的本質(zhì)原理。但是對于古代農(nóng)民伯伯來說,知道規(guī)律就足夠了,可以通過規(guī)律來為下一年的生產(chǎn)生活做出有效的調(diào)整。
故事二:啤酒和尿布
就這樣經(jīng)年累月,沃爾瑪積累了大量的顧客購物數(shù)據(jù)。直到有一天,沃爾瑪?shù)募夹g(shù)專家發(fā)現(xiàn):
于是,這一嘗試實行以后
上個世紀(jì)90年代,沃爾瑪超市已經(jīng)是美國最大的零售企業(yè),擁有大量的顧客資源。那時候的沃爾瑪已經(jīng)采用了先進的計算機技術(shù),隨時記錄著每天眾多顧客購物車中所挑選的商品明細(xì)。
從此,沃爾瑪?shù)匿N售額得到了顯著提升,啤酒尿布的故事也廣為流傳,成為了銷售界和IT界津津樂道的成功典范……
這就是沃爾瑪啤酒和尿布的故事。顧客購買啤酒的行為和顧客購買尿布的行為,原本是兩個看起來沒什么關(guān)聯(lián)的現(xiàn)象。但是沃爾瑪?shù)募夹g(shù)專家以大量的用戶購物數(shù)據(jù)為樣本,通過先進的算法,最終尋找到了兩者之間的重要關(guān)聯(lián)和規(guī)律。
為什么購買啤酒的人更有可能同時購買尿布呢?是因為有了小孩的男人比別人更愛喝啤酒?還是因為愛喝啤酒的男人比別人更顧家?這些臆測似乎都有些牽強。
但是沃爾瑪不需要關(guān)心規(guī)律背后的本質(zhì)。對企業(yè)來講,利用發(fā)現(xiàn)的規(guī)律,獲得實實在在的利益就足夠了。
以下是小灰根據(jù)個人理解說畫的流程圖:
以下是大黃基于小灰的流程圖所做的補充:
以下是大黃對流程圖結(jié)果部分作出的調(diào)整。其中假設(shè)模型可以理解成訓(xùn)練出來的降雪和收獲的規(guī)律,通過假設(shè)模型,從新一年降雪情況推斷出下一年收獲情況的過程稱為回歸。至于啤酒尿布的例子,屬于截然不同的機器學(xué)習(xí)類型,只需找出關(guān)聯(lián)關(guān)系,并不需要進行回歸。
機器學(xué)習(xí)按照方式不同主要分為三大類,有監(jiān)督學(xué)習(xí)(Supervised learning)、無監(jiān)督學(xué)習(xí)(Unsupervised learning)以及半監(jiān)督學(xué)習(xí)(Semi-supervised learning)。
監(jiān)督學(xué)習(xí):通過已有的一部分輸入數(shù)據(jù)與輸出數(shù)據(jù)之間的對應(yīng)關(guān)系,生成一個函數(shù),將輸入映射到合適的輸出。在瑞雪兆豐年的例子中,頭年降雪量就是輸入,來年畝產(chǎn)量就是輸出。
非監(jiān)督學(xué)習(xí):直接對輸入數(shù)據(jù)集進行建模,尋找關(guān)聯(lián)。例如啤酒尿布的例子,只需要尋找關(guān)聯(lián)性,并不需要什么明確的目標(biāo)值輸出。
半監(jiān)督學(xué)習(xí):綜合利用有輸入輸出的數(shù)據(jù),和只有輸入的數(shù)據(jù)來進行訓(xùn)練??梢院唵卫斫獬杀O(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的綜合。