RFID半結(jié)構(gòu)化巨量資料分析 如何是好?
舉世聞名的Wal-Mart,藉由經(jīng)年累月的結(jié)帳資料分析,締造了「尿布與啤酒」的驚奇故事,大家這才乍然醒悟,原來看似風(fēng)馬牛不相及的事物,也蘊(yùn)藏著不為人知的致勝秘訣,顯見商業(yè)分析之重要性;但「尿布與啤酒」畢竟屬于事后分析,Wal-Mart現(xiàn)在更想做的,已經(jīng)不僅止于此。
盡管「巨量資料」或「海量資料」等詞匯,幾乎已經(jīng)密集延燒了一整年,但Big Data議題不僅未見絲毫疲態(tài),這把火反倒愈燒愈旺,成為企業(yè)蓄積智慧與洞察力的絕佳寶庫,許多高階主管,都樂此不疲從巨量資料中探索致勝秘訣,據(jù)此建立競爭優(yōu)勢。放大
Wal-Mart過去為人樂道的尿布與啤酒傳奇,已成為「傳統(tǒng)」。新的商業(yè)分析技術(shù)正在興起,可以挖掘出過去顯為人知的訊息。
巨量資料分析架構(gòu)示意圖
乃至于全球最大的軟件公司微軟(Microsoft),也將巨量資料與行動應(yīng)用、云端運(yùn)算、企業(yè)生產(chǎn)力(含企業(yè)社群)等另三項議題,列為「主導(dǎo)未來十年產(chǎn)業(yè)變化」的四大趨勢之一;其認(rèn)為多年以來,商業(yè)智慧一直扮演重要角色,如今隨著互聯(lián)裝置及應(yīng)用程序的大量運(yùn)用,引發(fā)爆炸性的資料增長,遂使得商業(yè)智慧愈趨朝向巨量資料靠攏,成為企業(yè)賴以洞燭機(jī)先的關(guān)鍵利器。
值得一提的,隨著巨量資料、商業(yè)智慧彼此間擦撞火苗,也讓現(xiàn)今的商業(yè)分析內(nèi)涵,出現(xiàn)了有別以往重大轉(zhuǎn)變;在過去,商業(yè)分析的重點,僅在于冰山之上已知可見的結(jié)構(gòu)化數(shù)據(jù),偏向事后分析型態(tài),然而今后,其重點已經(jīng)轉(zhuǎn)向為冰山之下的未知信息,且泰半屬于大家從前鮮少進(jìn)行分析的非結(jié)構(gòu)化資料型態(tài)。
Wal-Mart過去為人津津樂道的尿布與啤酒傳奇,至此已可歸類為「傳統(tǒng)」的商業(yè)分析,展望未來,企業(yè)倘若只是做到這一步,并不足以掌握關(guān)鍵契機(jī);所以Wal-Mart早就不以此為自滿,而是主動分析顧客搜尋商品的行為,以及用戶透過搜尋引擎尋找到Wal-Mart網(wǎng)站的關(guān)鍵字,利用這些關(guān)鍵詞的分析結(jié)果發(fā)掘顧客需求,以規(guī)劃下一季商品的促銷策略。
不僅如此,Wal-Mart還瞄準(zhǔn)了當(dāng)今最炙手可熱的社群網(wǎng)站,期望從顧客在Facebook、Twitter等網(wǎng)站上對商品的討論,早一步掌握潛在消費需求,終至創(chuàng)造「比父親更早知道女兒懷孕」的另一驚奇故事。
面臨新挑戰(zhàn) 企業(yè)亟需培育新智能
即便許多企業(yè),所屬業(yè)態(tài)與Wal-Mart大相逕庭,生財模式也與Wal-Mart多所歧異,但可以肯定的是,隨著全球經(jīng)濟(jì)情勢與商業(yè)環(huán)境的改變,未來企業(yè)規(guī)模無論是大或小、從業(yè)資歷不管是深或淺,都無可避免一定會面臨諸多新挑戰(zhàn)。
這些挑戰(zhàn),包括了商品的競爭與價格壓力漸增、新市場的需求擴(kuò)大、人力資源管理難度攀升,以及企業(yè)永續(xù)性與法規(guī)遵循的要求愈趨嚴(yán)格;在此前提下,企業(yè)別無他法,勢必得力求推動更多的創(chuàng)新,加快技術(shù)研發(fā)的速度,并設(shè)法改善客戶服務(wù)與盈利能力。
意欲將前述條件逐一付諸實踐,對于絕大多數(shù)企業(yè)而言,其實并不容易,因而導(dǎo)致大部分公司抗御經(jīng)濟(jì)情勢與商業(yè)環(huán)境變動的能力,都顯得有所不足,為業(yè)務(wù)發(fā)展埋下不確定因子;于是乎,現(xiàn)今不管身處哪一國度、哪一垂直產(chǎn)業(yè)領(lǐng)域的企業(yè)用戶,最殷切的期盼,便是尋求一個好的解決方案,借以幫助他們節(jié)省金錢、提高生產(chǎn)力、帶動業(yè)績的成長。
以上三個愿望,看似平凡無奇,理應(yīng)不難達(dá)成,實則不然,主因在于當(dāng)前世局變遷速度加快,連帶造成各項新挑戰(zhàn)接踵而至,使得企業(yè)很難再沿用過去熟悉的方法,實現(xiàn)這些基本目標(biāo),必須援引新的方式,建立新的智能,才可望扭轉(zhuǎn)整個局面。
如何培育新智能?答案就在于巨量資料分析!
傳統(tǒng) vs. 現(xiàn)代 商業(yè)分析大不同
傳統(tǒng)的BI或資料倉儲(Data Warehouse),系擅長于處理結(jié)構(gòu)化資料,亦即一般存放于關(guān)聯(lián)式數(shù)據(jù)庫的數(shù)據(jù),對于XML、Logs、Click-Stream、RFID Tags等半結(jié)構(gòu)化資料,抑或網(wǎng)頁、電子郵件、多媒體、實時訊息等非結(jié)構(gòu)化資料,處理能力一向都不太好,少量處理如此,面對現(xiàn)今爆炸性的「巨量」,那更是無力應(yīng)付。
所以企業(yè)若一味緬懷過去,運(yùn)用傳統(tǒng)資料倉儲、資料采礦(Data Mining)等工具鑒往知來,恐將事與愿違,因為這些工具所帶出的分析結(jié)果,對于企業(yè)競爭力的提升作用,已經(jīng)愈來愈小。
那么該如何是好?即是設(shè)法強(qiáng)化半結(jié)構(gòu)化與非結(jié)構(gòu)化巨量資料的處理能力,以期填補(bǔ)既有商業(yè)分析機(jī)制的先天缺陷;其大致的運(yùn)作原理是,運(yùn)用一套全新的解決方案,先針對內(nèi)外部巨量資料加以儲存、運(yùn)算、處理與分析,然后再把其處理或分析結(jié)果,轉(zhuǎn)變?yōu)槟撤N結(jié)構(gòu)化格式,如此一來,BI或資料倉儲便可擷取這些結(jié)果,為終端使用者進(jìn)一步提供相關(guān)的索引或搜尋。
于是乎,最擅長處理半結(jié)構(gòu)化與非結(jié)構(gòu)化資料的Hadoop-MapReduce,遂成為巨量資料分析架構(gòu)當(dāng)中的重要環(huán)節(jié),從以往鮮為人知,變成今時今日的當(dāng)紅技術(shù);根據(jù)市場研究機(jī)構(gòu)MarketAnalysis.com預(yù)估,時值2013~2018年期間,Hadoop-MapReduce市場的復(fù)合成長率高達(dá)58%,到了2018年其產(chǎn)值將達(dá)22億美元,放眼各項IT產(chǎn)品或技術(shù),具備類似于Hadoop-MapReduce增長幅度的項目,其實并不多見。
綜此,建立Hadoop-MapReduce分散式運(yùn)算架構(gòu),似已成為企業(yè)跨足巨量資料分析的必經(jīng)之途,但要想在這條路上走得安穩(wěn),企業(yè)必須先把大環(huán)境給營造出來,首先便是導(dǎo)入云端運(yùn)算,藉由虛擬化技術(shù)將一群廉價的運(yùn)算資料,匯集于可供挪移調(diào)度的資源池。
其次則是建立資料儲存(Storage)與擷取(Retriever)機(jī)制,因此舉凡HDFS(Hadoop Distributed File System)分散式檔案系統(tǒng),以及立基于欄位(Column)的HBase數(shù)據(jù)庫系統(tǒng),顯然都成為企業(yè)IT人員的必修學(xué)分。
HDFS有一個更傳神的稱謂-NameNode,負(fù)責(zé)將檔案切割成為固定大小的區(qū)塊,然后再將各個區(qū)塊分散儲存至不同的DataNode上,運(yùn)作原理彷彿Linux檔案系統(tǒng)里頭的Inode;因檔案儲存皆跨越實體機(jī)器,所以HDFS可被為一項虛擬的分散式檔案系統(tǒng),與傳統(tǒng)檔案系統(tǒng)分割Block后都存放到同一機(jī)器的做法,的確大不相同。
至于HBase,我們可以這樣解釋,簡單來說,Hadoop就是一套實現(xiàn)Google Map & Reduce的工具,而HBase則用以實現(xiàn)Big Table設(shè)計概念,兩者皆屬于Apache項目的一環(huán),也都以Java作為主要程序語言。Hbase是一種足以迅速存取大量資料的數(shù)據(jù)庫設(shè)計方法,它運(yùn)用Row-Oriented、Column Family等思維,俾使用戶便于儲存具備不同欄位屬性的資料,爾后亦可援引Row Key,快速讀取其所需要的資料。
而不管是HBase,以及負(fù)責(zé)將單一工作分散至不同集群加以平行運(yùn)算的MapReduce,大家都需構(gòu)筑在HDFS基礎(chǔ)之上,所以無論在建立HBase或Hadoop時,皆需設(shè)定聯(lián)系HDFS的Server與Port,以便于讓同一份檔案,可被復(fù)制到不同的運(yùn)算節(jié)點。
一旦運(yùn)用Hadoop-MapReduce負(fù)責(zé)處理半結(jié)構(gòu)化與非結(jié)構(gòu)化資料,再配合傳統(tǒng)BI與資料倉儲對于結(jié)構(gòu)化資料之處理與分析,企業(yè)即可成功進(jìn)入Big Data世界,再從Big Data走向Total Data,從過去茫然未知的冰山下世界,深入萃取商業(yè)價值,借以預(yù)測未來、優(yōu)化競爭策略、提振顧客滿意度。
此處必須強(qiáng)調(diào),過去的資料采礦,通常是提出「會問」的問題,接著從這些問題找答案、找知識,但進(jìn)入巨量資料分析,用戶心態(tài)勢必需要調(diào)整,轉(zhuǎn)而將重點置于「不會問」的問題,比方說經(jīng)由客戶在社群網(wǎng)站的意見討論,驅(qū)使下一個問題的產(chǎn)生,繼而探索解答,以利企業(yè)能從未知環(huán)境中創(chuàng)造價值。(RFID世界網(wǎng)編輯整理)