大資料進行時:聚光燈後的四大推手

類別: 互聯網

這是一篇來自留英資訊工程博士周文哲(@Wennie文哲)的一篇投稿,她於去年創業成立幸福佩智公司,專注於提供 Hadoop 的大資料處理與分析解決方案,產品已被應用到網際網路廣告、物聯網等行業。

“大資料”這一話題在國內從今年起受到投資者追捧,也不斷有高技術人才選擇這個方向創業;但實際上國外對於“大資料”,已經走過了概念炒作階段,出現了實際的應用,產生了實際的效益。周文哲這篇投稿,為我們詳細揭示了大資料盛行背後的原因,以及大資料在國外發展的情況。

“忽如一夜春風來,千樹萬樹梨花開”是唐朝的詩人岑參描寫西北邊塞早雪奇景的詩句,用來形容大資料的盛行,莫不為過。就在幾個月前,大資料似乎還只是一個遙遠的話題,短期內就“如一夜春風”吹來,在各種媒體、論壇、甚至政府戰略中頻頻露臉,那麼,是什麼推動了它的盛行呢?這些聚光燈背後,又有著怎樣的故事?本文我們將從行業發展、應用普及、技術進步、金融和政策鼓勵四個方面來探討大資料的幕後推手。

推手一:資料的迸發

大資料的概念或許大家並不陌生,“大”字不僅意味著數量的龐大,還代表著資料種類繁多、結構複雜,變化的速度也非常快,這些特徵的出現與網際網路的發展息息相關。從搜尋引擎、社交網路的普及到今天人手皆是的移動終端,網際網路上的資訊總量正以每年 50% 的增速不斷膨脹,其中 90% 的資訊來自近三年,包括每個月 Facebook 上分享的 30 億條內容,每天 12 TB 的 Twitter 資訊,每天淘寶上超過 30 億條店鋪、商品瀏覽紀錄及上千萬的成交、收藏紀錄等等。據 IDC 統計,2011 年全球所產生的資料總量是 1.8 ZB(10 的 21 次方),如果把這些資料燒錄到 CD 碟片中,其摞起來的高度等於地球到月球的距離!

資料不僅在“量”上瘋狂的增長著,在“源”上也不斷的豐富著。目前世界上產生的資料,有近 80% 是由個人使用者產生的;據估計,到 2020 年全球將有 500 億個裝置連入網路,地理位置、網路瀏覽行為、健康資料、甚至基因資訊等,都成為技術為個體服務的有效資源,這也意味著商家對每一個使用者都將有精準的瞭解,真正做到與客戶的“零距離”接觸。正是這種巨大的商業利益的驅使,使得大資料成為國際一流企業競相投入使用的競爭利器。

推手二:應用的普及

今年年初,美國一名男子闖入了他家附近的 Target 店鋪(Target 是一家美國零售連鎖超市)。“你們怎麼能這樣!”男人向店鋪經理大吼到,“你們竟然給我 17 歲的女兒發嬰兒尿片和童車的優惠券,她才 17 歲啊!”店鋪經理不知道發生了什麼,立刻向來者道歉,表明那肯定是個誤會。然而,經理沒有意識到,公司正在執行一套大資料系統。一個月後,這個憤怒的父親打來電話道歉,因為 Target 發來的嬰兒用品促銷廣告並不是誤發,他的女兒的確懷孕了。

諸如此類的應用,在國際零售行業巨頭中已屢見不鮮,我們以 Target 作為首例,是因為它的案例的確留給人強烈的印象:資料的力量,不僅讓商家提升了自己的業績,還讓客戶為之心甘情願買單。Target 建立了一套女性購買行為在懷孕期間產生變化的模型,不僅如此,如果使用者從他們的店鋪中購買了嬰兒用品,Target 在接下來的幾年中會根據嬰兒的生長週期情況定期給這些顧客推送相關產品,使這些客戶形成長期的忠誠度。

實際上,諸如沃爾瑪、Tesco(英國零售巨頭)等巨頭已從資料中獲得了巨大的利益,也因此鞏固了自己在業界的長盛不衰。以 Tesco 為例,這家全球利潤第二大的零售商從其會員卡的使用者購買記錄中,充分了解一個使用者是什麼“類別”的客人,如速食者、單身、有上學孩子的家庭等等,並基於這些分類進行一系列的業務活動,比如,通過郵件或信件寄給使用者的促銷可以變得十分個性化,店內的上架商品及促銷也可以根據周圍人群的喜好、消費的時段來更加有針對性,從而提高貨品的流通。這樣的做法為 Tesco 獲得了豐厚的回報,僅在市場宣傳一項,就能幫助 Tesco 每年節省 3.5 億英鎊的費用。

在網際網路行業,大資料更是為電商、廣告商們提供了豐厚的回報。雅虎於 2008 年初便開始啟用大資料技術,每天分析超過 200PB 的資料,使得雅虎的服務變得更人性化,更貼近使用者和客戶。它與雅虎 IT 系統的方方面面進行協作,包括搜尋、廣告、使用者體驗和欺詐發現等。AOL 也設立了 300 節點的伺服器叢集,將在其下屬系列網站(如 AOL.com、Huffington Post、MapQuest 等)中每天 500TB 的使用者瀏覽資訊收集起來,分析和預測這些使用者的行為,以便有針對性的為每個月 1.8 億獨立使用者進行個性化廣告服務。

於亞馬遜(Amazon)而言,資料技術的應用更是為其成為一家“資訊公司”,獨佔電商領域鰲頭奠定了穩定的基礎。為了更深入的瞭解每一個使用者,亞馬遜不僅從每個使用者的購買行為中獲得資訊,還將每個使用者在其網站上的所有行為都記錄下來:每個頁面的停留時間,使用者是否檢視 Review,每個搜尋的關鍵詞,每個瀏覽的商品等等,在亞馬遜去年 11 月推出的 Kindle Fire 中,內嵌的 Silk 瀏覽器更是可以將使用者的行為資料一一記錄下來。這些資料的有效分析使得亞馬遜對於客戶的購買行為和喜好有了全方位瞭解,對於其貨品種類、庫存、倉儲、物流、及廣告業務上都有著極大的效益回饋。

資料技術的應用不僅在零售和網際網路行業獲得極大回報,其帶來的經濟價值使得各行業均為之“競折腰”。在能源行業,Opower 使用資料來提高消費用電的能效,並取得了顯著的成功。作為一家提供 SaaS 服務(軟體服務)的創新公司,Opower 與多家電力公司合作,分析美國家庭用電費用並將之與周圍的鄰居用電情況進行對比,被服務的家庭每個月都會受到一份對比的報告,顯示自家用電在整個區域或全美類似家庭所處水平,以鼓勵節約用電。Opower 的服務以覆蓋了美國幾百萬戶居民家庭,預計為美國消費用電每年節省 5 億美元。

最值得一提的是生物資訊行業。生物資訊是繼網際網路行業之後資料迸發最迅速的行業,並將遠遠超過網際網路產生的資料:人類用 0 和 1 創造了虛擬世界,而造物主用 A/C/T/G 四種元素創造了萬物生靈,生命的產生、發展、消亡的奧祕盡在其中。隨著測序技術的發展,全基因組的測序價格由十年前的上億美元降至今天的數千美元,這使得更多人、物種的 DNA 資訊的獲取成為可能。個體全基因組資訊的獲取,使得個性化診療服務成為可能。在美國華盛頓大學,研究人員通過對一位白血病患者的基因資訊進行分析,成功的找出了導致癌細胞迅速擴散的致癌基因,並發現了能夠阻止該基因產生作用的藥物,有效的延長了患者的生命。

諸如以上的應用,在悄無聲息的進行著,是資料帶來的市場價值推動著一切的進行,亦構成了“引爆”大資料產業發展的第二個推手。

推手三:技術的發展

技術與應用之間從來就是相輔相成的關係:應用的實現需要技術的支撐,而技術的進步能推動應用的普及。在以上例項應用的背後,是大資料技術讓一切成為了可能。本文中,我們所指的大資料技術,主要是以 Hadoop 為代表的非關係型資料庫系統及分散式運算架構,在這一部分,我們將簡要介紹其發展背景。

上世紀 60 年代末關係型資料庫技術的出現使得資料能按照固定的結構進行儲存,方便使用者根據資料屬性進行查詢的同時,也使得管理大為簡便。然而,資料量的爆發增長和資料結構的多樣性,不僅要求能快速錄入、提取海量資料資訊;還要求資料庫隨著資料量的增加而靈活擴充套件、資料儲存不侷限於固定的結構。這時,傳統的關係型資料庫技術已無法滿足這些需求,於是,NoSQL 技術在上世紀末期開始出現。

然而,非關係型資料庫技術一開始並未得到廣泛應用,直到 2009 年,在搜尋引擎、社交網路等網際網路應用盛行使得資料量迅猛增加後,才開始為人們所重視並投入使用。發展到今天,NoSQL 技術已經形成了一系列不同用途的資料庫管理系統,如 BigTable、Amazon DynamoDB、Hadoop/Hbase、Cassandra 等列族儲存系統(Wide Column Store),MongoDB、CouchDB 等檔案儲存系統,Neo4J 等圖形資料庫系統。由於列族儲存系統支援多種型別的資料儲存,目前應用的範圍最為廣泛。

2004 年初,Google 開始研發 BigTable 非關係型資料庫系統,它是建立在 Google 檔案系統之上的一種壓縮的、高擴充套件的資料庫技術,可以讓 Google 對於自身新增業務處理進行低成本的擴充套件。8 個月後,BigTable 開始投入內部使用,後來被廣泛應用於一系列的 Google 應用中,如 Google Reader、Google Earth、Google Maps、Gmail、YouTube 等等。為了解決海量資訊的計算問題,Google 又研發了 MapReduce 的平行計算技術架構,使得 T 量級以上的資料可以並行處理,並通過 BigTable 來儲存和更改資料,有效的支撐了 Google 日益增長的資料處理任務。而 BigTable 這一模型,啟發了眾多“後來者”的資料技術。

Hadoop 便是其中一員。這個由 Yahoo! 的前員工 Doug Cutting(現任職於 Cloudera 公司)最初負責開發的專案,已成為大資料行業的技術中心。Hadoop 是由一系列開源技術組成的分散式架構,包括 Hbase 列資料庫系統、MapReduce 平行計算框架、HDFS 分散式檔案系統、Mahout 演算法庫等等,由於其擴充套件性高、資料種類靈活、成本低,Hadoop 被廣泛應用於各行各業,包括網際網路、生物資訊、物聯網,甚至美國宇航局 NASA 也用 Hadoop 來處理從宇宙望遠鏡中傳回海量無線電資料,其資料量達到每秒鐘 700TB!

2008 年成立的 Cloudera 是最早將 Hadoop 商用的公司,為合作伙伴提供 Hadoop 的商用解決方案,其中包括 IBM、甲骨文(Oracle)、微軟EMC、Teradata 等行業領先的資料解決方案提供商,使得 NoSQL 技術成為現存 SQL 資料解決方案的強有力補充;眾巨頭紛紛推出相應產品,來適應其客戶資料業務的爆發增長,如 IBM 的 InfoSphere BigInsights,甲骨文的 BigData Appliance,EMC 的 GreenPlum 等等。Cloudera 公司的產品使得開源技術有效的為商業客戶提供服務,而其創始人 Jeff Hammerbacher 亦被福布斯評為美國 30 位 30 歲以下科技領域的明日之星之一。

目前,Hadoop 技術以及被廣泛應用了各大網際網路公司,包括 Facebook、亞馬遜、蘋果、AOL、Ebay、Twitter、Netflix、淘寶、百度等等;在生物資訊行業中,也初步得到了應用,如大型製藥公司提供研究服務的 NextBio 公司,設立了 100 個節點的 Hadoop 叢集來幫助製藥公司進行基因研究。先進技術的發展為企業提供了高效使用資料的便捷工具,是促進大資料行業發展的第三大推手。

推手四:金融與政策的鼓勵

行業的發展,除了市場需求的驅動、技術水平的進步,還離不開資本與政策的矚目。據麥肯錫報導,大資料已經實現了顯著的經濟價值:為美國的醫療服務業每年節省 3000 億美元,為歐洲的公共部門管理每年節省 2500 億歐元,為全球個人位置資料服務提供商貢獻 1000 億美元,幫助美國零售業淨利潤增長 60%,幫助製造業在產品開發、組裝等環節節省 50% 的成本等等。大資料體現的巨大經濟價值,成功地獲得了金融界和政界的親睞。

2011 年 11 月,曾投資 Facebook、DropBox、Cloudera、沃爾瑪等 200 多家公司的矽谷著名風投機構阿克塞爾合夥人公司(Accel Partners),宣佈成立一個金額 1 億美金的大資料基金,專注於投資兩種型別的資料創業公司:建設包括儲存、安全和管理在內的新型架基礎構類公司,以及在基礎架構之上進行如 BI、行業應用、移動應用等開發的公司。這樣的投資方向讓我們看到,大資料的爆發增長使得資料驅動、資料制勝成為必然,那些能夠解決這個過程中因資料而產生的各種問題的創業公司,將在市場上得到自身價值的回饋。

今年 4 月,成立於 2003 年的資料軟體公司 Splunk 在納斯達克以 16 億美元的市值上市,給大資料行業打了一管興奮劑。Splunk 提供的軟體產品可以用於監控、分析實時及歷史的機器資料,這些資料可以是日誌、配置檔案、訊息和告警等。Splunk 可以幫助企業的 IT 管理員集中監控分佈部署在多個資料中心的成千上萬臺伺服器,免去了錯誤發生時需要逐個排查糾錯的苦惱。從創立至今,Splunk 的客戶數量已接近 4000 家,財富 100 強的大部分成員皆為其客戶,包括瑞士信貸、美國銀行、Comcast、Salesforce、Zynga、LinkedIn、T-Mobile、Swisscom、Shutterfly、Heroku 以及美國勞工部和能源部等。

與此同時,政府也將大資料列入了國家發展戰略。今年 3 月底,奧巴馬政府宣佈,白宮將投入 2 億美金的研發費用來推動大資料技術的發展,其主要目標是為了讓大資料技術更好的服務於科研、環境、生物醫藥、教育和國家安全領域。同時,奧巴馬政府對於投資的核心技術領域,也作出了明確的表示,將主要用來鼓勵那些在資料採集、儲存、管理、分析和共享等方面的技術研發。

綜上所述,我們可以看到,大資料成為今天眾人矚目的焦點,是經過了在市場、技術、資金、以及政府多方因素推動的結果。在文章的最後,我們列出三個關鍵詞來總結大資料技術在實際應用中的特性,希望幫助讀者對於大資料的應用有一個概覽性的瞭解。

人才。人才是大資料技術能夠真正發揮其價值的首要因素,也是最大的挑戰。據麥肯錫調查,至 2018 年,美國市場將出現近 20 萬深度大資料分析的專業人才、150 萬能夠進行資料解析的職業經理人的職位缺口。大資料專業人才不僅需要多年的數學知識積累,還需要有程式設計、業務知識等綜合能力,是稀缺的複合型人才;而對於聘用企業來說,也很難有合適的職位適合此類人才。

使用者為中心。大資料技術的應用,可以幫助企業從業務的整體設計角度,發展到針對客戶的個性化服務,例如,零售企業對於過剩的庫存會進行整體促銷,如果對於使用者購買資料進行分析,就可以針對使用者的喜好進行個性化促銷,同時也根據使用者的購買行為對庫存進行準確的調配,以減少浪費。

行業化。在基礎的資料採集、儲存及查詢方面,各行業所通用的技術架構並無顯著差異;但由於每個行業的屬性及需求各異,資料分析將具有較強的行業性。例如,生物資訊行業中,進行基因診斷所用到的比對資料庫需要專業的生物知識來進行翻譯,更為深入的致病基因鎖定則需要用到一系列專業演算法及實驗設計;在能源行業,智慧電網中的電力排程,則需要通過無數的感測器資料預測下一時刻電網中各節點的配電需求,這就要求系統對於實時海量資料的高效處理能力,以及預測演算法的精準。

題圖來自 greenbookblog

來源:http://www.ifanr.com/141641



大資料進行時:聚光燈後的四大推手原文請看這裡