詳細解剖百度大腦

類別: 互聯網
本文重點解讀百度三層設計中(百度大腦,資料工廠,開放雲)最頂層的設計,百度大腦計劃,讓我們來一次詳細的百度大腦解刨。

近日百度終於釋出了讓人期待已久的百度大資料計劃,而本文重點解讀百度三層設計中(百度大腦,資料工廠,開放雲)最頂層的設計,百度大腦計劃,讓我們來一次詳細的百度大腦解刨。

而該計劃究竟是什麼讓我們來一次深入瞭解,必須從三層架構一層層解刨。

第一層:開放雲

作為一個人類嬰兒,最重中之重的事情就是記憶,而記憶也是一切的發展前提。同樣,我們將百度人腦看成人腦的話,那麼第一件事情,必然是儲存。人類沒有記憶就沒有關聯,也更不用提決策與創造,而人類之所以能夠在靈長類動物中立足,正是有著極大的可以儲存記憶的腦容量,那麼機器要模仿人腦也必然要建立在擁有龐大的儲存能力之上,百度在真正積累資料到一定程度後才開始該專案。

我們來看下百度儲存能力的發展過程:2010 年,百度的機器學習能力並不是很高,只擁有幾百臺的伺服器,特徵向量只有十萬。兩年後也就是 2012 年,百度的單叢集規模達到了幾十萬,已經完全能夠做到讓這些機器在同一時間做同一件事情,特徵向量從十萬上升到兩百億!

而當在百度達到兩百億後機器學習就到達了一定瓶頸,就算特徵向量增加到三百億,四百億,對機器學習的幫助並不是很大,而此時擁極強儲存能力的百度開始了在機器學習上的“深度學習”的分支發展,進而升級已有的人工智慧大腦。

備註:

機器處理能力的評判標準有兩個:第一個是看伺服器規模,第二個是看特徵向量大小。

特徵向量:將文字語音影象視訊等內容轉化為機器能夠讀懂的一連串關鍵資料,資料越多,機器學習的就會越好,使用者的搜尋結果就會越精確,對使用者的搜尋體驗效果也會隨之上升,但對伺服器的壓力也會相應加大。百度能夠僅用兩年時間從 10 萬直接飆升到 200 億,足以見得百度伺服器技術實力的雄厚。

此外這一段並非只講儲存,同時也是在講百度大腦的發展,因為有了記憶就會發生關聯,進而產生決策,這是一個整體前進的過程。

第二層:資料工廠

作為一個人,要調取某部分的記憶,就會很自然的聯想到某個詞,某個畫面,某個音樂等等就能記起很多事情,比如當你聽老歌時,看到童年的玩具時,洶湧的記憶總會被調出來。

當然這是因為人類大腦的神經連線結構允許我們這樣去檢索,而機器是不允許的,資料儲存在硬碟上,機器想要找到某個資料,必須一個個訪問過去,機器沒有分類的概念,就像在圖書館中,機器是一個不會看分類的管理員,他要找某一本書時只能一本一本的找過去,十分笨拙。

也就是說,機器要想搜尋什麼內容時,必須有人來幫助它建立起分類,但最矛盾的就是,在錯綜複雜的語言結構中,我們很難為一個詞去下定義,比如當你在說“蘋果”這個詞的時候,你如何告訴機器他的分類?”蘋果”究竟是一個名詞,還是一個公司?而決定一個詞的意義的則是語境,也就是機器要依靠其他詞語的出現來為這個詞做模糊的定義,不能完全給它下死定義而是要根據環境來下,並且它還應當是動態的,不斷變化的。

這種搜尋技術也依然要百度的大腦配合才能達到,對每一個詞的定義應該是一個庫,而這個庫中的每一個詞又都各自構成庫,百度的資料工廠所創造的演算法,就是在這麼一個資料之海中去為他們建立管理,然後去索引。

資料工廠相當於人腦中的記憶關聯過程:將某個詞同時與其他詞或是某個場景等等建立起動態關聯的過程。

第三層:百度大腦

人腦有了記憶,有了關聯之後就會進行決策,比如小孩子碰到開水,燙到了手下次就不會碰,就是因為記憶了開水和燙手的痛苦,並將這兩個記憶關聯在了一起,才有了下次不去碰開水的決策。而百度大腦就是在模仿這些行為,做記憶關聯之後的決策、行動、創造。

我之前關於開放雲和資料工廠的分析完全是建立在搜尋引擎之上,只是站在了百度對漢語能力的理解而已,而那時百度的人工智慧也確實只是剛出生的嬰兒而已,只能在 PC 端爬行,但是當智慧手機誕生,可穿戴智慧裝置的出現後,百度開始成為可以走路的嬰兒,此時百度大腦的智力已是高達兩歲的嬰兒水平。

從搜尋引擎智慧到硬體智慧,這是一個平面到立體,二維到三維的過程。原因是以前百度搜集到的資料只能夠是 PC 端使用者的搜尋行為,這之中充其量只有文字內容罷了,百度所能夠建立的僅僅只是語言理解,對使用者的輸入文字資料做不斷的處理與反饋,但是到了手機端,智慧硬體端則完全變天,百度可以收集到的不僅僅只會是語言資料,更會收集到一整套的使用場景資料!

此時,百度從為使用者提供搜尋結果的搜尋引擎開始轉變為向使用者提供全方位解決方案的人工智慧,想象力無窮。

那麼,百度大腦將會如何模仿人類的感知,再到思考,以至於最後產生決策、生產、創造呢?

感知部分:

這裡,我們還是先回看百度在 PC 時代的處理方式,百度通過海量的使用者輸入的相同資訊,以及他們對網頁的排序進行的點選,加上自身演算法的種種規則,進而對搜尋結果進行排序,將最優的結果前置於使用者面前。那麼以此類推在移動時代,百度能做的則是,通過海量的使用者的發起行為,然後根據他們最後的選擇行為,再根據使用者的周邊環境場景,建立起強大的資料關聯,進而再為其決策。

而這裡的感知則與 PC 時代完全不同,PC 時代感知的只是某個詞彙資料,但是這裡感知的有兩者:第一是使用者的互動資料,使用者對機器做了什麼,說了什麼,輸入了什麼圖片,人工智慧會將這些行為轉化為機器能夠理解的特徵向量等資料輸入進機器。第二是物的資料,場景資料,比如使用者拍照中的場景,百度可以對其進行智慧識別,判斷其在哪裡,是在餐館還是在旅遊途中等等,並也將這些場景轉化為機器能夠讀懂的特徵向量等資料,讓二者進行一些必要的關聯。

當然這些收集行為和 PC 時代一樣都是匿名的,百度根本不在乎任何一個單使用者的資訊,百度在乎的是群體的決策資訊,並利用這些資訊進行判斷後再為個體使用者作決策推薦。

思考部分:

同樣是類比於百度在 PC 時代的思考方式,百度拿到使用者搜尋的資料,再拿到網站的資料後為語詞進行了相關性關聯,為其進行了群體模糊解釋,那麼毫無疑問,百度會為其感知到的資訊再次進行模糊解釋,將感知到的資訊進行與其他感知的關聯處理,並且還會將之前已經在搜尋引擎上積累的資訊融合進來,進而為人類整體行為做出解釋,併為個人想要選擇做某些事情的時候提供最優方案。

就像嬰兒牙牙學語一樣,開始觀察周圍大人的說話與表情,並在自己的大腦中建立這一切的關聯性,開始嘗試學習大人說話的內容,並說出來。

決策、生產、創造部分:

同樣是類比於百度在 PC 時代的思考方式,百度所做的決策就是幫使用者提供最優的搜尋結果,然後前置。那麼也很好理解百度大腦在移動裝置時代會如何幫助使用者決策,百度會根據各個已經在資料庫中已有的常規使用者行為場景,再為某個使用者提供具體的方案。

當百度大腦的思考過程執行完畢後,就完成了對某件事的動態理解,而理解完後就要去為使用者產生最優質的結果,並再根據使用者的反饋進行不斷調整。

就像嬰兒一樣,雖然還在牙牙學習,但是已經開始在用積木搭建自己的城堡了。

案例:

百度大腦最大價值在於幫助使用者利用大資料做好預測工作,例如用百度大腦來預測城市熱度,目前百度根據海量的使用者行為(感知)已經可以預測出某個城市兩週後的旅遊熱度(思考與創造),如果是景點的話可以預測兩天後的熱度。而這些預測也為使用者出行旅遊提供了極大的參考價值。

結語:

百度在 PC 時代有過很多成就,但在移動智慧裝置上再次迎來全新的挑戰,在 PC 時代百度只需要解讀語言就夠了,但是在移動時代需要解讀的東西會更多,影象識別,人臉識別,語音識別等等都是移動時代需要重新再深耕的新技術,並且使用者使用場景的複雜性要遠遠大於 PC 時代。但挑戰的同時也更藏著極大的機遇,這是一個從 PC 跨越到移動時代的人工智慧大機遇,物聯網的日趨成熟必將導致人工智慧真正的實用時代的來臨,這也是百度終於可以從二維上升到三維的機會,再加上百度已經在 PC 時代的人工智慧的成熟的積累,繼續進化更像是理所當然的事情。

來源:http://www.199it.com/archives/215547.html



 詳細解剖百度大腦原文請看這裡