難道有數(shù)據(jù)就叫大數(shù)據(jù)公司了?如果慶豐包子留存有這半個(gè)多世紀(jì)以來(lái)的購(gòu)買(mǎi)者和交易記錄它就得叫大數(shù)據(jù)公司了?是,但也不是。
看硅谷四大不同類(lèi)型公司如何玩轉(zhuǎn)大數(shù)據(jù)
歸納下硅谷“大數(shù)據(jù)公司”的類(lèi)型大概如下:
1.數(shù)據(jù)的擁有者、數(shù)據(jù)源:特點(diǎn)是業(yè)務(wù)優(yōu)勢(shì)能收集到大量數(shù)據(jù),就像煤老板壟斷一個(gè)地區(qū)的礦一樣。其實(shí)大多數(shù)有能力產(chǎn)生或收集數(shù)據(jù)的公司都屬于這類(lèi)型,比如VantageSports和收集了PB級(jí)數(shù)據(jù)的包子鋪。
2.大數(shù)據(jù)咨詢(xún):特點(diǎn)是非常技術(shù),提供從基礎(chǔ)設(shè)施規(guī)劃建設(shè)維護(hù)到軟件開(kāi)發(fā)和數(shù)據(jù)分析等的服務(wù),但不擁有數(shù)據(jù),比如Cloudera這家不到500人的startup是最著名的Hadoop架構(gòu)咨詢(xún)公司。
3.做大數(shù)據(jù)工具的:比如AMPLab出來(lái)的Databricks和Yahoo人主導(dǎo)的Hortonworks。
4.整合應(yīng)用型:特點(diǎn)是收集擁有或購(gòu)買(mǎi)一些數(shù)據(jù),然后結(jié)合AI來(lái)解決更多實(shí)際的痛點(diǎn)。
可能從真正意義上來(lái)說(shuō),大數(shù)據(jù)公司應(yīng)該只屬于第四種類(lèi)型:AI。
我相信未來(lái)是AI的,而AI的食物是數(shù)據(jù)。大數(shù)據(jù)行業(yè)最有價(jià)值的部分在于如何利用機(jī)器去處理數(shù)據(jù)得到洞見(jiàn),影響組織和個(gè)人的行為,從而改變世界。收集和整理數(shù)據(jù)在未來(lái)會(huì)變得標(biāo)準(zhǔn)化和自動(dòng)化,而利用AI進(jìn)行分析的能力會(huì)變得更為關(guān)鍵。
再看硅谷主打AI的公司,現(xiàn)在大致可以分成以下三類(lèi)了:
1.分析用戶(hù)行為,改進(jìn)產(chǎn)品和營(yíng)銷(xiāo)的,比如LinkedIn的推薦系統(tǒng)和用iBeacon實(shí)現(xiàn)店內(nèi)營(yíng)銷(xiāo);
2.統(tǒng)籌大量分散個(gè)體,利用大數(shù)據(jù)實(shí)現(xiàn)精確有效的預(yù)測(cè)和規(guī)劃的,比如Uber和前段時(shí)間出現(xiàn)的AmazonFresh及GrubMarket;
3.分析識(shí)別各種類(lèi)型的數(shù)據(jù),開(kāi)發(fā)更智能的設(shè)備和程序,比如Google大腦及無(wú)人車(chē)和以Nest為代表的智能設(shè)備等。
這些產(chǎn)品都有一個(gè)很明顯的共性,就是在努力嘗試把機(jī)器變得更智能以減輕人類(lèi)的工作量。這個(gè)目的與科技發(fā)展的動(dòng)力相符合,因此認(rèn)為之前所說(shuō)的第四種類(lèi)型的公司是最有希望改變世界的。
目前硅谷的創(chuàng)業(yè)公司正在探索新的應(yīng)用領(lǐng)域和方法,比如說(shuō)物聯(lián)網(wǎng)這塊。現(xiàn)在智能設(shè)備們才剛剛起步,Nest、被Nest收購(gòu)的Dropcam、Iotera、emberlight等等都屬于少部分人的玩具。待到家家戶(hù)戶(hù)都安裝了智能冰箱、智能燈泡、智能桌子、智能沙發(fā)等等的時(shí)候,大數(shù)據(jù)的威力才會(huì)伴隨著巨大的使用規(guī)模而發(fā)揮出來(lái)。
展望一下未來(lái)的話(huà),如果參照以前的技術(shù)革命和行業(yè)發(fā)展來(lái)看大數(shù)據(jù),那么大數(shù)據(jù)的底層設(shè)施將會(huì)逐漸被隔離,被模塊化和標(biāo)準(zhǔn)化,甚至是自動(dòng)化,而在其上的中間層和應(yīng)用層將成為各大公司的數(shù)據(jù)工程師們激烈攻克的主戰(zhàn)場(chǎng)。
硅谷公司的大數(shù)據(jù)運(yùn)行現(xiàn)狀
目前硅谷各個(gè)公司的數(shù)據(jù)處理水平和模式差別還是蠻大的。除Facebook等幾個(gè)很領(lǐng)先的公司外,大部分公司要么還沒(méi)有能力自行處理數(shù)據(jù),要么就是正在建立單獨(dú)的數(shù)據(jù)處理部門(mén),主要負(fù)責(zé)從數(shù)據(jù)基本處理到后期分析的各個(gè)環(huán)節(jié),然后再送到公司內(nèi)部的其他部門(mén)。
對(duì)于這些公司來(lái)說(shuō),建立一個(gè)單獨(dú)的數(shù)據(jù)處理部門(mén)可能還有還路漫漫其修遠(yuǎn)兮。普遍來(lái)說(shuō),各公司自主建立數(shù)據(jù)處理平臺(tái)存在著幾個(gè)難點(diǎn):
1.沒(méi)有足夠優(yōu)秀的數(shù)據(jù)工程師來(lái)組建團(tuán)隊(duì)
2.沒(méi)有足夠能力整合數(shù)據(jù)
3.沒(méi)有易于操作的基礎(chǔ)軟硬件來(lái)支持?jǐn)?shù)據(jù)分析
這幾個(gè)主要難點(diǎn)使得大數(shù)據(jù)分析越來(lái)越專(zhuān)業(yè)化、服務(wù)化,以至于我們漸漸看到一條“硅谷數(shù)據(jù)處理產(chǎn)業(yè)鏈”的出現(xiàn)。從數(shù)據(jù)的儲(chǔ)存,數(shù)據(jù)分析平臺(tái)建立,到數(shù)據(jù)分析,數(shù)據(jù)可視化等等各個(gè)環(huán)節(jié)的成本越來(lái)越高,這使得本身技術(shù)能力很強(qiáng)的公司都還是使用專(zhuān)業(yè)數(shù)據(jù)處理公司提供的服務(wù),而將更多的人才和資源放到核心業(yè)務(wù)的開(kāi)發(fā)上。
另外,就是各個(gè)公司對(duì)于數(shù)據(jù)處理的要求也越來(lái)越高。不僅僅需要有效的處理結(jié)果,也需要數(shù)據(jù)處理可以self-service、self-managing、保證數(shù)據(jù)安全性、完善實(shí)時(shí)分析。這些諸多需求也使得專(zhuān)業(yè)化團(tuán)隊(duì)的優(yōu)勢(shì)更加突出。而這樣一條整合服務(wù)鏈的行程,也給眾多的大數(shù)據(jù)公司提供了機(jī)會(huì)。
即使存在很多投機(jī)貼標(biāo)簽的人,即使一片片的大數(shù)據(jù)startups被拍死在沙灘上,即使Gartner預(yù)測(cè)大數(shù)據(jù)概念將被回歸現(xiàn)實(shí),但相信會(huì)有更多的人投入到大數(shù)據(jù)這個(gè)行業(yè),開(kāi)發(fā)出更智能,更有影響力的產(chǎn)品。畢竟,大數(shù)據(jù)本身,不像一個(gè)單純的pitch那樣,它能夠保證的是一定可以中看并且中用。
硅谷巨頭們的大數(shù)據(jù)玩法
將一共呈現(xiàn)硅谷四大不同類(lèi)型的公司如何玩轉(zhuǎn)大數(shù)據(jù),其中包括了著名FLAG中的三家(Apple在大數(shù)據(jù)這塊來(lái)說(shuō)表現(xiàn)并不突出)。
Evernote:今年新建AI部門(mén)劍指深度學(xué)習(xí)
Evernote的全球大會(huì)上,CEOPhilLibin提到,Evernote的一個(gè)重要方向就是“讓Evernote變成一個(gè)強(qiáng)大的大腦”。要實(shí)現(xiàn)這個(gè)目標(biāo),就不得不提他們剛剛整合改組的AugmentedIntelligence團(tuán)隊(duì)(以下簡(jiǎn)稱(chēng)AIteam)。
是什么
Zeesha是這個(gè)團(tuán)隊(duì)里元老級(jí)的人物:“我是在2012年加入Evernote的,直接加入到了當(dāng)時(shí)剛剛建立的數(shù)據(jù)處理團(tuán)隊(duì),這也就是現(xiàn)在AIteam的雛形。我們最開(kāi)始的項(xiàng)目都是簡(jiǎn)單易行的小項(xiàng)目,比如按照你的個(gè)人打字方式來(lái)優(yōu)化用戶(hù)的輸入體驗(yàn)。”
傳統(tǒng)意義上的AI指的是通過(guò)大量數(shù)據(jù)和算法讓機(jī)器學(xué)會(huì)分析并作出決定。而這里講到IA則是讓電腦進(jìn)行一定量的運(yùn)算,而終極目的是以之武裝人腦,讓人來(lái)更好的做決定。這兩個(gè)概念在具體實(shí)施中自然有不少相通之處,但是其出發(fā)點(diǎn)卻是完全不同的。
這個(gè)區(qū)別也是EvernoteAIteam的亮點(diǎn)所在。作為一個(gè)筆記記錄工具,Evernote與Google之類(lèi)的搜索引擎相比,最大的區(qū)別就是它非常的個(gè)人化。用戶(hù)所儲(chǔ)存的筆記、網(wǎng)站鏈接、照片、視頻等都是他思維方式和關(guān)注點(diǎn)的體現(xiàn)。
從哪來(lái)
Zeesha小組的初衷便是,通過(guò)分析用戶(hù)儲(chǔ)存的筆記來(lái)學(xué)習(xí)其思維方式,然后以相同的模式從第三方數(shù)據(jù)庫(kù)(也就是互聯(lián)網(wǎng)上的各種開(kāi)源信息)抽取信息推送給用戶(hù),從而達(dá)到幫助用戶(hù)思考的過(guò)程。從這個(gè)意義上講,Zeesha版的未來(lái)Evernote更像是一個(gè)大腦的超級(jí)外掛,為人腦提供各種強(qiáng)大的可理解的數(shù)據(jù)支持。
到哪去
不用說(shuō),這樣一個(gè)新創(chuàng)團(tuán)隊(duì)自然也面臨這諸多方面的挑戰(zhàn)。當(dāng)下一個(gè)比較重要的技術(shù)難點(diǎn)就是Evernote用戶(hù)的數(shù)據(jù)量。雖然Evernote的用戶(hù)量已經(jīng)達(dá)到了一億,但是由于整個(gè)團(tuán)隊(duì)的關(guān)注點(diǎn)在個(gè)人化分析,外加隱私保護(hù)等諸多原因,AIteam并沒(méi)有做跨用戶(hù)的數(shù)據(jù)分析。
這樣做的結(jié)果就是團(tuán)隊(duì)需要分析一億組各不相同的小數(shù)據(jù)組。比如,假設(shè)我只在Evernote上面存了10個(gè)筆記,那Evernote也應(yīng)該能夠通過(guò)這些少量的數(shù)據(jù)來(lái)分析出有效結(jié)果。當(dāng)然,這些技術(shù)的直接結(jié)果是用戶(hù)用Evernote越多,得到的個(gè)性化用戶(hù)體驗(yàn)就越好。長(zhǎng)期來(lái)講,也是一個(gè)可以增加用戶(hù)黏性的特點(diǎn)。
Facebook:大數(shù)據(jù)主要用于外部廣告精準(zhǔn)投放和內(nèi)部交流
Facebook有一個(gè)超過(guò)30人的團(tuán)隊(duì)花了近4年的時(shí)間才建立了Facebook的數(shù)據(jù)處理平臺(tái)。如今,F(xiàn)acebook仍需要超過(guò)100名工程師來(lái)支持這個(gè)平臺(tái)的日常運(yùn)行??上攵?,光是大數(shù)據(jù)分析的基礎(chǔ)設(shè)施就已經(jīng)是一個(gè)耗時(shí)耗力的項(xiàng)目了。
Facebook的一大價(jià)值就在于其超過(guò)13.5億活躍用戶(hù)每天發(fā)布的數(shù)據(jù)。而其大數(shù)據(jù)部門(mén)經(jīng)過(guò)七八年的摸索,才在2013年把部門(mén)的keyfoundation定位成廣告的精準(zhǔn)投放,開(kāi)始建了一整套自己的數(shù)據(jù)處理系統(tǒng)和團(tuán)隊(duì)。并進(jìn)行了一系列配套的收購(gòu)活動(dòng),比如買(mǎi)下世界第二大廣告平臺(tái)Atlas。
目前公司超過(guò)30%的團(tuán)隊(duì),包括工程師、ProductManagers、BusinessAnalysts等多個(gè)職位人群每個(gè)月都一定會(huì)使用這項(xiàng)服務(wù)。這個(gè)數(shù)據(jù)處理平臺(tái)的建立讓各個(gè)不同部門(mén)之間可以通過(guò)數(shù)據(jù)容易地交流,明顯改變了公司的運(yùn)行方式。
小扎克在2013年第一季度戰(zhàn)略時(shí)提到的最重點(diǎn)就是公司的大數(shù)據(jù)方向,還特別提出不對(duì)盈利做過(guò)多需求,而是要求基于大數(shù)據(jù)來(lái)做好以下三個(gè)功能:
·發(fā)布新的廣告產(chǎn)品。比如類(lèi)似好友,管理特定好友和可以提升廣告商精確投放的功能。
·除與Datalogix,Epsilon,Acxiom和BlueKai合作外,以加強(qiáng)廣告商定向投放廣告的能力。
·通過(guò)收購(gòu)AtlasAdvertisingSuite,加強(qiáng)廣告商判斷數(shù)字媒體廣告投資回報(bào)率(ROI)。
LinkedIn:大數(shù)據(jù)如何直接支持銷(xiāo)售和變現(xiàn)賺錢(qián)
LinkedIn大數(shù)據(jù)部門(mén)的一個(gè)重要功用是分析挖掘網(wǎng)站上巨大的用戶(hù)和雇主信息,并直接用來(lái)支持銷(xiāo)售并變現(xiàn)。其最核心團(tuán)隊(duì)商業(yè)分析團(tuán)隊(duì)的總監(jiān)SimonZhang說(shuō),現(xiàn)在國(guó)內(nèi)大家都在討論云,討論云計(jì)算,討論大數(shù)據(jù),討論大數(shù)據(jù)平臺(tái),但很少有人講:我如何用數(shù)據(jù)產(chǎn)生更多價(jià)值,通俗點(diǎn)講,直接賺到錢(qián)。
但這個(gè)問(wèn)題很重要,因?yàn)殛P(guān)系到直接收入。四年半前LinkedIn內(nèi)所有用戶(hù)的簡(jiǎn)歷里抽取出來(lái)大概有300萬(wàn)公司信息,作為銷(xiāo)售人員不可能給每個(gè)公司都打電話(huà),所以問(wèn)題來(lái)了:哪家公司應(yīng)該打?打了后會(huì)是個(gè)有用的call?
銷(xiāo)售們?nèi)?wèn)Simon,他說(shuō)只有通過(guò)數(shù)據(jù)分析。而這個(gè)問(wèn)題的答案在沒(méi)有大數(shù)據(jù)部門(mén)之前這些決策都是拍腦袋想象的。
Simon和當(dāng)時(shí)部門(mén)僅有的另外三個(gè)同事寫(xiě)出了一個(gè)模型后發(fā)現(xiàn):真正買(mǎi)LinkedIn服務(wù)的人,在決定的那個(gè)環(huán)節(jié)上,其實(shí)是一線的產(chǎn)品經(jīng)理,和用LinkedIn在上面獵聘的那些人。但他們做決策后是上面的老板簽字,這是一個(gè)迷惑項(xiàng)。數(shù)據(jù)分析結(jié)果出來(lái)后,他們銷(xiāo)售人員改變投放策略,把目標(biāo)群體放在這些中層的管理人身上,銷(xiāo)售轉(zhuǎn)化率瞬間增加了三倍。
今天LinkedIn的“獵頭”這塊業(yè)務(wù)占據(jù)了總收入的60%。是怎么在四年里發(fā)展起來(lái)的,他透露當(dāng)時(shí)建造這個(gè)模型有以下這么幾個(gè)步驟:
1.分析每個(gè)公司它有多少員工。
2.分析這個(gè)公司它招了多少人。
3.分析人的位置功能職位級(jí)別一切參數(shù),這些都是我們模型里面的各種功能。
4.然后去分析,他們內(nèi)部有多少HR員工,有多少負(fù)責(zé)獵頭的人,他們獵頭的流失率,他們每天在Linkedin的活動(dòng)時(shí)間是多少。
這是LinkedIn大數(shù)據(jù)部門(mén)最早做的事情。
Simon講,公司內(nèi)部從大數(shù)據(jù)分析這一個(gè)基本項(xiàng)上,可以不斷迭代出新產(chǎn)品線。LinkedIn的三大商業(yè)模型是人才解決方案、市場(chǎng)營(yíng)銷(xiāo)解決方案和付費(fèi)訂閱,也是我們傳統(tǒng)的三大收入支柱。事實(shí)上我們還有一個(gè),也就是第四個(gè)商業(yè)模型,叫“銷(xiāo)售解決方案”,已經(jīng)在今年7月底上線。這是賣(mài)給企業(yè)級(jí)用戶(hù)的。LinkedIn大數(shù)據(jù)系統(tǒng)是一個(gè)牛逼的模型,只需要改動(dòng)里面一下關(guān)鍵字,或者一個(gè)參數(shù),就可以變成另一個(gè)產(chǎn)品。“我們希望能幫到企業(yè)級(jí)用戶(hù),讓他們?cè)谧羁斓乃俣壤镏勒l(shuí)會(huì)想買(mǎi)你的東西。”
Google:一個(gè)閉環(huán)的大數(shù)據(jù)生態(tài)圈
2011年,Google推出了基于Google基礎(chǔ)架構(gòu)為客戶(hù)提供大數(shù)據(jù)的查詢(xún)服務(wù)和存儲(chǔ)服務(wù)的BigQuery,有點(diǎn)類(lèi)似于Amazon的AWS,雖然目前從市場(chǎng)占有率上看與AWS還不在一個(gè)數(shù)量級(jí),但價(jià)格體系更有優(yōu)勢(shì)。Google通過(guò)這個(gè)迎上了互聯(lián)網(wǎng)公司拼服務(wù)的風(fēng)潮,讓多家第三方服務(wù)中集成了BigQuery可視化查詢(xún)工具。搶占了大數(shù)據(jù)存儲(chǔ)和分析的市場(chǎng)。
BigQuery和GAE(GoogleAppEngine)等Google自有業(yè)務(wù)服務(wù)器構(gòu)建了一個(gè)大數(shù)據(jù)生態(tài)圈,程序創(chuàng)建,數(shù)據(jù)收集,數(shù)據(jù)處理和數(shù)據(jù)分析等形成了閉環(huán)。再來(lái)看Google的產(chǎn)品線,搜索,廣告,地圖,圖像,音樂(lè),視頻這些,都是要靠大數(shù)據(jù)來(lái)支撐,根據(jù)不同種類(lèi)數(shù)據(jù)建立模型進(jìn)行優(yōu)化來(lái)提升用戶(hù)體驗(yàn)提升市場(chǎng)占有率的。
單獨(dú)說(shuō)一下Googlemaps,這個(gè)全球在移動(dòng)地圖市場(chǎng)擁有超過(guò)40%的市場(chǎng)占有率的產(chǎn)品,也是美國(guó)這邊的出行神器。它幾乎標(biāo)示了全球有互聯(lián)網(wǎng)覆蓋的每個(gè)角落,對(duì)建筑物的3D視覺(jué)處理也早在去年就完成,這個(gè)數(shù)據(jù)處理的工作量可能是目前最大的了,但這也僅限于數(shù)據(jù)集中的層面。真正的數(shù)據(jù)分析和挖掘體現(xiàn)在:輸入一個(gè)地點(diǎn)時(shí),最近被最多用戶(hù)采用的路徑會(huì)被最先推薦給用戶(hù)。
Google還把Google+,Panoramio和其他Google云平臺(tái)的圖片進(jìn)行了標(biāo)記和處理,將圖片內(nèi)容和地理位置信息地結(jié)合在一起,圖像識(shí)別和社交系統(tǒng)評(píng)分處理后,Google能夠把質(zhì)量比較高的的圖片推送給用戶(hù),優(yōu)化了用戶(hù)看地圖時(shí)的視覺(jué)感受。
大數(shù)據(jù)為Google帶來(lái)了豐厚的利潤(rùn),比如在美國(guó)你一旦上網(wǎng)就能感覺(jué)到時(shí)無(wú)處不在的Google廣告(AdSense)。當(dāng)然,它是一把雙刃劍,給站長(zhǎng)們帶來(lái)收入的同時(shí),但如何平衡用戶(hù)隱私的問(wèn)題,是大數(shù)據(jù)處理需要克服的又一個(gè)技術(shù)難關(guān),或許還需要互聯(lián)網(wǎng)秩序的進(jìn)一步完善去支持。
除Facebook等幾個(gè)很領(lǐng)先的公司外,大部分公司要么還沒(méi)有自行處理數(shù)據(jù)的能力。最后附上兩個(gè)例子,想說(shuō)這邊的大公司沒(méi)有獨(dú)立大數(shù)據(jù)部門(mén)也是正常的,采取外包合作是普遍現(xiàn)象:
Pinterest:
Pinterest曾嘗試自行通過(guò)AmazonEMR建立數(shù)據(jù)處理平臺(tái),但是因?yàn)槠浞€(wěn)定性無(wú)法控制和數(shù)據(jù)量增長(zhǎng)過(guò)快的原因,最終決定改為使用Qubole提供的服務(wù)。在Qubole這個(gè)第三方平臺(tái)上,Pinterest有能力處理其0.7億用戶(hù)每天所產(chǎn)生的海量數(shù)據(jù),并且能夠完成包括ETL、搜索、adhocquery等不同種類(lèi)的數(shù)據(jù)處理方式。盡管Pinterest也是一個(gè)技術(shù)性公司,也有足夠優(yōu)秀的工程師來(lái)建立數(shù)據(jù)處理團(tuán)隊(duì),他們依然選擇了Qubole這樣的專(zhuān)業(yè)團(tuán)隊(duì)來(lái)完成數(shù)據(jù)處理服務(wù)。
Nike:
不僅僅硅谷的互聯(lián)網(wǎng)公司,眾多傳統(tǒng)企業(yè)也逐漸開(kāi)始使用大數(shù)據(jù)相關(guān)技術(shù)。一個(gè)典型的例子就是Nike。Nike從2012年起與API服務(wù)公司Apigee合作,一方面,他們通過(guò)Apigee的API完善公司內(nèi)部的數(shù)據(jù)管理系統(tǒng),讓各個(gè)部門(mén)的數(shù)據(jù)進(jìn)行整合,使得公司內(nèi)部運(yùn)行更加順暢、有效率。另一方面,他們也通過(guò)API開(kāi)發(fā)NikeFuelBand相關(guān)的移動(dòng)產(chǎn)品。更是在2014年開(kāi)啟了Nike+FuelLab項(xiàng)目,開(kāi)放了相關(guān)API,使得眾多的開(kāi)放者可以利用Nike所收集的大量數(shù)據(jù)開(kāi)發(fā)數(shù)據(jù)分析產(chǎn)品,成功地連接了Nike傳統(tǒng)的零售業(yè)務(wù),新的科技開(kāi)發(fā),和大數(shù)據(jù)價(jià)值。