大數(shù)據(jù)分析,現(xiàn)實(shí)的情況是,說得人很多,卻很少有人能運(yùn)用得法的模式和方法。造成這種的原因無一是對于大數(shù)據(jù)分析的價(jià)值邏輯尚缺乏足夠深刻的洞察另外就是大數(shù)據(jù)分析中的某些重大要件或技術(shù)還不成熟。
提到大數(shù)據(jù)的大,一般人認(rèn)為指的是它數(shù)據(jù)規(guī)模的海量——隨著人類在數(shù)據(jù)記錄、獲取及傳輸方面的技術(shù)革命,造成了數(shù)據(jù)獲得的便捷與低成本,這便使原有的以高成本方式獲得的描述人類態(tài)度或行為的、數(shù)據(jù)有限的小數(shù)據(jù)已然變成了一個(gè)巨大的、海量規(guī)模的數(shù)據(jù)包。這其實(shí)是一種不得要領(lǐng)、似是而非的認(rèn)識(shí)。其實(shí),大數(shù)據(jù)時(shí)代也有海量的數(shù)據(jù)集,但由于其維度的單一,以及和人或社會(huì)有機(jī)活動(dòng)狀態(tài)的剝離,而使其分析和認(rèn)識(shí)真相的價(jià)值極為有限。大數(shù)據(jù)的真正價(jià)值不在于它的大,而在于它的全——空間維度上的多角度、多層次信息的交叉復(fù)現(xiàn);時(shí)間維度上的與人或社會(huì)有機(jī)體的活動(dòng)相關(guān)聯(lián)的信息的持續(xù)呈現(xiàn)。
面對今天社會(huì)輿情態(tài)勢,常常有人感慨:“造謠的成本很低,辟謠的成本卻很高”,抱怨現(xiàn)在的網(wǎng)絡(luò)給造謠者造謠傳謠帶來的極大便利以及人民群眾過于輕信謠言。如果我們用某個(gè)事件的數(shù)據(jù)、單一的和靜態(tài)截面上的數(shù)據(jù)去觀察和分析這個(gè)問題的時(shí)候,真的可能得出上述這樣一種結(jié)論。但是,如果我們從社會(huì)傳播的總體信息構(gòu)造上去分析的時(shí)候,我們會(huì)發(fā)現(xiàn),流言或謠言的猖獗不正在于一些掌握了社會(huì)信息傳播主渠道的部門的不作為、甚至蒙蔽真相所造成的嗎?因此,大數(shù)據(jù)分析的價(jià)值和意義就在于,透過多維度多層次的數(shù)據(jù),以及歷時(shí)態(tài)的關(guān)聯(lián)數(shù)據(jù),找到問題的癥結(jié),直抵事實(shí)的真相。
因此,大數(shù)據(jù)分析需要解決的問題首先就在于:如何透過多層次、多維度的數(shù)據(jù)集實(shí)現(xiàn)對于某一個(gè)人、某一件事或某一種社會(huì)狀態(tài)的現(xiàn)實(shí)態(tài)勢的聚焦,即真相再現(xiàn);其中的難點(diǎn)就在于,我們需要洞察哪些維度是描述一個(gè)人、一件事以及一種社會(huì)狀態(tài)存在狀態(tài)的最為關(guān)鍵性的維度,并且這些維度之間的關(guān)聯(lián)方式是怎樣的,等等。其次,如何在時(shí)間序列上離散的、貌似各不相關(guān)的數(shù)據(jù)集合中,找到一種或多種與人的活動(dòng)、事件的發(fā)展以及社會(huì)的運(yùn)作有機(jī)聯(lián)系的連續(xù)性數(shù)據(jù)的分析邏輯。其中的難點(diǎn)就在于,我們對于離散的、貌似各不相關(guān)數(shù)據(jù)如何進(jìn)行屬性標(biāo)簽化的分類。概言之,不同類屬的數(shù)據(jù)集的功能聚合模型(用于特定的分析對象)以及數(shù)據(jù)的標(biāo)簽化技術(shù),是大數(shù)據(jù)分析的技術(shù)關(guān)鍵。
中科點(diǎn)擊作為中國行業(yè)大數(shù)據(jù)應(yīng)用專家,10年以來專注大數(shù)據(jù)分行業(yè)運(yùn)用,通過自主研發(fā)的遺忘算法對大數(shù)據(jù)進(jìn)行多維度分析,專注行業(yè)大數(shù)據(jù)應(yīng)用落地,10年來已經(jīng)服務(wù)超過2000+不同行業(yè)的政企客戶,用專業(yè)性的大數(shù)據(jù)分析應(yīng)用平臺(tái),為眾多客戶提供商業(yè)增值。
更多資訊請關(guān)注工業(yè)以太網(wǎng)頻道