在全球大資料的趨勢下,你對它的瞭解有多少?-百客寶

大資料-特徵定義

“資料,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量資料的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。”這句話是麥肯錫提出的表示大資料時代的到來,是最早提出這一理論的人。

在全球大資料的趨勢下,你對它的瞭解有多少?-百客寶

在業界最早是由IBM所提出的定義,它將大資料的特徵歸納為4個“V”,也就是量Volume、多樣Variety、價值Value、速Velocity,也可以將其理解為四個層面:

一、量Volume:資料體量巨大。簡單來講就是大資料的起始計量單位至少也得是P(1000個T)開頭,個別的甚至達到Z(10億個T);

二、多樣Variety:資料型別繁多。比如,圖片、地理位置、影片、網路日誌資訊等等。

三、價值Value:價值密度低,商業價值高。

四、速Velocity:處理速度快。這一點也是和傳統的資料探勘技術有著本質的不同。

當然這些V並不能真正說清楚大資料的所有特徵。

“三分技術,七分資料,得資料者得天下。”這句話是維克托·邁爾-舍恩伯格在《大資料時代》裡所提到的。

在全球大資料的趨勢下,你對它的瞭解有多少?-百客寶

這句話的正確性已經不用去論證了。《大資料時代》一書中舉了百般例證,都是為了說明一個道理:在大資料時代已經到來的時候要用大資料思維去發掘大資料的潛在價值。書中,作者提及最多的是Google如何利用人們的搜尋記錄挖掘資料二次利用價值,比如預測某地流感爆發的趨勢;Amazon如何利用使用者的購買和瀏覽歷史資料進行有針對性的書籍購買推薦,以此有效提升銷售量;Farecast如何利用過去十年所有的航線機票價格打折資料,來預測使用者購買機票的時機是否合適。

那麼,什麼是大資料思維?維克托·邁爾-舍恩伯格認為有三點:

一、需要全部資料樣本而不是抽樣;

二、關注效率而不是精確度;

三、關注相關性而不是因果關係。

有人把資料比喻為蘊藏能量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大資料並不在“大”,而在於“有用”。價值含量、挖掘成本比數量更為重要