據報告稱:人類70%的活動都是有規律可循的。大(dà)數據,可以讓我(wǒ)(藍車wǒ)們看到這種規律,并預知(zhī)未來。例如通過曆子老史/近期的氣象情況、衛星雲圖等判斷未來的天氣。今年初,央視兩次攜手百度大女聽(dà)數據述說春運和春節長假。可見,通過解讀數據可以發現有趣的現象,窗為可以挖掘以往被忽視的規律,還可以對人類的行爲進行事離預測。
事實上,數據分(fēn)析的案例自古有之,在前幾報請年也有很多數據挖掘技術和應用出現。但這些數據挖掘技術對數據的使用女道,都是先抽樣、萃取人們或系統認爲有價值的數據,林就再分(fēn)析、挖掘,而并不是使用數據全集。因兒懂爲在過去(qù),信息的收集、存儲和信息分章服(fēn)析的系統構建、維護成本太高。所以人們總是習慣在信息收習通集的過程,把有關聯的少部分(fēn)精确數據街兒留下(xià)。
以人們的日常購買行爲爲例,傳統超市會通過對“時間、産品銷售量/銷紅都售額”這幾個指标分(fēn)析,判斷近期哪些貨品冷短是熱點産品,在短期更受用戶的歡迎,進而對熱點貨品提供充足的進貨保障,把熱點貨短動品放(fàng)在超市最容易接觸的位置,提什飛供某些促銷優惠等等。
再看另一(yī)個來自美國的零售商(shāng)塔吉特的案例,它使用大(dà算舞)數據進行“懷孕趨勢分(fēn)析”。通過對大(dà)量消費(又區fèi)記錄的分(fēn)析,塔吉特公司注意到,準媽媽紅歌很可能在懷孕第三個月的時候購買某種乳液,并陸續購買營養品(如鈣、鎂、鋅唱少等)。塔吉特公司找到了20餘種關聯物(wù),通吧數過這些關聯關系,預判客戶是否懷孕,預産期從鄉的大(dà)概日期。在客戶懷孕的不同階段,塔吉特公司會向客戶推銷相應的産品,用老發送優惠券。
前兩個案例,是典型的“小(xiǎo)數據”分(fēn)析和“大(dà公西)數據”分(fēn)析。大(dà)數據不僅是數據量大數金(dà),同時數據種類多;不是數據的抽樣,而是數據的全集;不是與目标有身黑因果關系的數據,而是所有有關聯的數據。與傳統的數據分(fē文放n)析相比,大(dà)數據可以被用來激發新産品和新型服務,其價值越來越受到聽吧關注。
爲什麽在幾年前,沒有人收集和利用全部的數務頻據,再進行大(dà)數據分(fēn)析呢?除了成本上的考慮,還存在另一(y短廠ī)個問題:傳統上,人們是基于單一(yī)“業務”去(qù)構建系統,而不是讀師基于“數據”去(qù)構建系統。舉個例子:某超市要建設一(yī)個CRM系裡風統,IT部門會基于“客戶管理”這個業務采購軟硬件,所有建設都圍繞“客戶管理”地女,很少考慮開(kāi)放(fàng)、兼容等特性;如果想再上一(yī街輛)套“行爲分(fēn)析”系統,則圍繞“行爲分(fēn)析”這個年數業務去(qù)采購軟、硬件。當需要把兩個系統的數據進行統一(yī)分(員和fēn)析時,由于兩套系統不兼容,需要中(zhōng)間件來轉接、編譯,因此人中兩套系統各自要進行二次開(kāi)發以實現兼容,使得操作難音山度變高,造成有價值的“數據”被困在了“系統知著”這個孤島裏。因此在規劃初期,就應充分(fēn學計)考慮到數據的流動性、系統的兼容性,考慮到數據将會被各種系統多次使火秒用。也許有人會說:這樣的系統規劃會非常複雜(zá),構建成本太高,很低上難把系統的模型和方案想清楚。
我(wǒ)(wǒ)們再來看看互聯網公司。大(dà)型互聯網在爸公司這幾年在構建IT系統時,都會采用标準架構:如X86服務動鐘器、标準化的網絡協議、開(kāi)源的數據庫、分(fēn)布式訊樹存儲等等。因爲隻有這樣,才能夠通過統一(yī)的硬件和軟件平台來承妹商載各種各樣的業務。比如微信、QQ、遊戲、視頻(p也黃ín)等等業務都是承載在同一(yī)個平台上,所有數據的流動在基礎設施這個維度錢從都是自由的。所以我(wǒ)(wǒ)們看到如騰訊、阿裏巴巴花筆等互聯網公司新上線一(yī)個業務非常快,而且能夠根據用戶各種網絡行爲門海,判斷互聯網用戶感興趣的“熱點”,在某項業務上再疊加新服務。這就是大花關(dà)數據的典型應用。BAT三大(dà不志)公司(百度、阿裏巴巴、騰訊)最先進行了“去(qù)IOE”過程,跟“數據了車”的“解綁定”不無關系。
在構建了标準的硬件、軟件基礎設施之後,業務可以逐步規劃,分(fē件城n)階段上線,但是所有的業務架構、程序接口,都應按照标準基礎設施的統一(yī)謝器要求進行設計開(kāi)發。大(dà)數據本身是“業務”,需要務國建設者用更多的時間去(qù)摸索業務模型,實踐新技術,妹分把現有的封閉的系統,逐步改良爲開(kāi)放(fàng)的标準化架構。
從IT的發展趨勢看,大(dà)數據時代是在雲計算建設成熟之後北紅到來的,大(dà)多數互聯網公司的建設曆程房頻也遵循了這種規律。雲計算将帶來标準、統一(yī)的IT架構,消除割筆花裂和信息孤島,并且簡化了大(dà)規模IT部署和運維的複雜(z舞湖á)度,而這些都是大(dà)數據分(fēn)為門析系統建設的前提。
華三通信的雲計算方案,就是要做IT基礎設施的标準化費城、智能化,爲大(dà)數據分(fēn)析提供更智能、靈活山美的基礎設施平台。例如統一(yī)的雲管理鐘能平台CSM,将所有IT資(zī)源拉通管理,并且把溝通過程流程化;X坐也86服務器+虛拟化軟件CAS,屏蔽底層硬件服務器間的差異,使虛拟機\做要應用可以在不同的物(wù)理服務器間飄移;SDN從高網絡虛拟化技術,使網絡真正成爲資(zī)源池,由這舞上層應用調用;VSAN分(fēn)布式存儲,屏蔽了底層硬件存儲間的壁壘,存儲數制要據可以分(fēn)布在不同的物(wù)理服務器的硬得刀盤上。
我(wǒ)(wǒ)們正處于大(dà)數據時代來臨的前夕,雲計算建設的務知大(dà)潮波濤滾滾。我(wǒ)(wǒ)們已經知制清晰地看到雲計算和大(dà)數據的價值,也在期待它們爲我(亮樂wǒ)(wǒ)們帶來更多的改變,更多的驚喜。