在農業(yè)領域,硅谷有個氣候公司,從美國氣象局等數據庫中獲得幾十年的天氣數據,將各地降雨、氣溫、土壤狀況與歷年農作物產量的相關度做成精密圖表,預測農場來年產量,向農戶出售個性化保險。在商業(yè)領域,沃爾瑪公司通過分析銷售數據,了解顧客購物習慣,得出適合搭配在一起出售的商品,還可從中細分顧客群體,提供個性化服務。在金融領域,華爾街“德溫特資本市場”公司分析3.4億微博賬戶留言,判斷民眾情緒,依據人們高興時買股票、焦慮時拋售股票的規(guī)律,決定公司股票的買入或賣出。阿里公司根據在淘寶網上中小企業(yè)的交易狀況篩選出財務健康和講究誠信的企業(yè),對他們發(fā)放無需擔保的貸款。目前已放貸300多億元,壞賬率僅0.3%。
在醫(yī)療保健領域,“谷歌流感趨勢”項目依據網民搜索內容分析全球范圍內流感等病疫傳播狀況,與美國疾病控制和預防中心提供的報告對比,追蹤疾病的精確率達到97%。社交網絡為許多慢性病患者提供臨床癥狀交流和診治經驗分享平臺,醫(yī)生借此可獲得在醫(yī)院通常得不到的臨床效果統(tǒng)計數據;趯θ梭w基因的大數據分析,可以實現(xiàn)對癥下藥的個性化治療。在社會安全管理領域,通過對手機數據的挖掘,可以分析實時動態(tài)的流動人口來源、出行,實時交通客流信息及擁堵情況。利用短信、微博、微信和搜索引擎,可以收集熱點事件,挖掘輿情,還可以追蹤造謠信息的源頭。美國麻省理工學院通過對十萬多人手機的通話、短信和空間位置等信息進行處理,提取人們行為的時空規(guī)律性,進行犯罪預測。在科學研究領域,基于密集數據分析的科學發(fā)現(xiàn)成為繼實驗科學、理論科學和計算科學之后的第四個范例,基于大數據分析的材料基因組學和合成生物學等正在興起。
麥肯錫公司2011年報告推測,如果把大數據用于美國的醫(yī)療保健,一年產生潛在價值3000億美元,用于歐洲的公共管理可獲得年度潛在價值2500億歐元;服務提供商利用個人位置數據可獲得潛在的消費者年度盈余6000億美元;利用大數據分析,零售商可增加運營利潤60%,制造業(yè)設備裝配成本會減少50%。
大數據技術的挑戰(zhàn)和啟示
目前,大數據技術的運用仍存在一些困難與挑戰(zhàn),體現(xiàn)在大數據挖掘的四個環(huán)節(jié)中。首先在數據收集方面。要對來自網絡包括物聯(lián)網和機構信息系統(tǒng)的數據附上時空標志,去偽存真,盡可能收集異源甚至是異構的數據,必要時還可與歷史數據對照,多角度驗證數據的全面性和可信性。其次是數據存儲。要達到低成本、低能耗、高可靠性目標,通常要用到冗余配置、分布化和云計算技術,在存儲時要按照一定規(guī)則對數據進行分類,通過過濾和去重,減少存儲量,同時加入便于日后檢索的標簽。第三是數據處理。有些行業(yè)的數據涉及上百個參數,其復雜性不僅體現(xiàn)在數據樣本本身,更體現(xiàn)在多源異構、多實體和多空間之間的交互動態(tài)性,難以用傳統(tǒng)的方法描述與度量,處理的復雜度很大,需要將高維圖像等多媒體數據降維后度量與處理,利用上下文關聯(lián)進行語義分析,從大量動態(tài)而且可能是模棱兩可的數據中綜合信息,并導出可理解的內容。第四是結果的可視化呈現(xiàn),使結果更直觀以便于洞察。目前,盡管計算機智能化有了很大進步,但還只能針對小規(guī)模、有結構或類結構的數據進行分析,談不上深層次的數據挖掘,現(xiàn)有的數據挖掘算法在不同行業(yè)中難以通用。
大數據技術的運用前景是十分光明的。當前,我國正處在全面建成小康社會征程中,工業(yè)化、信息化、城鎮(zhèn)化、農業(yè)現(xiàn)代化任務很重,建設下一代信息基礎設施,發(fā)展現(xiàn)代信息技術產業(yè)體系,健全信息安全保障體系,推進信息網絡技術廣泛運用,是實現(xiàn)四化同步發(fā)展的保證。大數據分析對我們深刻領會世情和國情,把握規(guī)律,實現(xiàn)科學發(fā)展,做出科學決策具有重要意義,我們必須重新認識數據的重要價值。