服務(wù)熱線(xiàn)
021-69973262
手機:13918237518*,大數據已經(jīng)不簡(jiǎn)簡(jiǎn)單單是數據大的事實(shí)了,而zui重要的現實(shí)是對大數據進(jìn)行分析,只有通過(guò)分析才能獲取很多智能的,深入的,有價(jià)值的信息。那么越來(lái)越多的應用涉及到大數據,而這些大數據的屬性,包括數量,速度,多樣性等等都是呈現了大數據不斷增長(cháng)的復雜性,所以大數據的分析方法在大數據領(lǐng)域就顯得尤為重要,可以說(shuō)是決定zui終信息是否有價(jià)值的決定性因素?;谌绱说恼J識,大數據分析普遍存在的方法理論有哪些呢?
一、大數據分析的五個(gè)基本方面
1. Analytic Visualizations(可視化分析)
不管是對數據分析專(zhuān)家還是普通用戶(hù),數據可視化是數據分析工具zui基本的要求??梢暬梢灾庇^(guān)的展示數據,讓數據自己說(shuō)話(huà),讓觀(guān)眾聽(tīng)到結果。
2. Data Mining Algorithms(數據挖掘算法)
可視化是給人看的,數據挖掘就是給機器看的。集群、分割、孤立點(diǎn)分析還有其他的算法讓我們深入數據內部,挖掘價(jià)值。這些算法不僅要處理大數據的量,也要處理大數據的速度。
3. Predictive Analytic Capabilities(預測性分析能力)
數據挖掘可以讓分析員更好的理解數據,而預測性分析可以讓分析員根據可視化分析和數據挖掘的結果做出一些預測性的判斷。
4. Semantic Engines(語(yǔ)義引擎)
我們知道由于非結構化數據的多樣性帶來(lái)了數據分析的新的挑戰,我們需要一系列的工具去解析,提取,分析數據。語(yǔ)義引擎需要被設計成能夠從“文檔"中智能提取信息。
5. Data Quality and Master Data Management(數據質(zhì)量和數據管理)
數據質(zhì)量和數據管理是一些管理方面的*實(shí)踐。通過(guò)標準化的流程和工具對數據進(jìn)行處理可以保證一個(gè)預先定義好的高質(zhì)量的分析結果。
假如大數據真的是下一個(gè)重要的技術(shù)革新的話(huà),我們把精力關(guān)注在大數據能給我們帶來(lái)的好處,而不僅僅是挑戰。
二、大數據處理
周濤博士說(shuō):大數據處理數據時(shí)代理念的三大轉變:要全體不要抽樣,要效率不要,要相關(guān)不要因果。
具體的大數據處理方法其實(shí)有很多,但是根據長(cháng)時(shí)間的實(shí)踐,筆者總結了一個(gè)基本的大數據處理流程,并且這個(gè)流程應該能夠對大家理順大數據的處理有所幫助。整個(gè)處理流程可以概括為四步,分別是采集、導入和預處理、統計和分析,以及挖掘。
采集
大數據的采集是指利用多個(gè)數據庫來(lái)接收發(fā)自客戶(hù)端(Web、App或者傳感器形式等)的數據,并且用戶(hù)可以通過(guò)這些數據庫來(lái)進(jìn)行簡(jiǎn)單的查詢(xún)和處理工作。比如,電商會(huì )使用傳統的關(guān)系型數據庫MySQL和Oracle等來(lái)存儲每一筆事務(wù)數據,除此之外,Redis和MongoDB這樣的NoSQL數據庫也常用于數據的采集。
在大數據的采集過(guò)程中,其主要特點(diǎn)和挑戰是并發(fā)數高,因為同時(shí)有可能會(huì )有成千上萬(wàn)的用戶(hù)來(lái)進(jìn)行訪(fǎng)問(wèn)和操作,比如火車(chē)票售票和淘寶,它們并發(fā)的訪(fǎng)問(wèn)量在峰值時(shí)達到上百萬(wàn),所以需要在采集端部署大量數據庫才能支撐。并且如何在這些數據庫之間進(jìn)行負載均衡和分片的確是需要深入的思考和設計。
導入/預處理
雖然采集端本身會(huì )有很多數據庫,但是如果要對這些海量數據進(jìn)行有效的分析,還是應該將這些來(lái)自前端的數據導入到一個(gè)集中的大型分布式數據庫,或者分布式存儲集群,并且可以在導入基礎上做一些簡(jiǎn)單的清洗和預處理工作。也有一些用戶(hù)會(huì )在導入時(shí)使用來(lái)自Twitter的Storm來(lái)對數據進(jìn)行流式計算,來(lái)滿(mǎn)足部分業(yè)務(wù)的實(shí)時(shí)計算需求。
導入與預處理過(guò)程的特點(diǎn)和挑戰主要是導入的數據量大,每秒鐘的導入量經(jīng)常會(huì )達到百兆,甚至千兆級別。
統計/分析
統計與分析主要利用分布式數據庫,或者分布式計算集群來(lái)對存儲于其內的海量數據進(jìn)行普通的分析和分類(lèi)匯總等,以滿(mǎn)足大多數常見(jiàn)的分析需求,在這方面,一些實(shí)時(shí)性需求會(huì )用到EMC 的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數據的需求可以使用Hadoop。
統計與分析這部分的主要特點(diǎn)和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會(huì )有極大的占用。
挖掘
與前面統計和分析過(guò)程不同的是,數據挖掘一般沒(méi)有什么預先設定好的主題,主要是在現有數據上面進(jìn)行基于各種算法的計算,從而起到預測(Predict)的效果,從而實(shí)現一些別數據分析的需求。比較典型算法有用于聚類(lèi)的K-Means、用于統計學(xué)習的SVM和用于分類(lèi)的Naive Bayes,主要使用的工具有Hadoop的Mahout等。
該過(guò)程的特點(diǎn)和挑戰主要是用于挖掘的算法很復雜,并且計算涉及的數據量和計算量都很大,還有,常用數據挖掘算法都以單線(xiàn)程為主。