作為全球互近幾年來,互聯(lián)網(wǎng)的高速發(fā)展使人類進(jìn)入了信息爆炸時(shí)代。在每一個(gè)人的生活中,都有很多結(jié)構(gòu)性和非結(jié)構(gòu)性的數(shù)據(jù)。當(dāng)人類生活全面轉(zhuǎn)向互聯(lián)網(wǎng),大數(shù)據(jù)時(shí)代必然來臨!下面就有小編為您帶來大數(shù)據(jù)分析技術(shù)有哪些的相關(guān)介紹。
數(shù)據(jù)分析是數(shù)據(jù)處理流程的核心,因?yàn)閿?shù)據(jù)中所蘊(yùn)藏的價(jià)值就產(chǎn)生于分析的過程。所謂“大數(shù)據(jù)分析”,其和以往數(shù)據(jù)分析的最重要的差別在于數(shù)據(jù)量急劇增長(zhǎng)。由于數(shù)據(jù)量的增長(zhǎng),使得對(duì)于數(shù)據(jù)的存儲(chǔ)、查詢以及分析的要求迅速提高。
從實(shí)際操作的角度看,“大數(shù)據(jù)分析”需要通過對(duì)原始數(shù)據(jù)進(jìn)行分析來探究一種模式,尋找導(dǎo)致現(xiàn)實(shí)情況的根源因素,通過建立模型與預(yù)測(cè)來進(jìn)行優(yōu)化,以實(shí)現(xiàn)社會(huì)運(yùn)行中各個(gè)領(lǐng)域的持續(xù)改善與創(chuàng)新。
雖然近兩年來“大數(shù)據(jù)”的概念越來越多的被媒體以及行業(yè)提及,但“大數(shù)據(jù)分析”在國(guó)內(nèi)的發(fā)展卻仍處于初期階段。
從行業(yè)實(shí)踐的角度看,只有少數(shù)幾個(gè)行業(yè)的部分企業(yè),能夠?qū)Υ髷?shù)據(jù)進(jìn)行基本分析和運(yùn)用,并在業(yè)務(wù)決策中以數(shù)據(jù)分析結(jié)果為依據(jù)。這些行業(yè)主要集中在銀行與保險(xiǎn),電信與電商等領(lǐng)域。
以銀行業(yè)為例,目前大型國(guó)有銀行在其主營(yíng)業(yè)務(wù)中均引入了數(shù)據(jù)分析,但深度尚可,廣度不夠,尚未擴(kuò)充到運(yùn)營(yíng)管理的所有領(lǐng)域;而中小銀行在數(shù)據(jù)分析方面的人員與能力建設(shè)尚處于起步階段。對(duì)于支撐起我國(guó)龐大國(guó)民生產(chǎn)總值的建筑業(yè)、制造業(yè)以及貿(mào)易行業(yè),其數(shù)據(jù)分析應(yīng)用遠(yuǎn)遠(yuǎn)沒有進(jìn)入規(guī)模化發(fā)展階段,這些行業(yè)在IT方向的開支主要集中在公司日常的流程化管理領(lǐng)域。
從技術(shù)發(fā)展的角度看,一些已經(jīng)較為成熟的數(shù)據(jù)分析處理技術(shù),例如商業(yè)智能技術(shù)和數(shù)據(jù)挖掘技術(shù),已經(jīng)在多個(gè)行業(yè)領(lǐng)域里得到廣泛和深入的應(yīng)用。最典型的就是電商行業(yè),運(yùn)用這些技術(shù)對(duì)行業(yè)數(shù)據(jù)進(jìn)行分析,對(duì)提高行業(yè)的整體運(yùn)行效率以及增加行業(yè)利潤(rùn)都起到了極大的推動(dòng)作用。
但對(duì)于像Hadoop、非結(jié)構(gòu)化數(shù)據(jù)庫(kù)、數(shù)據(jù)可視化工具以及個(gè)性化推薦引擎這樣的新技術(shù),其較高的技術(shù)門檻和高昂的運(yùn)營(yíng)維護(hù)成本使得國(guó)內(nèi)只有少數(shù)企業(yè)能夠?qū)⑵溥\(yùn)用到深入分析行業(yè)數(shù)據(jù)中。
從數(shù)據(jù)來源的角度看,在能夠?qū)崿F(xiàn)數(shù)據(jù)化運(yùn)營(yíng)的企業(yè)中,絕大多數(shù)僅僅完成了依靠企業(yè)自身所產(chǎn)生的數(shù)據(jù)解決自身所面臨的問題,并且是依據(jù)問題來收集所需要的數(shù)據(jù)。
而僅有極少數(shù)互聯(lián)網(wǎng)企業(yè)能夠發(fā)揮出大數(shù)據(jù)分析的真正價(jià)值:同時(shí)運(yùn)用企業(yè)外部和內(nèi)部的數(shù)據(jù)來解決企業(yè)自身的問題,通過數(shù)據(jù)分析預(yù)測(cè)可能出現(xiàn)的問題,并依據(jù)數(shù)據(jù)分析的結(jié)果進(jìn)行商業(yè)決策。在一定程度上實(shí)現(xiàn)了由數(shù)據(jù)化運(yùn)營(yíng)向運(yùn)營(yíng)數(shù)據(jù)的轉(zhuǎn)變。
大數(shù)據(jù)分析技術(shù)
大數(shù)據(jù)時(shí)代所分析的數(shù)據(jù)的最主要特征是“多源異構(gòu)”,其分析過程是逐層抽象、降維、概括和解讀的過程。從數(shù)據(jù)采集的源頭進(jìn)行劃分,可將大數(shù)據(jù)時(shí)代分析處理的數(shù)據(jù)對(duì)象劃分為以下幾個(gè)類別:
(1)各網(wǎng)頁(yè)中用戶的瀏覽次數(shù)、點(diǎn)擊率,各種社交網(wǎng)站、動(dòng)態(tài)網(wǎng)站網(wǎng)頁(yè)內(nèi)容信息的變化,搜索引擎中關(guān)鍵詞的搜索量、網(wǎng)絡(luò)實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)等互聯(lián)網(wǎng)數(shù)據(jù)。
(2)可以用于分析用戶行為、對(duì)系統(tǒng)的操作、以及系統(tǒng)運(yùn)行狀態(tài)的日志數(shù)據(jù)。
(3)在通信領(lǐng)域中的各種信號(hào)、信令數(shù)據(jù),用戶的個(gè)人信息以及通話位置、時(shí)長(zhǎng)等數(shù)據(jù)。
(4)國(guó)民經(jīng)濟(jì)中各領(lǐng)域、各行業(yè)的統(tǒng)計(jì)分析數(shù)據(jù)。
對(duì)于這些數(shù)量龐大的,來自不同源頭的非結(jié)構(gòu)化數(shù)據(jù)。其分析模式的特點(diǎn)如下:對(duì)于互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù),其最主要的應(yīng)用是建立搜索引擎,通過搜索引擎進(jìn)行數(shù)據(jù)檢索、處理。隨著技術(shù)的不斷發(fā)展,個(gè)性化推薦引擎以及大數(shù)據(jù)分析引擎的問世能夠更加高效的在海量數(shù)據(jù)中分析得出更有價(jià)值的信息;對(duì)于日志數(shù)據(jù),可對(duì)用戶點(diǎn)擊瀏覽的行為日志和系統(tǒng)運(yùn)行行為日志進(jìn)行分析。使得系統(tǒng)能夠根據(jù)實(shí)際情況產(chǎn)生出更加智能的結(jié)果。
日志數(shù)據(jù)與網(wǎng)頁(yè)數(shù)據(jù)的分析處理模式較為類似,都是通過細(xì)致分析從而探尋出數(shù)據(jù)中蘊(yùn)藏的價(jià)值。這種數(shù)據(jù)分析處理模式稱為“離線批處理模式”;對(duì)于通信領(lǐng)域的數(shù)據(jù)分析,分析決策人員會(huì)對(duì)經(jīng)過細(xì)致分析的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)歸納和查詢,并且在最短的時(shí)間內(nèi)獲得最有價(jià)值的信息。以此來確保系統(tǒng)的交互性并最大限度地提升用戶體驗(yàn)。這種數(shù)據(jù)分析處理模式稱為“查詢式分析”模式;對(duì)于互聯(lián)網(wǎng)以及國(guó)民經(jīng)濟(jì)中重要行業(yè)的數(shù)據(jù)進(jìn)行實(shí)時(shí)監(jiān)控,這種模式稱為“實(shí)時(shí)數(shù)據(jù)分析處理“模式。
以上為依據(jù)時(shí)間特征劃分的數(shù)據(jù)分析模式。而實(shí)現(xiàn)這些分析模式的主要方法有:分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、WEB數(shù)據(jù)挖掘等。
要想從急劇增長(zhǎng)的數(shù)據(jù)資源中挖掘分析出有價(jià)值的信息,需要先進(jìn)的分析技術(shù)作支撐。從宏觀上看,大數(shù)據(jù)分析技術(shù)發(fā)展所面臨的問題均包含三個(gè)主要特征:
(1)數(shù)據(jù)量龐大并以驚人的速度增長(zhǎng);
(2)數(shù)據(jù)種類與結(jié)構(gòu)多樣化,并以半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)為主;
(3)需要具備及時(shí)快速的分析速度,即實(shí)時(shí)分析。這些特征使得傳統(tǒng)的數(shù)據(jù)分析技術(shù)無法滿足要求,更加先進(jìn)的數(shù)據(jù)分析平臺(tái)才是大數(shù)據(jù)時(shí)代更好的選擇。
為了有效應(yīng)對(duì)大數(shù)據(jù)時(shí)代數(shù)據(jù)分析問題的三個(gè)主要特征以及滿足大數(shù)據(jù)分析的基本需求,當(dāng)前以及未來一段時(shí)期內(nèi)將主要通過分布式數(shù)據(jù)庫(kù)或者分布式計(jì)算集群來對(duì)存儲(chǔ)于其內(nèi)的海量數(shù)據(jù)進(jìn)行由淺入深的分析和分類匯總。例如,為滿足實(shí)時(shí)分析的需求通常會(huì)采用Qracle的Exadata 和EMC的GreenPlum。而目前分析處理大數(shù)據(jù)的應(yīng)用最廣泛的核心技術(shù)為Hadoop。
Hadoop是由Apache基金會(huì)所開發(fā)的一個(gè)基于Java的分布式數(shù)據(jù)處理和分析的軟件基礎(chǔ)架構(gòu)。在這種架構(gòu)下,用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。Hadoop能夠?qū)?shù)量龐大的數(shù)據(jù)分解成規(guī)模較小、易訪問的數(shù)據(jù)集并發(fā)送到多臺(tái)服務(wù)器上進(jìn)行分析,以此獲得高效的分析速率。該架構(gòu)主要由文件系統(tǒng)以及數(shù)據(jù)處理兩部分功能模塊組成。
K―平均算法是一種得到廣泛應(yīng)用的基于劃分的聚類算法。其把M個(gè)對(duì)象分為N個(gè)簇,使得每個(gè)簇內(nèi)具有較高的相似度。
在應(yīng)用該算法進(jìn)行數(shù)據(jù)分析時(shí),首先應(yīng)輸入包含M個(gè)對(duì)象的數(shù)據(jù)集A以及簇的數(shù)目N。從A中任意選擇N個(gè)對(duì)象作為初始簇中心并且不斷重復(fù),隨后計(jì)算出簇中對(duì)象的均值,將每個(gè)對(duì)象分配到最相似的簇并且不斷更新簇均值,最后計(jì)算準(zhǔn)則函數(shù)直到其不再發(fā)生變化為止。因?yàn)樵撍惴ǖ膹?fù)雜度大約是0(nkt),所以該算法在處理大數(shù)據(jù)集時(shí)是相對(duì)可伸縮的和高效率的。
假設(shè)A是一個(gè)m×n階矩陣,其中的元素全部屬于實(shí)數(shù)域或復(fù)數(shù)域。如此則存在一個(gè)分解使得A=U∑V*。其中U是m×m階酉矩陣,Σ是半正定m×n階對(duì)角矩陣,而V*是n×n階酉矩陣的共軛轉(zhuǎn)置矩陣。這樣的分解就稱為A的奇異值分解。
在MATLAB仿真軟件中計(jì)算奇異值分解的函數(shù)式為:[b.c.d]=svd(x)
從宏觀上來說,主成分分析是指在研究一項(xiàng)變量較多的課題時(shí),將這些變量通過線性變換而簡(jiǎn)化為幾個(gè)重要變量的一種多元統(tǒng)計(jì)分析方法。而在數(shù)據(jù)分析領(lǐng)域,主成分分析的主要作用是對(duì)大規(guī)模的數(shù)據(jù)集進(jìn)行分析與簡(jiǎn)化。其主要體現(xiàn)在降低數(shù)據(jù)集的維數(shù),同時(shí)盡可能保持?jǐn)?shù)據(jù)集中的對(duì)所研究的問題最有價(jià)值的特征。
簡(jiǎn)而言之,就是保留低階主成分,忽略高階主成分。其具體方法是通過對(duì)協(xié)方差矩陣進(jìn)行特征分解,從而得出數(shù)據(jù)的特征向量與特征值。主成分分析在數(shù)學(xué)上可以理解為一個(gè)正交化的線性變換,把數(shù)據(jù)整體變換到一個(gè)新的坐標(biāo)系中,使得這一數(shù)據(jù)的任何投影的第一大方差在第一主成分上,第二大方差在第二主成分上,依次類推。
從廣義上講,決策樹是一種運(yùn)用圖解法的概率分析,即在已知各種事件發(fā)生概率的基礎(chǔ)上,通 過構(gòu)建決策樹來探究期望值大于等于零的概率,同時(shí)判斷可行性的決策分析方法。
決策樹學(xué)習(xí)是數(shù)據(jù)分析領(lǐng)域常用的方法,其目的是構(gòu)建一個(gè)模型來預(yù)測(cè)樣本的目標(biāo)值。一棵決策樹的訓(xùn)練就是依據(jù)一個(gè)既定指標(biāo),將訓(xùn)練數(shù)據(jù)集分為幾個(gè)子集并且在所產(chǎn)生的子集中不斷重復(fù)此方法的過程,直到一個(gè)訓(xùn)練子集的類標(biāo)都相同時(shí)為止。
決策樹主要有兩種類型:分類樹和回歸樹。其中分類樹的輸出是樣本的類標(biāo),而回歸樹輸出的是一個(gè)實(shí)數(shù)。決策樹的優(yōu)點(diǎn)體現(xiàn)在即可以處理數(shù)值型數(shù)據(jù)也可以處理類別型數(shù)據(jù),并且適合處理大規(guī)模數(shù)據(jù)。
互聯(lián)網(wǎng)的前沿概念,大數(shù)據(jù)主要包括兩方面特征:一方面整個(gè)社會(huì)的信息量急劇增長(zhǎng),另一方面?zhèn)€人可獲取的信息也呈指數(shù)增長(zhǎng)。從科技發(fā)展的角度來看,“大數(shù)據(jù)”是“數(shù)據(jù)化”趨勢(shì)下的必然產(chǎn)物!并且隨著這一趨勢(shì)的不斷深入,在不遠(yuǎn)的將來我們將身處于一個(gè)“一切都被記錄,一切都被數(shù)字化”的時(shí)代。以上就是小編為帶來的大數(shù)據(jù)分析技術(shù)有哪些的相關(guān)介紹,希望對(duì)您有所幫助。
[免責(zé)聲明]
文章標(biāo)題: 大數(shù)據(jù)分析技術(shù)有哪些?
文章內(nèi)容為網(wǎng)站編輯整理發(fā)布,僅供學(xué)習(xí)與參考,不代表本網(wǎng)站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)溝通。發(fā)送郵件至36dianping@36kr.com,我們會(huì)在3個(gè)工作日內(nèi)處理。