| 企服解答
大數(shù)據(jù)平臺(tái),可以從大數(shù)據(jù)處理流程來理解。大數(shù)據(jù)處理流程包括數(shù)據(jù)采集,數(shù)據(jù)融合,數(shù)據(jù)治理,存儲(chǔ)計(jì)算,數(shù)據(jù)分析,數(shù)據(jù)可視化。
大數(shù)據(jù)平臺(tái)是什么
1、數(shù)據(jù)采集
這一塊,有設(shè)備數(shù)據(jù)iot,系統(tǒng)數(shù)據(jù)可以用etl,互聯(lián)網(wǎng)數(shù)據(jù)用爬蟲,日志數(shù)據(jù)可以用flume,kafka什么的。這樣解決了數(shù)據(jù)采集的問題,你就有了大數(shù)據(jù)。
2、數(shù)據(jù)融合
是做數(shù)據(jù)的整合,將一些需要的數(shù)據(jù)拿出來,或者過濾掉不需要的數(shù)據(jù),例如做網(wǎng)站日志分析的時(shí)候,用hive做一些數(shù)據(jù)處理,處理的數(shù)據(jù)再去做一些網(wǎng)站kpi的分析。數(shù)據(jù)治理說起來簡單其實(shí)是很復(fù)雜的一件事。
3、數(shù)據(jù)治理
就是把數(shù)做的規(guī)整,整齊,標(biāo)準(zhǔn)統(tǒng)一,質(zhì)量高的數(shù)據(jù)。但是這個(gè)涉及業(yè)務(wù),梳理會(huì)很麻煩。
4、存儲(chǔ)計(jì)算
就算是大數(shù)據(jù)的核心功能了。將大數(shù)據(jù)存儲(chǔ)起來,然后進(jìn)行計(jì)算,得到結(jié)果,這些都是需要分布式的。存儲(chǔ)是基于hdfs的,文件存儲(chǔ),列存儲(chǔ)等。計(jì)算的話區(qū)別于不同的場(chǎng)景分為三類吧,離線計(jì)算也叫批量計(jì)算,實(shí)時(shí)流處理,查詢式分析等等。離線是MR 、spark,實(shí)時(shí)的有flink、sparkstreaming、strom,查詢式分析的話就是提前做一些數(shù)據(jù)處理,然后通過sql查詢進(jìn)行分析(可以百度百度)。
5、數(shù)據(jù)分析
就理解為人工智能和統(tǒng)計(jì)分析。現(xiàn)在人工智能這么火,大數(shù)據(jù)平臺(tái)不提供ai能力就不能叫大數(shù)據(jù)平臺(tái)。主要包括一些機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)算法,一般的數(shù)據(jù)預(yù)測(cè)用機(jī)器學(xué)習(xí)就夠了,語義、圖像識(shí)別等等用深度學(xué)習(xí)。常見的兩個(gè)框架機(jī)器學(xué)習(xí)skitlearn、深度學(xué)習(xí)Tensorflow。
6、可視化
這個(gè)是展現(xiàn)形式,比較常見的bi,可視化大屏等等的。
| 拓展閱讀
大數(shù)據(jù)平臺(tái)的功能:
1、容納海量數(shù)據(jù)
利用計(jì)算機(jī)群集的存儲(chǔ)和計(jì)算能力。不僅在性能上有所擴(kuò)展,而且其處理傳入的大量數(shù)據(jù)流的能力也相應(yīng)提高。
2、速度快
結(jié)合列式數(shù)據(jù)庫架構(gòu)(相對(duì)于基于行的非并行處理傳統(tǒng)數(shù)據(jù)庫)和使用大規(guī)模并行處理技術(shù),不僅能夠大幅提高性能(通常約100到1000倍),還可以實(shí)現(xiàn)更低且更透明的定價(jià)機(jī)制。
3、兼容傳統(tǒng)工具
確保平臺(tái)已經(jīng)過認(rèn)證,可以兼容傳統(tǒng)工具。
4、利用Hadoop
Hadoop已成為大數(shù)據(jù)領(lǐng)域中的主要平臺(tái)。利用Hadoop作為用于持久性和輕量型數(shù)據(jù)管理的高效益平臺(tái)。
5、為數(shù)據(jù)科學(xué)家提供支持
數(shù)據(jù)科學(xué)家在企業(yè)IT中擁有著更高的影響力和重要性,快速、高效、易于使用和廣泛部署的大數(shù)據(jù)平臺(tái)可以幫助拉近商業(yè)人士和技術(shù)專家之間的距離。
6、提供數(shù)據(jù)分析功能
確保大數(shù)據(jù)平臺(tái)不僅支持在數(shù)秒鐘內(nèi)準(zhǔn)備并加載數(shù)據(jù),還支持利用高級(jí)算法建立預(yù)測(cè)模型,輕松部署模型以進(jìn)行數(shù)據(jù)庫內(nèi)計(jì)分。同時(shí)使數(shù)據(jù)科學(xué)家能夠使用現(xiàn)有統(tǒng)計(jì)軟件包和首選語言。
[免責(zé)聲明]
文章標(biāo)題: 大數(shù)據(jù)平臺(tái)是什么
文章內(nèi)容為網(wǎng)站編輯整理發(fā)布,僅供學(xué)習(xí)與參考,不代表本網(wǎng)站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)溝通。發(fā)送郵件至36dianping@36kr.com,我們會(huì)在3個(gè)工作日內(nèi)處理。