掌握這些數(shù)據(jù)過(guò)濾的技巧,讓數(shù)據(jù)分析更高效!

隨著互聯(lián)網(wǎng)的飛速發(fā)展,呈爆炸式增長(zhǎng)的數(shù)據(jù)使用戶(hù)逐漸迷失在了信息的海洋之中,在進(jìn)行數(shù)據(jù)分析時(shí),海量的業(yè)務(wù)數(shù)據(jù)往往會(huì)帶來(lái)一些問(wèn)題:
準(zhǔn)確性差:無(wú)效數(shù)據(jù)以及無(wú)需進(jìn)行分析的數(shù)據(jù)混雜在其中,導(dǎo)致分析結(jié)果與實(shí)際偏差較大;
效率低:分析無(wú)用數(shù)據(jù)會(huì)帶來(lái)時(shí)間浪費(fèi)、降低分析效率;
成本高:大量數(shù)據(jù)往往需要投入巨大的人力和時(shí)間成本。
想要解決這些問(wèn)題,其中一個(gè)很重要的方式就是「數(shù)據(jù)過(guò)濾」,數(shù)據(jù)過(guò)濾可以對(duì)數(shù)據(jù)進(jìn)行指定條件的識(shí)別和篩選,從而提升數(shù)據(jù)質(zhì)量,為后續(xù)的數(shù)據(jù)分析提供有效數(shù)據(jù)。
明白了數(shù)據(jù)過(guò)濾的重要性之后,那有什么可以高效進(jìn)行數(shù)據(jù)過(guò)濾的方法嗎?數(shù)據(jù)過(guò)濾主要分為行過(guò)濾和列過(guò)濾,今天就以Tempo 人工智能平臺(tái)為例,來(lái)大家一起來(lái)看一下具體的操作。
行過(guò)濾
01、比較運(yùn)算符
可通過(guò)數(shù)據(jù)過(guò)濾節(jié)點(diǎn)根據(jù)用戶(hù)設(shè)置條件完成行數(shù)據(jù)的過(guò)濾和篩選。

02、邏輯運(yùn)算符

?可通過(guò)過(guò)程查詢(xún)分析器節(jié)點(diǎn)根據(jù)指定的條件從接入的數(shù)據(jù)表中提取數(shù)據(jù),通過(guò)配置過(guò)濾條件,完成數(shù)據(jù)過(guò)濾操作;
?首先使用關(guān)系數(shù)據(jù)庫(kù)輸入節(jié)點(diǎn)和過(guò)程查詢(xún)分析器節(jié)點(diǎn)構(gòu)建流程;
?通過(guò)關(guān)系數(shù)據(jù)庫(kù)輸入節(jié)點(diǎn)上傳全國(guó)銷(xiāo)售訂單數(shù)據(jù)集;
?通過(guò)過(guò)程查詢(xún)分析器節(jié)點(diǎn)數(shù)據(jù)選擇頁(yè)簽選擇全國(guó)銷(xiāo)售訂單數(shù)據(jù)集選擇所需要的數(shù)據(jù);
?通過(guò)過(guò)程查詢(xún)分析器節(jié)點(diǎn)數(shù)據(jù)過(guò)濾頁(yè)簽配置過(guò)濾條件以及且/或關(guān)系,比如要實(shí)現(xiàn)利潤(rùn)大于50的同時(shí)訂單數(shù)量大于30的情況。流程執(zhí)行成功后,在洞察查看運(yùn)行結(jié)果。
Tempo人工智能平臺(tái),如何進(jìn)行邏輯運(yùn)算符過(guò)濾





03、通配符
剛才講解的條件過(guò)濾都是對(duì)已知值進(jìn)行的過(guò)濾,還有一種情況是我們要檢索文本中包含某個(gè)詞的所有數(shù)據(jù),這里就需要使用通配符。通配符就是我們用來(lái)匹配值一部分的特殊字符。
?首先使用關(guān)系數(shù)據(jù)庫(kù)輸入節(jié)點(diǎn)和數(shù)據(jù)過(guò)濾節(jié)點(diǎn)構(gòu)建流程;
?通過(guò)關(guān)系數(shù)據(jù)庫(kù)輸入節(jié)點(diǎn)上傳全國(guó)銷(xiāo)售訂單數(shù)據(jù)集;
?通過(guò)數(shù)據(jù)過(guò)濾節(jié)點(diǎn)配置過(guò)濾條件對(duì)包含值進(jìn)行識(shí)別,選擇保留滿足以下全部條件的數(shù)據(jù),比如過(guò)濾出數(shù)據(jù)中顧客姓名包含張的數(shù)據(jù);
?流程執(zhí)行成功后,在洞察查看運(yùn)行結(jié)果。
Tempo人工智能平臺(tái),如何進(jìn)行通配符過(guò)濾




04、高級(jí)數(shù)據(jù)過(guò)濾
1)字段與字段
高級(jí)數(shù)據(jù)過(guò)濾可分為字段與字段、去重、單類(lèi)別個(gè)數(shù)/占比、參數(shù)過(guò)濾以及擴(kuò)展方式。
可通過(guò)數(shù)據(jù)過(guò)濾節(jié)點(diǎn)實(shí)現(xiàn)多個(gè)字段間進(jìn)行查詢(xún)過(guò)濾條件
?首先使用關(guān)系數(shù)據(jù)庫(kù)輸入節(jié)點(diǎn)和數(shù)據(jù)過(guò)濾節(jié)點(diǎn)構(gòu)建流程;
?通過(guò)關(guān)系數(shù)據(jù)庫(kù)輸入節(jié)點(diǎn)上傳全國(guó)銷(xiāo)售訂單數(shù)據(jù)集;
?通過(guò)數(shù)據(jù)過(guò)濾節(jié)點(diǎn)進(jìn)行條件配置,完成字段與字段間過(guò)濾,比如過(guò)濾出利潤(rùn)大于運(yùn)輸成本的數(shù)據(jù);
?流程執(zhí)行成功后,在洞察查看運(yùn)行結(jié)果。
Tempo人工智能平臺(tái),如何進(jìn)行多個(gè)字段間的過(guò)濾




2)數(shù)據(jù)去重
可通過(guò)數(shù)據(jù)去重節(jié)點(diǎn)實(shí)現(xiàn)支持用戶(hù)根據(jù)指定的方式對(duì)數(shù)據(jù)集的重復(fù)行進(jìn)行處理。支持兩種去重方式:
?去掉所有列的完全重復(fù)數(shù)據(jù);
?隨機(jī)保留一行和去掉指定列的完全重復(fù)數(shù)據(jù)。
3)單類(lèi)別個(gè)數(shù)/占比
可通過(guò)數(shù)據(jù)過(guò)濾節(jié)點(diǎn)實(shí)現(xiàn)用戶(hù)對(duì)數(shù)據(jù)中的某個(gè)字段的取值個(gè)數(shù)或占比進(jìn)行計(jì)算,并根據(jù)實(shí)際業(yè)務(wù)過(guò)濾掉所對(duì)應(yīng)行。
4)參數(shù)過(guò)濾
參數(shù)過(guò)濾可通過(guò)過(guò)程查詢(xún)分析器節(jié)點(diǎn)從接入的數(shù)據(jù)表中提取數(shù)據(jù),根據(jù)配置參數(shù),從數(shù)據(jù)表中進(jìn)行數(shù)據(jù)過(guò)濾操作。
?首先使用關(guān)系數(shù)據(jù)庫(kù)輸入節(jié)點(diǎn)和過(guò)程查詢(xún)分析器節(jié)點(diǎn)構(gòu)建流程;
?點(diǎn)擊設(shè)置,在流程參數(shù)配置頁(yè)簽根據(jù)所需篩選條件進(jìn)行參數(shù)配置;
?通過(guò)關(guān)系數(shù)據(jù)庫(kù)輸入節(jié)點(diǎn)上傳全國(guó)銷(xiāo)售訂單數(shù)據(jù)集;
?通過(guò)過(guò)程查詢(xún)分析器節(jié)點(diǎn)數(shù)據(jù)選擇頁(yè)簽選擇全國(guó)銷(xiāo)售訂單數(shù)據(jù)集選擇所需要的數(shù)據(jù);
?通過(guò)過(guò)程查詢(xún)分析器節(jié)點(diǎn)數(shù)據(jù)過(guò)濾頁(yè)簽配置過(guò)濾條件選擇根據(jù)參數(shù)進(jìn)行過(guò)濾;
?流程執(zhí)行成功后,在洞察查看運(yùn)行結(jié)果。
Tempo人工智能平臺(tái),如何進(jìn)行參數(shù)過(guò)濾







5)擴(kuò)展方式
我們還可通過(guò)SQL編輯節(jié)點(diǎn)、計(jì)算列、python編程節(jié)點(diǎn)等方式進(jìn)行數(shù)據(jù)過(guò)濾操作。
平臺(tái)中的計(jì)算列內(nèi)置了多種函數(shù)及邏輯處理語(yǔ)句可幫助我們進(jìn)行數(shù)據(jù)選擇、匯總組、過(guò)濾原始數(shù)據(jù)、過(guò)濾匯總數(shù)據(jù)、數(shù)據(jù)排序操作。
?首先使用關(guān)系數(shù)據(jù)庫(kù)輸入節(jié)點(diǎn)和過(guò)程查詢(xún)分析器節(jié)點(diǎn)構(gòu)建流程;
?通過(guò)關(guān)系數(shù)據(jù)庫(kù)輸入節(jié)點(diǎn)上傳全國(guó)銷(xiāo)售訂單數(shù)據(jù)集;
?點(diǎn)擊計(jì)算列,輸入列名及對(duì)應(yīng)表達(dá)式進(jìn)行操作。
Tempo人工智能平臺(tái),如何通過(guò)擴(kuò)展方式進(jìn)行過(guò)濾



列過(guò)濾
01、基于業(yè)務(wù)過(guò)濾
在實(shí)際應(yīng)用中,根據(jù)業(yè)務(wù)情況我們可能還需要查詢(xún)大于某個(gè)值或不等于某個(gè)值的條件,通過(guò)勾選滿足條件的記錄數(shù)的方式篩選數(shù)據(jù),可通過(guò)數(shù)據(jù)過(guò)濾節(jié)點(diǎn)進(jìn)行過(guò)濾操作。還可以 基于業(yè)務(wù)的列過(guò)濾需要根據(jù)業(yè)務(wù)情況,過(guò)濾掉與后續(xù)建模或分析無(wú)關(guān)的列。
02、基于模型過(guò)濾
使用統(tǒng)計(jì)方法識(shí)別數(shù)據(jù)特征,基于識(shí)別特征情況進(jìn)行數(shù)據(jù)列過(guò)濾。比如說(shuō)預(yù)測(cè)設(shè)備是否發(fā)生故障與維修人員的姓名無(wú)關(guān),在建模初期就將維修人員字段過(guò)濾。
AI支持通過(guò)屬性過(guò)濾節(jié)點(diǎn)讀取描述數(shù)據(jù)特征、woe編碼、變量選擇和相關(guān)系數(shù)輸出的模型,并通過(guò)不同的過(guò)濾條件添加字段,從而實(shí)現(xiàn)列過(guò)濾操作。
這里我們以描述數(shù)據(jù)特征模型進(jìn)行說(shuō)明。使用bankloan數(shù)據(jù)集進(jìn)行描述數(shù)據(jù),并將模型進(jìn)行保存。

?首先使用樣例數(shù)據(jù)節(jié)點(diǎn)和屬性過(guò)濾節(jié)點(diǎn)構(gòu)建流程;
?通過(guò)樣例數(shù)據(jù)節(jié)點(diǎn)上傳bankloan_Classification;
?雙擊屬性過(guò)濾節(jié)點(diǎn),選擇基于模型選變量;
?選擇模型并進(jìn)行篩選配置,篩選出缺失值占比等于0的字段;
?流程執(zhí)行成功后,在洞察查看運(yùn)行結(jié)果。
Tempo人工智能平臺(tái),如何基于模型過(guò)濾







03、高級(jí)過(guò)濾
除了支持基于業(yè)務(wù)和基于模型的列過(guò)濾方法之外,我們還支持缺失值處理、自動(dòng)數(shù)據(jù)處理、SQL編輯節(jié)點(diǎn)等其他方式進(jìn)行數(shù)據(jù)列的過(guò)濾操作。
總結(jié):
Tempo人工智能平臺(tái)作為一款通用的、企業(yè)級(jí)、智能化的數(shù)據(jù)分析模型構(gòu)建與數(shù)據(jù)應(yīng)用場(chǎng)景設(shè)計(jì)工具,內(nèi)置了豐富的數(shù)據(jù)處理節(jié)點(diǎn),支持行、列和高級(jí)等近30余種數(shù)據(jù)預(yù)處理方法,讓用戶(hù)能夠靈活地運(yùn)用多種處理手段對(duì)數(shù)據(jù)進(jìn)行過(guò)濾處理,為挖掘分析做好準(zhǔn)備。
[免責(zé)聲明]
原文標(biāo)題: 掌握這些數(shù)據(jù)過(guò)濾的技巧,讓數(shù)據(jù)分析更高效!
本文由作者原創(chuàng)發(fā)布于36氪企服點(diǎn)評(píng);未經(jīng)許可,禁止轉(zhuǎn)載。




- Tempo人工智能平臺(tái)(簡(jiǎn)稱(chēng)TempoAI)Oracle Analytics Cloud
- Tempo人工智能平臺(tái)(簡(jiǎn)稱(chēng)TempoAI)SAP Analytics Cloud
- Tempo人工智能平臺(tái)(簡(jiǎn)稱(chēng)TempoAI)Zignal Labs
- Tempo人工智能平臺(tái)(簡(jiǎn)稱(chēng)TempoAI)Minitab Statistical Software
- Tempo人工智能平臺(tái)(簡(jiǎn)稱(chēng)TempoAI)Adjust-Datascape
