云智慧幫助國網(wǎng)電商打造智能運維分析服務平臺
客戶介紹
國網(wǎng)電子商務有限公司(國網(wǎng)金融科技集團)是國家電網(wǎng)有限公司的全資子公司,成立于2016年1月。在2018年7月,按照“兩塊牌子、一套人馬”運作,實行“一體兩翼”的管理模式。
國網(wǎng)電子商務有限公司聚焦電子商務、金融科技、數(shù)字經(jīng)濟三大領(lǐng)域,搶抓電網(wǎng)與互聯(lián)網(wǎng)深度融合發(fā)展機遇,以新立足、以快制勝,全面建成“電e寶、國網(wǎng)商城、國網(wǎng)金融科技、國網(wǎng)新能源云、國網(wǎng)商旅云、跨境電商、綜合能源服務共享平臺、大數(shù)據(jù)征信平臺和國網(wǎng)雙創(chuàng)”九大平臺。
客戶痛點
1.各系統(tǒng)監(jiān)控的指標和告警相對獨立,無法進行關(guān)聯(lián)分析;
2.系統(tǒng)調(diào)用關(guān)系不清晰,當系統(tǒng)發(fā)生故障很難定位是哪里出了問題;
3.無監(jiān)控指標體系標準,缺乏指標分類分級,哪些指標異常表示系統(tǒng)故障不清楚;
4.缺少指標分析和自動檢測,缺少故障預判和預警功能;
5.故障和問題往往是由用戶或運營團隊發(fā)現(xiàn),缺乏主動性;
6.缺少系統(tǒng)運行現(xiàn)狀的大屏展示,無法直觀了解IT資源和系統(tǒng)運行的狀態(tài)。
解決方案
方案以打造全局監(jiān)控及智能運維平臺為基礎(chǔ),滿足數(shù)據(jù)采集技術(shù)、大數(shù)據(jù)存儲技術(shù)、大規(guī)模數(shù)據(jù)離線計算分析、異常檢測技術(shù)、故障診斷和分析的需求,實踐平臺化思維,充分利用現(xiàn)有監(jiān)控資源,實現(xiàn)復雜業(yè)務模型下的異常檢測、故障定位、決策分析支持,并構(gòu)建一套完整的技術(shù)生態(tài)體系,提升整體的運維服務能力。
對系統(tǒng)應用架構(gòu)設(shè)計的簡要說明如下:
1.數(shù)據(jù)源:Zabbix/綜合網(wǎng)管、網(wǎng)絡質(zhì)量監(jiān)控、透視寶APM、logstash/Elasticsearch、撥測工具(監(jiān)控寶);
2.運維大數(shù)據(jù)采集層和數(shù)據(jù)傳輸層:與各類監(jiān)控平臺對接,獲取生產(chǎn)環(huán)境資源數(shù)據(jù)、指標數(shù)據(jù)和告警數(shù)據(jù),同步自行采集應用系統(tǒng)的相關(guān)運維數(shù)據(jù);
3.運維大數(shù)據(jù)實時計算層:對采集的數(shù)據(jù)進行數(shù)據(jù)清洗、數(shù)據(jù)聚類、指標運算等操作,以保證數(shù)據(jù)滿足實際功能需求;
4.運維大數(shù)據(jù)存儲層:建設(shè)數(shù)據(jù)存儲層,將生產(chǎn)環(huán)境基礎(chǔ)資源數(shù)據(jù)、關(guān)鍵指標數(shù)據(jù)、告警數(shù)據(jù)放在存儲層(大數(shù)據(jù)數(shù)據(jù)湖和監(jiān)控平臺數(shù)據(jù)湖)統(tǒng)一長期存儲;
5.服務層:集成各類告警、性能及IT運營數(shù)據(jù),構(gòu)建各類數(shù)據(jù)主題和定制化數(shù)據(jù),并提供實時消費服務能力,同時具備開放的接口服務能力;
6.計算層:通過數(shù)據(jù)分析、數(shù)據(jù)建模、機器學習等人工智能技術(shù),基于歷史運維大數(shù)據(jù)進行數(shù)據(jù)分析、模型訓練,最終實現(xiàn)對實時在線運維數(shù)據(jù)(數(shù)據(jù)實時運算庫)的關(guān)聯(lián)分析;
7.應用展現(xiàn)層:基于對運維大數(shù)據(jù)的智能分析,針對具體的主機、網(wǎng)絡設(shè)備、應用系統(tǒng)、業(yè)務場景和運維場景,形成運維人員視圖,并提供異常檢測、故障定位、決策支持以及分析預測等支持;結(jié)合實時分析告警和自動化化的運維操作,通過開發(fā)可視化的頁面或大屏的形式實時展現(xiàn)業(yè)務系統(tǒng)智能運維的關(guān)鍵指標,第一時間發(fā)現(xiàn)異常情況,輔助運維人員進行運維決策和自動化處理。
通過對客戶方運維體系的充分調(diào)研,形成專業(yè)運維指標數(shù)據(jù)庫,指標數(shù)據(jù)管理的目標是使組織能夠?qū)⒅笜藬?shù)據(jù)作為數(shù)據(jù)資產(chǎn)進行統(tǒng)一管控,并提供指標使用原則、指標管理制度、指標應用流程,指導在指標全生命管理周期過程中各組織層級的活動準則。
價值
1.方案在行業(yè)客戶實踐-效果概覽,提供應用視角資源依賴關(guān)系,將指標、告警集中起來,打破運維筒倉;
2.方案在行業(yè)客戶實踐-應用系統(tǒng)健康概覽,從業(yè)務視角出發(fā),實現(xiàn)了應用層→服務層→JVM層→主機層→網(wǎng)絡層的監(jiān)控;
3.方案在行業(yè)客戶實踐-業(yè)務服務組件的整體運行狀態(tài),對應用進行多維度指標采集,通過數(shù)據(jù)聚類,形成應用系統(tǒng)畫像;
4.方案在行業(yè)客戶實踐-應用各組件在JMV層指標的健康狀態(tài),通過穿透式下鉆的分析方式可以快速鎖定影響應用性能的根源,快速鎖定問題;
5.儀表臺可以對比服務中實例的運行狀態(tài),對業(yè)務系統(tǒng)以及其下層的支持服務提供清晰的性能可視視圖。