中科大腦知識圖譜平臺建設及業(yè)務實踐
“為了支持城市復雜場景下各類需求,中科大腦知識圖譜團隊設計開發(fā)了一套包含本體可視化設計、數(shù)據(jù)映射、數(shù)據(jù)抽取、數(shù)據(jù)寫入、圖數(shù)據(jù)探索的一體化平臺,而本文則詳細介紹了他們的業(yè)務背景、技術選型、平臺建設等內(nèi)容。”
01 背景介紹
中科大腦作為一家城市級的數(shù)字資產(chǎn)運營商,一方面要對各種類型的數(shù)據(jù)進行高效存儲,另一方面面臨如何將各類數(shù)據(jù)充分利用的問題,傳統(tǒng) NoSQL、SQL 不能完全滿足數(shù)據(jù)的存儲和利用,以圖數(shù)據(jù)庫為基礎的知識圖譜一定程度上可以解決這些問題,知識圖譜組件(KBU)是腦庫城市大腦產(chǎn)品的核心部件。
中科大腦內(nèi)部對知識圖譜的需求,總體來說有以下 3 方面:
- 政務知識圖譜,將政策法規(guī)、證件材料、事項流程、組織架構等信息納入知識圖譜。目前建設了面向公安戶政、電子政務領域事項辦理知識圖譜,針對不同的職能部門建設有不同的知識圖譜,提升了服務效率和質(zhì)量。
- 資產(chǎn)設備管理圖譜,對城市中大量公共設施、不動產(chǎn)、物聯(lián)網(wǎng)設備等建立知識圖譜,形成聯(lián)動管理與運維。
- 事理知識圖譜,對城市重大事件、突發(fā)事件、集中投訴事件等建立事理圖譜,包括事件的時間、地點、主體及熱度等,發(fā)現(xiàn)事件間的關聯(lián)關系和演化規(guī)律,提供決策支持。 實踐中,不同板塊的知識圖譜間并非完全孤立,而是根據(jù)應用需求進行融合,充分發(fā)揮圖譜的關系鏈接特性,將城市本體要素打通,實現(xiàn)聯(lián)動,解決數(shù)據(jù)的關聯(lián)存儲和挖掘。
02 圖數(shù)據(jù)庫選型
在數(shù)據(jù)高度結(jié)構化、一致性強場景下,一般選擇使用傳統(tǒng)的關系型數(shù)據(jù)庫;在數(shù)據(jù)具有龐大潛在關聯(lián)場景下,圖數(shù)據(jù)存儲及基于此的知識圖譜技術將會是合理的選擇。 調(diào)研中發(fā)現(xiàn),與關系數(shù)據(jù)庫或其他 NoSQL 數(shù)據(jù)庫相比,圖數(shù)據(jù)庫的數(shù)據(jù)模型也更加簡單,更具表現(xiàn)力。圖數(shù)據(jù)庫在社交網(wǎng)絡、金融風控、個性化推薦、網(wǎng)絡安全等領域應用廣泛。 我們在圖數(shù)據(jù)庫選型方面主要考慮點: 1)功能齊全、性能強大;2)項目開源,支持靈活的二次開發(fā);3)安全可靠,國產(chǎn)優(yōu)先;
中科大腦早起進行了一些性能和功能對比,也參考美團、騰訊相關測評,從測試結(jié)果看 Nebula Graph 在數(shù)據(jù)導入、實時寫入及多跳查詢方面性能均優(yōu)于競品。此外,Nebula Graph 社區(qū)活躍,對相關 issue 的響應速度快,所以團隊最終選擇了基于 Nebula Graph 作為圖數(shù)據(jù)庫平臺基礎。
03 知識圖譜構建平臺
知識圖譜構建包括業(yè)務規(guī)則制定、本體構建、知識抽取、知識融合、數(shù)據(jù)存儲等流程,往往需要業(yè)務專家、工程、算法、項目管理等人員參與配合。有機整合以上環(huán)節(jié)和分工,將大大減少知識圖譜落地速度,目前尚未有開源產(chǎn)品滿足此需求。為了支持城市復雜場景下各類需求,我們設計開發(fā)了一套包含本體可視化設計、數(shù)據(jù)映射、數(shù)據(jù)抽取(結(jié)構化、非結(jié)構化)、數(shù)據(jù)寫入、圖數(shù)據(jù)探索的一體化平臺,平臺結(jié)構如圖。
- 項目管理
- 本體設計
- 數(shù)據(jù)抽取
- 圖探索
結(jié)構化數(shù)據(jù)導入和非結(jié)構數(shù)據(jù)化抽取結(jié)果將被寫入到 Nebula Graph 數(shù)據(jù)庫,圖探索可以方便地實現(xiàn)對寫入知識的查詢顯示,同時可以通過知識搜索框直接對點和邊信息進行搜索。構建者更加簡單地實現(xiàn)了知識檢索、探索和聚合。產(chǎn)品功能要點:
- 知識展現(xiàn),為了能對圖譜有直觀查閱,在圖譜探索階段,加入了自動展示子圖功能,類似 Neo4j中
MATCH (n) RETURN n LIMIT 25),主要是通過簡單算法發(fā)現(xiàn)圖譜中心點,再由度數(shù)來控制從中心點出發(fā)的子圖大小,同時防止了展示爆炸。 - 知識搜索,支持點和邊進行模糊匹配,更好地實現(xiàn)知識發(fā)現(xiàn)和推薦;
- 知識計算,內(nèi)置輕量級圖算法,可以對節(jié)點出入度、中心度、族群、相似節(jié)點類等進行計算。
為了滿足自身產(chǎn)品應用,我們基于 Nebula Graph、Elasticsearch、NetworkX 等底層接口,開發(fā)了一系列 API 應用接口,未來我們 API 接口實現(xiàn)也將積極參與到開源中。
04 業(yè)務落地
- 智能問答
- 知識指導與決策
- 知識流程推薦
05 合作 & 未來
目前公司腦庫與圖數(shù)據(jù)庫 Nebula Graph 完成了互操作性測試認證,技術人員積極參與開源社區(qū)項目,通過了知識圖譜專家級認證(NGCP)。未來我們持續(xù)支持國產(chǎn)數(shù)據(jù)庫,為社區(qū)積極貢獻代碼。
平臺方面在構建階段,將內(nèi)置圖嵌入、圖學習、GNN 等圖算法、優(yōu)化大規(guī)模圖算法性能,實現(xiàn)構建與應用一體化平臺,為數(shù)字資產(chǎn)的深層次挖掘和智能化應用賦能。
以上為中科大腦知識圖譜開發(fā)小組帶來的知識圖譜平臺建設和業(yè)務實踐方面的分享。


