品牌名稱(chēng)
中科大腦
所在行業(yè)
政企
企業(yè)規(guī)模
201-500人

中科大腦知識(shí)圖譜平臺(tái)建設(shè)及業(yè)務(wù)實(shí)踐

584次閱讀

“為了支持城市復(fù)雜場(chǎng)景下各類(lèi)需求,中科大腦知識(shí)圖譜團(tuán)隊(duì)設(shè)計(jì)開(kāi)發(fā)了一套包含本體可視化設(shè)計(jì)、數(shù)據(jù)映射、數(shù)據(jù)抽取、數(shù)據(jù)寫(xiě)入、圖數(shù)據(jù)探索的一體化平臺(tái),而本文則詳細(xì)介紹了他們的業(yè)務(wù)背景、技術(shù)選型、平臺(tái)建設(shè)等內(nèi)容。”

01 背景介紹

中科大腦作為一家城市級(jí)的數(shù)字資產(chǎn)運(yùn)營(yíng)商,一方面要對(duì)各種類(lèi)型的數(shù)據(jù)進(jìn)行高效存儲(chǔ),另一方面面臨如何將各類(lèi)數(shù)據(jù)充分利用的問(wèn)題,傳統(tǒng) NoSQL、SQL 不能完全滿(mǎn)足數(shù)據(jù)的存儲(chǔ)和利用,以圖數(shù)據(jù)庫(kù)為基礎(chǔ)的知識(shí)圖譜一定程度上可以解決這些問(wèn)題,知識(shí)圖譜組件(KBU)是腦庫(kù)城市大腦產(chǎn)品的核心部件。

腦庫(kù)架構(gòu)

中科大腦內(nèi)部對(duì)知識(shí)圖譜的需求,總體來(lái)說(shuō)有以下 3 方面:

  1. 政務(wù)知識(shí)圖譜,將政策法規(guī)、證件材料、事項(xiàng)流程、組織架構(gòu)等信息納入知識(shí)圖譜。目前建設(shè)了面向公安戶(hù)政、電子政務(wù)領(lǐng)域事項(xiàng)辦理知識(shí)圖譜,針對(duì)不同的職能部門(mén)建設(shè)有不同的知識(shí)圖譜,提升了服務(wù)效率和質(zhì)量。
  2. 資產(chǎn)設(shè)備管理圖譜,對(duì)城市中大量公共設(shè)施、不動(dòng)產(chǎn)、物聯(lián)網(wǎng)設(shè)備等建立知識(shí)圖譜,形成聯(lián)動(dòng)管理與運(yùn)維。
  3. 事理知識(shí)圖譜,對(duì)城市重大事件、突發(fā)事件、集中投訴事件等建立事理圖譜,包括事件的時(shí)間、地點(diǎn)、主體及熱度等,發(fā)現(xiàn)事件間的關(guān)聯(lián)關(guān)系和演化規(guī)律,提供決策支持。 實(shí)踐中,不同板塊的知識(shí)圖譜間并非完全孤立,而是根據(jù)應(yīng)用需求進(jìn)行融合,充分發(fā)揮圖譜的關(guān)系鏈接特性,將城市本體要素打通,實(shí)現(xiàn)聯(lián)動(dòng),解決數(shù)據(jù)的關(guān)聯(lián)存儲(chǔ)和挖掘。

02 圖數(shù)據(jù)庫(kù)選型

在數(shù)據(jù)高度結(jié)構(gòu)化、一致性強(qiáng)場(chǎng)景下,一般選擇使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù);在數(shù)據(jù)具有龐大潛在關(guān)聯(lián)場(chǎng)景下,圖數(shù)據(jù)存儲(chǔ)及基于此的知識(shí)圖譜技術(shù)將會(huì)是合理的選擇。 調(diào)研中發(fā)現(xiàn),與關(guān)系數(shù)據(jù)庫(kù)或其他 NoSQL 數(shù)據(jù)庫(kù)相比,圖數(shù)據(jù)庫(kù)的數(shù)據(jù)模型也更加簡(jiǎn)單,更具表現(xiàn)力。圖數(shù)據(jù)庫(kù)在社交網(wǎng)絡(luò)、金融風(fēng)控、個(gè)性化推薦、網(wǎng)絡(luò)安全等領(lǐng)域應(yīng)用廣泛。 我們?cè)趫D數(shù)據(jù)庫(kù)選型方面主要考慮點(diǎn): 1)功能齊全、性能強(qiáng)大;2)項(xiàng)目開(kāi)源,支持靈活的二次開(kāi)發(fā);3)安全可靠,國(guó)產(chǎn)優(yōu)先;

中科大腦早起進(jìn)行了一些性能和功能對(duì)比,也參考美團(tuán)、騰訊相關(guān)測(cè)評(píng),從測(cè)試結(jié)果看 Nebula Graph 在數(shù)據(jù)導(dǎo)入、實(shí)時(shí)寫(xiě)入及多跳查詢(xún)方面性能均優(yōu)于競(jìng)品。此外,Nebula Graph 社區(qū)活躍,對(duì)相關(guān) issue 的響應(yīng)速度快,所以團(tuán)隊(duì)最終選擇了基于 Nebula Graph 作為圖數(shù)據(jù)庫(kù)平臺(tái)基礎(chǔ)。

騰訊云安全BENCHMARK

03 知識(shí)圖譜構(gòu)建平臺(tái)

知識(shí)圖譜構(gòu)建包括業(yè)務(wù)規(guī)則制定、本體構(gòu)建、知識(shí)抽取、知識(shí)融合、數(shù)據(jù)存儲(chǔ)等流程,往往需要業(yè)務(wù)專(zhuān)家、工程、算法、項(xiàng)目管理等人員參與配合。有機(jī)整合以上環(huán)節(jié)和分工,將大大減少知識(shí)圖譜落地速度,目前尚未有開(kāi)源產(chǎn)品滿(mǎn)足此需求。為了支持城市復(fù)雜場(chǎng)景下各類(lèi)需求,我們?cè)O(shè)計(jì)開(kāi)發(fā)了一套包含本體可視化設(shè)計(jì)、數(shù)據(jù)映射、數(shù)據(jù)抽取(結(jié)構(gòu)化、非結(jié)構(gòu)化)、數(shù)據(jù)寫(xiě)入、圖數(shù)據(jù)探索的一體化平臺(tái),平臺(tái)結(jié)構(gòu)如圖。

圖譜平臺(tái)結(jié)構(gòu)

  • 項(xiàng)目管理

 

3平臺(tái)

  • 本體設(shè)計(jì)

設(shè)計(jì)2

  • 數(shù)據(jù)抽取

 

論文聯(lián)合抽取

  • 圖探索

結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入和非結(jié)構(gòu)數(shù)據(jù)化抽取結(jié)果將被寫(xiě)入到 Nebula Graph 數(shù)據(jù)庫(kù),圖探索可以方便地實(shí)現(xiàn)對(duì)寫(xiě)入知識(shí)的查詢(xún)顯示,同時(shí)可以通過(guò)知識(shí)搜索框直接對(duì)點(diǎn)和邊信息進(jìn)行搜索。構(gòu)建者更加簡(jiǎn)單地實(shí)現(xiàn)了知識(shí)檢索、探索和聚合。產(chǎn)品功能要點(diǎn):

  1. 知識(shí)展現(xiàn),為了能對(duì)圖譜有直觀查閱,在圖譜探索階段,加入了自動(dòng)展示子圖功能,類(lèi)似 Neo4j中 MATCH (n) RETURN n LIMIT 25),主要是通過(guò)簡(jiǎn)單算法發(fā)現(xiàn)圖譜中心點(diǎn),再由度數(shù)來(lái)控制從中心點(diǎn)出發(fā)的子圖大小,同時(shí)防止了展示爆炸。
  2. 知識(shí)搜索,支持點(diǎn)和邊進(jìn)行模糊匹配,更好地實(shí)現(xiàn)知識(shí)發(fā)現(xiàn)和推薦;
  3. 知識(shí)計(jì)算,內(nèi)置輕量級(jí)圖算法,可以對(duì)節(jié)點(diǎn)出入度、中心度、族群、相似節(jié)點(diǎn)類(lèi)等進(jìn)行計(jì)算。

圖探索

為了滿(mǎn)足自身產(chǎn)品應(yīng)用,我們基于 Nebula Graph、Elasticsearch、NetworkX 等底層接口,開(kāi)發(fā)了一系列 API 應(yīng)用接口,未來(lái)我們 API 接口實(shí)現(xiàn)也將積極參與到開(kāi)源中。

04 業(yè)務(wù)落地

  • 智能問(wèn)答

 

問(wèn)答

  • 知識(shí)指導(dǎo)與決策

本體

  • 知識(shí)流程推薦

 

知識(shí)推薦 (2)

05 合作 & 未來(lái)

目前公司腦庫(kù)與圖數(shù)據(jù)庫(kù) Nebula Graph 完成了互操作性測(cè)試認(rèn)證,技術(shù)人員積極參與開(kāi)源社區(qū)項(xiàng)目,通過(guò)了知識(shí)圖譜專(zhuān)家級(jí)認(rèn)證(NGCP)。未來(lái)我們持續(xù)支持國(guó)產(chǎn)數(shù)據(jù)庫(kù),為社區(qū)積極貢獻(xiàn)代碼。

平臺(tái)方面在構(gòu)建階段,將內(nèi)置圖嵌入、圖學(xué)習(xí)、GNN 等圖算法、優(yōu)化大規(guī)模圖算法性能,實(shí)現(xiàn)構(gòu)建與應(yīng)用一體化平臺(tái),為數(shù)字資產(chǎn)的深層次挖掘和智能化應(yīng)用賦能。

以上為中科大腦知識(shí)圖譜開(kāi)發(fā)小組帶來(lái)的知識(shí)圖譜平臺(tái)建設(shè)和業(yè)務(wù)實(shí)踐方面的分享。