|“用知識(shí)圖譜定位客戶(hù),,可防失聯(lián)/跑路,?!?/span>
或許你已經(jīng)耳熟能詳人工智能,,但是對(duì)此你并不滿(mǎn)意。你吐槽:這個(gè)機(jī)器太愚蠢了,!這個(gè)分析報(bào)告,,人類(lèi)根本無(wú)法理解。
那是因?yàn)槿斯ぶ悄苓€是一個(gè)牙牙學(xué)語(yǔ)的稚子,,處于智能化轉(zhuǎn)型的初級(jí)階段,。今天我們就來(lái)聊聊知識(shí)圖譜,,一項(xiàng)將賦予機(jī)器認(rèn)知智能的關(guān)鍵技術(shù),。
(圖片來(lái)源于網(wǎng)絡(luò),如有侵權(quán),,請(qǐng)聯(lián)系刪除)
一,、什么是知識(shí)圖譜,?
知識(shí)圖譜(Knowledge graph,KG)是一種知識(shí)庫(kù)技術(shù),,在上世紀(jì)五六十年代就已萌芽,,起源于語(yǔ)義網(wǎng)絡(luò)的知識(shí)表現(xiàn)形式。
語(yǔ)義網(wǎng)絡(luò)的本義是,,知識(shí)由相互連接的節(jié)點(diǎn)和邊組成,,節(jié)點(diǎn)表示概念或者對(duì)象,邊表示他們之間的關(guān)系,。在知識(shí)圖譜里,,每個(gè)節(jié)點(diǎn)表示現(xiàn)實(shí)世界中存在的“實(shí)體”,每條邊為實(shí)體與實(shí)體之間的“關(guān)系”,。在表現(xiàn)形式上,,語(yǔ)義網(wǎng)絡(luò)和知識(shí)圖譜相似,但語(yǔ)義網(wǎng)絡(luò)更側(cè)重于描述概念與概念之間的關(guān)系,,而知識(shí)圖譜則更偏重于描述實(shí)體之間的關(guān)聯(lián),。所以,知識(shí)圖譜就是把所有不同種類(lèi)的信息連接在一起而得到的一個(gè)關(guān)系網(wǎng)絡(luò),,提供從“關(guān)系”的角度去分析問(wèn)題的能力,。
“知識(shí)圖譜”這個(gè)概念具體什么時(shí)候被提出,網(wǎng)上有多種說(shuō)法,,廣為業(yè)內(nèi)認(rèn)可的是2012年,,Google首次公開(kāi)將其應(yīng)用在搜索上,也是自此,,知識(shí)圖譜成為了研究應(yīng)用的熱點(diǎn),。比如在谷歌上搜索“唐納德川普”,在搜索結(jié)果頁(yè)面的右側(cè)會(huì)出現(xiàn)與之相關(guān)的身份信息,、行為信息,、社交信息、關(guān)聯(lián)人等,。
二,、知識(shí)圖譜的基本特性
有了知識(shí)圖譜,機(jī)器看到的就不再是簡(jiǎn)單的字符串,,而是可以把這些字符串映射到各種各樣的實(shí)體,、概念,從而建立機(jī)器自己的認(rèn)知世界,,更直觀(guān)的為場(chǎng)景服務(wù),。
下面簡(jiǎn)單梳理一下知識(shí)圖譜的基本特性:
網(wǎng)狀知識(shí)結(jié)構(gòu)
復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)
網(wǎng)絡(luò)由節(jié)點(diǎn)、邊、以及它們的屬性構(gòu)成
知識(shí)庫(kù)是知識(shí)圖譜承載數(shù)據(jù)的主要方式
也就是說(shuō),,知識(shí)圖譜是由一些相互連接的實(shí)體和他們的屬性構(gòu)成的,。換句話(huà)說(shuō),知識(shí)圖譜是由一條條知識(shí)組成,,每條知識(shí)表示為一個(gè)SPO三元組(Subject-Predicate-Object),。如:(堂吉訶德,作者,,塞萬(wàn)提斯)
常用RDF來(lái)形式化地表示這種三元關(guān)系,。RDF(Resource Description Framework),即資源描述框架,,是W3C制定的,,用于描述實(shí)體/資源的標(biāo)準(zhǔn)數(shù)據(jù)模型。
知識(shí)圖譜的表示方式之一RDF
(Semantic similarity analysis and application in knowledge graphs, Ganggao, Zhu, Phd Thesis, 2017)
RDF圖中一共有三種類(lèi)型,,International Resource Identifiers(IRIs),,blank nodes 和 literals。現(xiàn)實(shí)中,,這種呈現(xiàn)方式的典型應(yīng)用有Walfram Alpha知識(shí)庫(kù),。它是目前世界上包含實(shí)體數(shù)最多的知識(shí)庫(kù),總量超過(guò)10萬(wàn)億條,。
?
三,、知識(shí)圖譜的關(guān)鍵理論和技術(shù)
早期語(yǔ)義網(wǎng)絡(luò)研究如何將數(shù)據(jù)表示成機(jī)器和人都可以理解的, 所以核心的研究方向是對(duì)元數(shù)據(jù)的研究,即如何描述數(shù)據(jù),。知識(shí)圖譜是在語(yǔ)義網(wǎng)基礎(chǔ)上發(fā)展起來(lái)的,,包含上億的事實(shí)和他們之間的關(guān)系。
自然語(yǔ)言處理技術(shù)推動(dòng)了知識(shí)圖譜應(yīng)用,,知識(shí)圖譜也為自然語(yǔ)言處理提供更廣闊的應(yīng)用空間,,所以知識(shí)圖譜中的關(guān)鍵理論和技術(shù)涉及到很多自然語(yǔ)言處理。
例如text analysis, document retrieval, entity linking, word sense disambiguation, name entity disambiguation, query interpretation, question answer.
知識(shí)圖譜的技術(shù)架構(gòu)
?
(劉嶠 李楊 段宏 劉瑤 秦志光 出版源:《計(jì)算機(jī)研究與發(fā)展》, 2016, 53 (3):582-600 2)
三,、知識(shí)圖譜主要應(yīng)用場(chǎng)景
知識(shí)圖譜最大的優(yōu)勢(shì)在于對(duì)數(shù)據(jù)的描述能力很強(qiáng)大,,機(jī)器學(xué)習(xí)、深度學(xué)習(xí)算法雖然在預(yù)測(cè)能力上不錯(cuò),,但在描述能力上卻差強(qiáng)人意,,知識(shí)圖譜則剛好填補(bǔ)了這部分空白。
雖然知識(shí)圖譜是當(dāng)前研究的熱點(diǎn),,但在國(guó)內(nèi)尚屬一個(gè)比較新的概念,,其應(yīng)用也處于初始階段,主要集中在諸如通信,、醫(yī)療,、互聯(lián)網(wǎng),、金融等對(duì)技術(shù)敏感的行業(yè)領(lǐng)域。
下面,,我們對(duì)已有應(yīng)用做一個(gè)簡(jiǎn)單介紹:
1、語(yǔ)義搜索
語(yǔ)義搜索的功能類(lèi)似于知識(shí)圖譜在Google, Baidu上的應(yīng)用,,通過(guò)知識(shí)圖譜擴(kuò)展用戶(hù)的搜索關(guān)鍵詞,,從而返回更豐富、更全面的信息,。
舉個(gè)應(yīng)用案例,,搜索“價(jià)格在10萬(wàn)以下的白色長(zhǎng)安汽車(chē)”:
首先是句法分析,通過(guò)實(shí)體識(shí)別,,分解搜索需求,,如人名、地名,、品牌名,、顏色等,然后根據(jù)分析結(jié)果,,搜索目標(biāo)-汽車(chē),,目標(biāo)屬性-白色、長(zhǎng)安,、價(jià)格0-10萬(wàn),,最后,將這些結(jié)果用圖形網(wǎng)絡(luò)的方式展示,,就把復(fù)雜的信息以直觀(guān)明了的圖像呈現(xiàn)出來(lái),,讓使用者對(duì)隱藏信息的來(lái)龍去脈一目了然。
2,、智能問(wèn)答
智能問(wèn)答功能同樣也可以體現(xiàn)在搜索引擎上,,通過(guò)構(gòu)建龐大的知識(shí)庫(kù),訓(xùn)練機(jī)器,,讀懂人類(lèi)的需求,。
如蘋(píng)果Siri、電信客服,、銀行智能語(yǔ)音助手,、健康助理等。其應(yīng)用過(guò)程同語(yǔ)義搜索,,只是在表現(xiàn)上還加入了其他技術(shù),,如語(yǔ)音識(shí)別、圖形識(shí)別等,。
?
3,、風(fēng)險(xiǎn)控制
現(xiàn)代商業(yè)發(fā)展面臨的風(fēng)險(xiǎn)因素日趨復(fù)雜,,利用知識(shí)圖譜可以構(gòu)建行業(yè)的知識(shí)庫(kù),進(jìn)行風(fēng)險(xiǎn)挖掘,,從而達(dá)到控制風(fēng)險(xiǎn),,管理風(fēng)險(xiǎn)的目的,典型應(yīng)用有金融領(lǐng)域的反欺詐和風(fēng)險(xiǎn)預(yù)測(cè),。
那么,,如何構(gòu)建金融知識(shí)圖譜?
“金融知識(shí)圖譜”是金融行業(yè)知識(shí)搜索的基礎(chǔ)技術(shù),,是具有語(yǔ)義處理與信息互聯(lián)互通能力的知識(shí)庫(kù),。構(gòu)建“金融知識(shí)圖譜”可以提升金融機(jī)構(gòu)反欺詐、風(fēng)險(xiǎn)評(píng)估,、預(yù)測(cè)等風(fēng)險(xiǎn)管理能力,。
構(gòu)建“金融知識(shí)圖譜”可分為兩大部分:一是數(shù)據(jù)梳理,基于資金往來(lái),賬戶(hù),抵押物,股權(quán)結(jié)構(gòu),訴訟,聯(lián)系方式等關(guān)系建立企業(yè),人, 事件等實(shí)體間的關(guān)系圖譜,;二是基于知識(shí)圖譜的數(shù)據(jù)挖掘應(yīng)用,,例如:擔(dān)保圈分析,可挖掘出循環(huán)擔(dān)保,;深度風(fēng)險(xiǎn)鏈條分析,揭示多層網(wǎng)絡(luò)中風(fēng)險(xiǎn)關(guān)系,;客戶(hù)群體劃分,可以提取滿(mǎn)足一定條件的客戶(hù)用于獲客,。
下面以譽(yù)存科技應(yīng)用知識(shí)圖譜做企業(yè)風(fēng)險(xiǎn)評(píng)估的項(xiàng)目為例來(lái)介紹
(譽(yù)存科技知識(shí)圖譜應(yīng)用流程)
1,、定義需求:落實(shí)到具體業(yè)務(wù)問(wèn)題,提出可視化需求,。如風(fēng)險(xiǎn)關(guān)系挖掘,、失信預(yù)測(cè)
2、數(shù)據(jù)收集和預(yù)處理:使用ETL+自然語(yǔ)言處理技術(shù),,整合海量結(jié)構(gòu)化數(shù)據(jù)+非結(jié)構(gòu)化數(shù)據(jù)
3,、知識(shí)圖譜設(shè)計(jì):定義實(shí)體,關(guān)系,,屬性
4,、知識(shí)圖譜存儲(chǔ)設(shè)計(jì):Neo4j
5、上層應(yīng)用開(kāi)發(fā):基于規(guī)則,,基于算法
企業(yè)關(guān)聯(lián)圖譜的展示:主體企業(yè),、關(guān)聯(lián)企業(yè)、董監(jiān)高法等關(guān)聯(lián)人的重要關(guān)系梳理,,圖譜化展示,。
(譽(yù)存科技企業(yè)關(guān)聯(lián)網(wǎng)絡(luò)圖)
基于企業(yè)知識(shí)圖譜的企業(yè)風(fēng)險(xiǎn)挖掘:基于規(guī)則
(風(fēng)險(xiǎn)鏈條展示)
未來(lái)風(fēng)險(xiǎn)預(yù)測(cè):基于機(jī)器學(xué)習(xí)算法或者傳導(dǎo)模型
基于網(wǎng)絡(luò)風(fēng)險(xiǎn)傳導(dǎo)模型的失信風(fēng)險(xiǎn)預(yù)測(cè):利用企業(yè)圖譜的拓?fù)浣Y(jié)構(gòu)+啟發(fā)式算法
結(jié)語(yǔ)
當(dāng)前,各大互聯(lián)網(wǎng)科技公司都紛紛創(chuàng)建了自己的知識(shí)庫(kù),。大數(shù)據(jù)和新算法為規(guī)?;R(shí)圖譜構(gòu)建提供了新的技術(shù)基礎(chǔ)和發(fā)展條件,,使得知識(shí)圖譜構(gòu)建的來(lái)源、方法和技術(shù)手段都發(fā)生極大的變化,。
與數(shù)據(jù)與量化強(qiáng)相關(guān)的金融行業(yè),,對(duì)知識(shí)圖譜技術(shù)更是抱著開(kāi)放、歡迎的態(tài)度,。許多思想領(lǐng)先,,對(duì)技術(shù)敏感的金融機(jī)構(gòu),通過(guò)積極與金融科技公司合作,,已成功將知識(shí)圖譜運(yùn)用于反欺詐、智能推薦,、智能風(fēng)控,、營(yíng)銷(xiāo)獲客等方面,搶先獲得了技術(shù)賦能的優(yōu)勢(shì)與價(jià)值,。未來(lái),,在金融領(lǐng)域,從精準(zhǔn)營(yíng)銷(xiāo),、風(fēng)險(xiǎn)預(yù)測(cè)到用戶(hù)決策,,知識(shí)圖譜的底層支撐性作用將越來(lái)越顯著。