在社會網(wǎng)絡(luò)中,一個著名的理論是:
最多通過六個人,你就能夠認(rèn)識世界上的任何一個陌生人。如果把每個人看作實(shí)體,找出人與人之間的聯(lián)系,其中涉及的就是建設(shè)知識圖譜的技術(shù)。
通過知識圖譜的圖形化展示,可以很直觀地呈現(xiàn)人們錯綜復(fù)雜的社交關(guān)系。據(jù)說,這種技術(shù)曾經(jīng)用于情報部門反恐,并取得了良好的效果。今天,知識圖譜已經(jīng)從007的神秘技能演變?yōu)榻鹑诤诳萍?。這項金融黑科技真正應(yīng)用的起點(diǎn)在2012年,谷歌公司將其引入搜索引擎,用于改善搜索體驗。簡單地說,就是通過對網(wǎng)頁信息的爬取和分析,找出不同種類信息的內(nèi)在聯(lián)系,從“關(guān)系”的角度突破信息碎片化壁壘,提供包含關(guān)聯(lián)關(guān)系的搜索結(jié)果。
值得注意的是,金融領(lǐng)域由于對數(shù)據(jù)強(qiáng)烈的依賴性,被認(rèn)為是人工智能最適合落地的領(lǐng)域之一。海量的數(shù)據(jù)為人們更好地掌握與認(rèn)知事物規(guī)律,提供了越來越豐富的來源。
但是,由于非結(jié)構(gòu)化數(shù)據(jù)的急劇增長,對數(shù)據(jù)的分析與理解的要求已經(jīng)遠(yuǎn)遠(yuǎn)超過人類的生理極限,這對我們的分析手段提出了新的要求與挑戰(zhàn)。傳統(tǒng)的數(shù)據(jù)儲存方式將數(shù)據(jù)分門別類的存放,已經(jīng)很難適應(yīng)現(xiàn)實(shí)瞬息萬變的市場行情,無法滿足金融分析的實(shí)時性和全局性的要求。
金融知識圖譜是金融行業(yè)語義理解和知識搜索的關(guān)鍵性基礎(chǔ)技術(shù),可以為輿情監(jiān)控、知識發(fā)現(xiàn)和推理決策等提供技術(shù)支撐。因此,越來越多的金融機(jī)構(gòu)及企業(yè)在探索構(gòu)建金融領(lǐng)域的知識圖譜研究,將海量非結(jié)構(gòu)化信息自動化利用起來,為金融領(lǐng)域應(yīng)用決策提供更精準(zhǔn)可靠的依據(jù)。下面,我們做個詳細(xì)介紹。
什么是知識圖譜?
知識圖譜本質(zhì)上是一種語義網(wǎng)絡(luò),是基于圖的數(shù)據(jù)結(jié)構(gòu),以圖的方式存儲知識并向用戶返回經(jīng)過加工和推理的知識。它由“節(jié)點(diǎn)”和“邊”組成,節(jié)點(diǎn)表示現(xiàn)實(shí)世界中的“實(shí)體”,邊表示實(shí)體之間的“關(guān)系”。
一般來說,知識圖譜分為通用知識圖譜和領(lǐng)域知識圖譜。其中,通用知識圖譜主要由各大搜索引擎公司研究,以提高搜索準(zhǔn)確率,爭取直接給出目標(biāo)答案;而領(lǐng)域知識圖譜可根據(jù)領(lǐng)域特定的情況,提供各種針對性的應(yīng)用。
具體到金融領(lǐng)域,因為涉及到各行各業(yè),包含了經(jīng)濟(jì)、產(chǎn)業(yè)、公司等眾多方面的知識,所以金融知識圖譜相對于其他領(lǐng)域比較特別。具體來說,金融知識圖譜常見的實(shí)體包括:公司、產(chǎn)品、證券和人員等。實(shí)體間的關(guān)系包括:股權(quán)關(guān)系、任職關(guān)系、擔(dān)保關(guān)系、供應(yīng)商關(guān)系、競爭對手關(guān)系、生產(chǎn)關(guān)系、采購關(guān)系和上下游關(guān)系等(參見下圖)。其中,有些實(shí)體和關(guān)系,可以自動抽取生成,如股權(quán)關(guān)系和任職關(guān)系等,均可在工商局注冊登記平臺得到公開信息。而產(chǎn)品間的上下游關(guān)系則需要有系統(tǒng)性的數(shù)據(jù)源,這就給信息獲取和識別帶來了巨大的挑戰(zhàn)。
知識圖譜有什么特點(diǎn)?
知識圖譜可以最有效、最直觀地表達(dá)出實(shí)體間的關(guān)系。簡單地說,就是把大量不同種類的信息連接在一起而得到一個關(guān)系網(wǎng)絡(luò),為人們提供了從“關(guān)系”的角度分析問題的能力。
相對于傳統(tǒng)的描述方式,知識圖譜具有一些自身的特點(diǎn):
(1)多維度,需要從大量的信息源中抽取多維度的特征信息,為后續(xù)算法拓展深度關(guān)聯(lián)關(guān)系提供必要的素材;
(2)深加工,在信息素材的基礎(chǔ)上,通過智能推理實(shí)現(xiàn)從數(shù)據(jù)到智慧的深加工;
(3)可視化,深加工的結(jié)果以可視化的方式展現(xiàn)給用戶,并與用戶交互,直觀易懂。
假設(shè)我們用知識圖譜來描述一個事實(shí):“李四是張三的朋友”。這里的實(shí)體是張三和李四,關(guān)系是“朋友”。當(dāng)然,張三和李四也可能會跟其他人存在著某種類型的關(guān)系(如王五)。如果把電話號碼也作為節(jié)點(diǎn)加入到知識圖譜(電話號碼也是實(shí)體),人和電話之間也可以產(chǎn)生一種關(guān)系,即某個電話號碼是屬于某人。
由此可見,知識圖譜是基于圖的數(shù)據(jù)結(jié)構(gòu),它的存儲方式主要有兩種形式:圖數(shù)據(jù)庫和RDF存儲格式。在此,可以使用專業(yè)的工具進(jìn)行相關(guān)的工作。比如,neo4j在整個圖存儲領(lǐng)域里占據(jù)著重要的地位,在RDF領(lǐng)域里Jena是目前最為流行的存儲框架。
當(dāng)然,如果需要描述的實(shí)體維度較少,而且查詢時僅僅需要知道實(shí)體間簡單的關(guān)聯(lián)關(guān)系,那么使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫即可滿足要求。但是對于復(fù)雜的關(guān)系網(wǎng)絡(luò),知識圖譜的優(yōu)點(diǎn)非常顯著。首先,在關(guān)聯(lián)查詢的效率上,比傳統(tǒng)的存儲方式有顯著的提高,查詢效率甚至?xí)叱鰩浊П渡踔翈装偃f倍。其次,基于圖的存儲在設(shè)計上比關(guān)系型數(shù)據(jù)庫靈活,比如新的數(shù)據(jù)源只需在已有的圖譜上插入即可。
用知識圖譜可以做什么?
目前,知識圖譜的應(yīng)用在國內(nèi)還處于初始階段,但已經(jīng)在金融、醫(yī)療和電商等行業(yè)得到了廣泛的探索。特別在金融行業(yè)中,知識圖譜是一個重要的反欺詐手段。例如,基于大數(shù)據(jù)的分析把不同來源的各類數(shù)據(jù)整合在一起,有效地識別出團(tuán)體欺詐、身份造假、代辦包裝等欺詐行為。此外,還可應(yīng)用于行業(yè)風(fēng)險預(yù)測、對客戶的精準(zhǔn)營銷以及可視化展示等一些典型的領(lǐng)域。相信隨著研究的深入,還會有越來越多的應(yīng)用場景被發(fā)掘出來。下面,我們對已有應(yīng)用場景做一個詳細(xì)介紹。
(1)風(fēng)控反欺詐
反欺詐是風(fēng)控中非常重要的一道環(huán)節(jié),也是知識圖譜適合應(yīng)用的場景。反欺詐的核心是人,這就要求把與借款人相關(guān)的數(shù)據(jù)源打通,然后抽取該借款人的特征標(biāo)簽,從而將相關(guān)的信息整合成結(jié)構(gòu)化的知識圖譜。其中,不僅可以處理記錄借款人的基本信息,還可以把借款人日常生活中的消費(fèi)記錄、行為記錄、關(guān)系信息、網(wǎng)上瀏覽記錄等整合到知識圖譜里。在此基礎(chǔ)上,對該借款人的借貸風(fēng)險進(jìn)行分析和評估。
反欺詐的應(yīng)用不僅體現(xiàn)在貸前階段,還可以應(yīng)用在貸中階段,通過構(gòu)建已知的主要欺詐要素(如手機(jī)、設(shè)備、賬號和地域等)的關(guān)系圖譜,全方位了解借款人風(fēng)險數(shù)據(jù)的統(tǒng)計分析,對潛在的欺詐行為作出及時的反應(yīng)。當(dāng)然,這要求能夠獲得借款人全方位的各種類型的信息,并且利用機(jī)器學(xué)習(xí)和自然語言處理技術(shù)從數(shù)據(jù)中提取出符合圖譜規(guī)格的數(shù)據(jù)。
相比虛假身份的識別,組團(tuán)欺詐的發(fā)現(xiàn)難度更大。一般來說,團(tuán)體欺詐往往隱藏在非常復(fù)雜的關(guān)系網(wǎng)絡(luò)里,很難識別。只有把其中隱含的關(guān)系網(wǎng)絡(luò)梳理清楚,才有可能去分析出其中潛在的風(fēng)險。知識圖譜,因為天生用來描述關(guān)系網(wǎng)絡(luò),因而具備了分析組團(tuán)欺詐的便捷手段。
(2)風(fēng)險預(yù)測
基于多維度的數(shù)據(jù),從而建立起客戶、企業(yè)和行業(yè)間的知識圖譜,從行業(yè)關(guān)聯(lián)的角度預(yù)測行業(yè)或企業(yè)面臨的風(fēng)險。例如,通過對行業(yè)進(jìn)行細(xì)分,根據(jù)貸款信息、行業(yè)信息建立行業(yè)間的關(guān)系模型;通過機(jī)器學(xué)習(xí),可發(fā)現(xiàn)各個行業(yè)間的關(guān)聯(lián)度,如果某一行業(yè)發(fā)生了行業(yè)風(fēng)險或高風(fēng)險事件,根據(jù)關(guān)聯(lián)關(guān)系可以及時預(yù)測有潛在風(fēng)險的其他行業(yè)。從而可以幫助金融機(jī)構(gòu)做出預(yù)判,盡早地規(guī)避風(fēng)險。
除此以外,通過知識圖譜,也可以將行業(yè)和企業(yè)之間數(shù)據(jù)進(jìn)行連接,借助對行業(yè)的潛在風(fēng)險的預(yù)測,能夠及時發(fā)現(xiàn)與該行業(yè)風(fēng)險或系統(tǒng)性風(fēng)險相關(guān)聯(lián)的企業(yè)客戶。例如,某地區(qū)某行業(yè)連續(xù)出現(xiàn)了多筆逾期貸款,通過對行業(yè)和客戶的知識圖譜進(jìn)行分析,可以及時發(fā)現(xiàn)該地區(qū)相關(guān)行業(yè)存在潛在風(fēng)險的客戶。
(3)精準(zhǔn)營銷
優(yōu)秀的企業(yè)可以比競爭對手更有效地挖掘潛在客戶,其中起關(guān)鍵作用的是分析用戶和理解用戶。知識圖譜綜合了多個數(shù)據(jù)源,挖掘出實(shí)體之間的關(guān)系,從而對用戶的行為有更好的理解,能更好、更深入地理解用戶的需求,挖掘已有客戶的潛在需求,針對性地推送相關(guān)產(chǎn)品,更好地為客戶提供營銷服務(wù)。比如,市場經(jīng)理可以用知識圖譜來分析用戶之間的關(guān)系,發(fā)現(xiàn)共同的喜好,從而有針對性的對某一類人群制定營銷策略;如果對知識圖譜擴(kuò)展(如增加車輛信息、個人愛好、行為等),可以更加精準(zhǔn)地分析客戶行為,進(jìn)行精準(zhǔn)推送。
同樣,挖掘潛在客戶也是金融行業(yè)重點(diǎn)關(guān)注的工作。如果能夠通過全方位的數(shù)據(jù),精準(zhǔn)、迅速地找到相關(guān)業(yè)務(wù)的潛在客戶,對于提升銀行的業(yè)務(wù)會有很大的幫助?;阢y行客戶建立社交網(wǎng)絡(luò)知識圖譜,根據(jù)各種社交行為(如交往方式、頻次等)發(fā)現(xiàn)圖譜的關(guān)系模型,對客戶社交網(wǎng)中的相關(guān)主體(如親屬、朋友、同事、同學(xué)、陌生人等)進(jìn)行挖掘,評估關(guān)系緊密度。
以上的業(yè)務(wù)不僅可以針對個人客戶,還可以針對企業(yè)級客戶。例如,分析企業(yè)客戶的資金關(guān)系、法人關(guān)系、上下游投資關(guān)系、相似企業(yè)業(yè)務(wù)關(guān)系等,為企業(yè)推薦合適產(chǎn)品、服務(wù)。
(4)智能搜索和可視化
基于知識圖譜,我們也可以提供智能搜索和數(shù)據(jù)可視化服務(wù)。智能搜索的功能指的是,知識圖譜能夠在語義上擴(kuò)展用戶的搜索關(guān)鍵詞,從而返回更豐富、更全面的信息。比如,搜索某個人的身份證號,可以返回與這個人相關(guān)的所有歷史借款記錄、聯(lián)系人關(guān)系和其他相關(guān)的標(biāo)簽(如黑名單等)。這些結(jié)果可以用圖形網(wǎng)絡(luò)的方式展示,從而把復(fù)雜的信息以直觀明了的圖像呈現(xiàn)出來,讓使用者對隱藏信息的來龍去脈一目了然。
如何建設(shè)企業(yè)應(yīng)用的知識圖譜?
如果想要針對特定行業(yè)或企業(yè)建立知識圖譜,首先,需要分析行業(yè)特點(diǎn),創(chuàng)建統(tǒng)一的數(shù)據(jù)模型和視圖;然后,要對收集的各類行業(yè)數(shù)據(jù)進(jìn)行整合,并通過關(guān)聯(lián)計算找出數(shù)據(jù)間的關(guān)系,再使用圖數(shù)據(jù)庫保存及展示;最后,建立業(yè)務(wù)模型對數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),挖掘有價值的信息支撐業(yè)務(wù)場景。
具體到金融行業(yè),建立知識圖譜通常要經(jīng)歷三個主要步驟:
從海量的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)中識別金融實(shí)體;
根據(jù)業(yè)務(wù)需要,定義并識別金融實(shí)體間的各種關(guān)系,進(jìn)而生成知識圖譜;
定義并表達(dá)業(yè)務(wù)邏輯,通過在知識圖譜上實(shí)現(xiàn)各種具體任務(wù)來體現(xiàn)數(shù)據(jù)價值,如推理等,實(shí)現(xiàn)數(shù)據(jù)到智能的升華。
先來看第一個步驟:實(shí)體的識別是從文本中抽取出特定的實(shí)體信息,如時間、人物、地點(diǎn)、公司、產(chǎn)品等等,由此確定了知識圖譜中的點(diǎn)。
再來看第二個步驟:關(guān)系的識別則是指實(shí)體間的各種關(guān)系,如地理位置關(guān)系、雇傭關(guān)系、股權(quán)關(guān)系等等,這些關(guān)系確定了點(diǎn)與點(diǎn)之間的邊。需要說明的是,常用的抽取關(guān)系的方法有基于專家知識庫和基于機(jī)器學(xué)習(xí)等類型。其中,基于專家知識庫的方法是由行業(yè)專家構(gòu)筑大規(guī)模的領(lǐng)域知識庫,需要專家參與,一般耗時費(fèi)力,但是質(zhì)量相對比較可靠;機(jī)器學(xué)習(xí)的方法需要構(gòu)造特征向量形式的訓(xùn)練數(shù)據(jù),使用機(jī)器學(xué)習(xí)算法自動構(gòu)造。需要特別指出的是,對于非結(jié)構(gòu)化文本,實(shí)體識別和關(guān)系抽取需要基于自然語言處理算法,以及深度學(xué)習(xí)算法(例如,用詞向量的方式尋找近義詞,提高實(shí)體模糊識別的準(zhǔn)確度),這是一個反復(fù)迭代、不斷精進(jìn)的過程。
最后來看第三個步驟:推理能力是人類智能的重要特征,是由一個或幾個已知的前提推出結(jié)論的過程,也可以從已有的知識中發(fā)現(xiàn)隱含的知識。在推理的過程中,往往需要一些規(guī)則的支持,例如:從“某人甲”既是“企業(yè)A”的法人也是“企業(yè)B”的法人,可以推測出“企業(yè)A”和“企業(yè)B”之間的關(guān)聯(lián)關(guān)系。當(dāng)然,這里會涉及到概率的問題。當(dāng)信息量特別多的時候,如何把這些信息有效地與推理算法結(jié)合在一起是最關(guān)鍵、最有挑戰(zhàn)性的工作。常用的推理算法包括基于邏輯和基于分布式表示的方法。隨著深度學(xué)習(xí)在人工智能領(lǐng)域取得的突破,基于分布式表示的方法已成為目前研究的熱點(diǎn)。
此外,金融知識圖譜還包含了很多其他的形式,例如:A股的公司、港股和美股的公司,各種基本面的數(shù)據(jù)、行情的數(shù)據(jù)都在逐漸的知識圖譜化,還有公告數(shù)據(jù)、研報數(shù)據(jù)、以及工商數(shù)據(jù)等都是金融知識圖譜的分支。
知識圖譜應(yīng)用面臨哪些困難?
知識圖譜在工業(yè)界還沒有形成大規(guī)模的應(yīng)用,很多仍處于調(diào)研階段,主要原因在于很多企業(yè)對知識圖譜并不了解,或者理解不深。但從目前的趨勢可以預(yù)測,知識圖譜在未來幾年內(nèi)必將成為工業(yè)界的熱門工具。當(dāng)然,知識圖譜在實(shí)際應(yīng)用中仍然將面對很多的挑戰(zhàn)。
(1)數(shù)據(jù)的可訪問性。
數(shù)據(jù)處理的最大煩惱常常是無法得到數(shù)據(jù)。由于種種原因,數(shù)據(jù)往往無法得到充分的公開,被封閉在數(shù)據(jù)孤島上;或者僅僅被用書面的方式保存,無法用電子形式讀取處理,可訪問性不好。提高可訪問性的主要手段是把數(shù)據(jù)電子化和網(wǎng)絡(luò)化,可以方便地通過網(wǎng)絡(luò)鏈接和訪問。其中涉及的技術(shù)有:網(wǎng)絡(luò)爬蟲、PDF格式轉(zhuǎn)文本、圖片中的字符識別和文本清理等。最后,使用大家廣泛接受的傳輸協(xié)議,提供不同平臺間的兼容。
(2)數(shù)據(jù)的可發(fā)現(xiàn)性。
原始數(shù)據(jù)中往往存在很多的噪聲,例如,數(shù)據(jù)本身在收錄時有錯誤,必須被糾正;再如,數(shù)據(jù)會有冗余,同一家公司的名稱可能會有全名、縮寫名等形式,處理時被當(dāng)作不同的公司對待等。這些都會對后繼的數(shù)據(jù)處理造成干擾,降低數(shù)據(jù)的可發(fā)現(xiàn)性。
(3)數(shù)據(jù)的深層關(guān)系。
因為海量的數(shù)據(jù)已經(jīng)遠(yuǎn)遠(yuǎn)超出人類的處理能力,依靠人力無法發(fā)現(xiàn)在數(shù)據(jù)中隱藏的眾多關(guān)系。人類也許能從數(shù)據(jù)中最多找出幾百個維度,但是機(jī)器使用自然語言處理的技術(shù)可以識別成千上萬個維度,特別是關(guān)系抽取。此外,各種推理的方法也非常重要,通過推理規(guī)則可以發(fā)現(xiàn)隱藏得很深的聯(lián)系。
(4)領(lǐng)域知識的集成。
金融涉及多個行業(yè),可以分為上百個領(lǐng)域,這些領(lǐng)域都多少需要集成領(lǐng)域的專業(yè)知識。不管是投資還是制造,其中的主要概念、產(chǎn)品分類、市場競爭情況等都需要通過行業(yè)專家收集整理,并反映到領(lǐng)域知識庫中。其中需要的主要技術(shù)為:文檔篇章分割、中文分詞、實(shí)體提取及消歧、關(guān)系提取、規(guī)則庫建設(shè)等。金融領(lǐng)域中的征信、融資、資管、二級市場交易等都有具體的業(yè)務(wù)場景,都需要業(yè)務(wù)邏輯,這些邏輯在數(shù)據(jù)之上表現(xiàn)為模型,需要在基礎(chǔ)數(shù)據(jù)和領(lǐng)域知識的基礎(chǔ)上實(shí)現(xiàn)。
(5)策略的生成。
現(xiàn)有階段,機(jī)器在業(yè)務(wù)場景中還無法完全替代人類的作用,而是輔助人類作出價值判斷、風(fēng)險判斷,通過過往的案例或者既定的邏輯,為人類推薦可行的策略。在此,涉及到人工智能的方方面面:對用戶交互而言,有意圖理解、語言生成、用戶畫像匹配等;在業(yè)務(wù)層面,有邏輯生成、投資模型、風(fēng)險模型等;涉及的數(shù)據(jù)處理有規(guī)則提取、知識庫建設(shè),語義檢索、邏輯推理等。
最后,我們必須看到,金融和所有其他領(lǐng)域一樣,正在逐漸被人工智能滲透,人類將會越來越多地依靠機(jī)器的幫助,更加科學(xué)地決策。今天的金融輔助工具已經(jīng)可以提供大量的幫助,讓投資人更容易地獲得數(shù)據(jù)和分析層面的支持,大大提高工作的效率。而在整個技術(shù)鏈中,知識圖譜居于核心地位,這是自金融報表電子化以來又一次質(zhì)的飛躍。知識圖譜是金融數(shù)據(jù)分析從簡單的量化模型走向更為復(fù)雜的價值判斷和風(fēng)險評估必經(jīng)的一環(huán),把經(jīng)驗逐步變成可重用、可演化、可驗證、可傳播的知識模型,從而實(shí)現(xiàn)數(shù)據(jù)到智能的升華。