在社會網(wǎng)絡中,一個著名的理論是:
最多通過六個人,你就能夠認識世界上的任何一個陌生人。如果把每個人看作實體,找出人與人之間的聯(lián)系,其中涉及的就是建設知識圖譜的技術。
通過知識圖譜的圖形化展示,可以很直觀地呈現(xiàn)人們錯綜復雜的社交關系。據(jù)說,這種技術曾經(jīng)用于情報部門反恐,并取得了良好的效果。今天,知識圖譜已經(jīng)從007的神秘技能演變?yōu)榻鹑诤诳萍?。這項金融黑科技真正應用的起點在2012年,谷歌公司將其引入搜索引擎,用于改善搜索體驗。簡單地說,就是通過對網(wǎng)頁信息的爬取和分析,找出不同種類信息的內(nèi)在聯(lián)系,從“關系”的角度突破信息碎片化壁壘,提供包含關聯(lián)關系的搜索結果。
值得注意的是,金融領域由于對數(shù)據(jù)強烈的依賴性,被認為是人工智能最適合落地的領域之一。海量的數(shù)據(jù)為人們更好地掌握與認知事物規(guī)律,提供了越來越豐富的來源。
但是,由于非結構化數(shù)據(jù)的急劇增長,對數(shù)據(jù)的分析與理解的要求已經(jīng)遠遠超過人類的生理極限,這對我們的分析手段提出了新的要求與挑戰(zhàn)。傳統(tǒng)的數(shù)據(jù)儲存方式將數(shù)據(jù)分門別類的存放,已經(jīng)很難適應現(xiàn)實瞬息萬變的市場行情,無法滿足金融分析的實時性和全局性的要求。
金融知識圖譜是金融行業(yè)語義理解和知識搜索的關鍵性基礎技術,可以為輿情監(jiān)控、知識發(fā)現(xiàn)和推理決策等提供技術支撐。因此,越來越多的金融機構及企業(yè)在探索構建金融領域的知識圖譜研究,將海量非結構化信息自動化利用起來,為金融領域應用決策提供更精準可靠的依據(jù)。下面,我們做個詳細介紹。
什么是知識圖譜?
知識圖譜本質(zhì)上是一種語義網(wǎng)絡,是基于圖的數(shù)據(jù)結構,以圖的方式存儲知識并向用戶返回經(jīng)過加工和推理的知識。它由“節(jié)點”和“邊”組成,節(jié)點表示現(xiàn)實世界中的“實體”,邊表示實體之間的“關系”。
一般來說,知識圖譜分為通用知識圖譜和領域知識圖譜。其中,通用知識圖譜主要由各大搜索引擎公司研究,以提高搜索準確率,爭取直接給出目標答案;而領域知識圖譜可根據(jù)領域特定的情況,提供各種針對性的應用。
具體到金融領域,因為涉及到各行各業(yè),包含了經(jīng)濟、產(chǎn)業(yè)、公司等眾多方面的知識,所以金融知識圖譜相對于其他領域比較特別。具體來說,金融知識圖譜常見的實體包括:公司、產(chǎn)品、證券和人員等。實體間的關系包括:股權關系、任職關系、擔保關系、供應商關系、競爭對手關系、生產(chǎn)關系、采購關系和上下游關系等(參見下圖)。其中,有些實體和關系,可以自動抽取生成,如股權關系和任職關系等,均可在工商局注冊登記平臺得到公開信息。而產(chǎn)品間的上下游關系則需要有系統(tǒng)性的數(shù)據(jù)源,這就給信息獲取和識別帶來了巨大的挑戰(zhàn)。
知識圖譜有什么特點?
知識圖譜可以最有效、最直觀地表達出實體間的關系。簡單地說,就是把大量不同種類的信息連接在一起而得到一個關系網(wǎng)絡,為人們提供了從“關系”的角度分析問題的能力。
相對于傳統(tǒng)的描述方式,知識圖譜具有一些自身的特點:
(1)多維度,需要從大量的信息源中抽取多維度的特征信息,為后續(xù)算法拓展深度關聯(lián)關系提供必要的素材;
(2)深加工,在信息素材的基礎上,通過智能推理實現(xiàn)從數(shù)據(jù)到智慧的深加工;
(3)可視化,深加工的結果以可視化的方式展現(xiàn)給用戶,并與用戶交互,直觀易懂。
假設我們用知識圖譜來描述一個事實:“李四是張三的朋友”。這里的實體是張三和李四,關系是“朋友”。當然,張三和李四也可能會跟其他人存在著某種類型的關系(如王五)。如果把電話號碼也作為節(jié)點加入到知識圖譜(電話號碼也是實體),人和電話之間也可以產(chǎn)生一種關系,即某個電話號碼是屬于某人。
由此可見,知識圖譜是基于圖的數(shù)據(jù)結構,它的存儲方式主要有兩種形式:圖數(shù)據(jù)庫和RDF存儲格式。在此,可以使用專業(yè)的工具進行相關的工作。比如,neo4j在整個圖存儲領域里占據(jù)著重要的地位,在RDF領域里Jena是目前最為流行的存儲框架。
當然,如果需要描述的實體維度較少,而且查詢時僅僅需要知道實體間簡單的關聯(lián)關系,那么使用傳統(tǒng)的關系型數(shù)據(jù)庫即可滿足要求。但是對于復雜的關系網(wǎng)絡,知識圖譜的優(yōu)點非常顯著。首先,在關聯(lián)查詢的效率上,比傳統(tǒng)的存儲方式有顯著的提高,查詢效率甚至會高出幾千倍甚至幾百萬倍。其次,基于圖的存儲在設計上比關系型數(shù)據(jù)庫靈活,比如新的數(shù)據(jù)源只需在已有的圖譜上插入即可。
用知識圖譜可以做什么?
目前,知識圖譜的應用在國內(nèi)還處于初始階段,但已經(jīng)在金融、醫(yī)療和電商等行業(yè)得到了廣泛的探索。特別在金融行業(yè)中,知識圖譜是一個重要的反欺詐手段。例如,基于大數(shù)據(jù)的分析把不同來源的各類數(shù)據(jù)整合在一起,有效地識別出團體欺詐、身份造假、代辦包裝等欺詐行為。此外,還可應用于行業(yè)風險預測、對客戶的精準營銷以及可視化展示等一些典型的領域。相信隨著研究的深入,還會有越來越多的應用場景被發(fā)掘出來。下面,我們對已有應用場景做一個詳細介紹。
(1)風控反欺詐
反欺詐是風控中非常重要的一道環(huán)節(jié),也是知識圖譜適合應用的場景。反欺詐的核心是人,這就要求把與借款人相關的數(shù)據(jù)源打通,然后抽取該借款人的特征標簽,從而將相關的信息整合成結構化的知識圖譜。其中,不僅可以處理記錄借款人的基本信息,還可以把借款人日常生活中的消費記錄、行為記錄、關系信息、網(wǎng)上瀏覽記錄等整合到知識圖譜里。在此基礎上,對該借款人的借貸風險進行分析和評估。
反欺詐的應用不僅體現(xiàn)在貸前階段,還可以應用在貸中階段,通過構建已知的主要欺詐要素(如手機、設備、賬號和地域等)的關系圖譜,全方位了解借款人風險數(shù)據(jù)的統(tǒng)計分析,對潛在的欺詐行為作出及時的反應。當然,這要求能夠獲得借款人全方位的各種類型的信息,并且利用機器學習和自然語言處理技術從數(shù)據(jù)中提取出符合圖譜規(guī)格的數(shù)據(jù)。
相比虛假身份的識別,組團欺詐的發(fā)現(xiàn)難度更大。一般來說,團體欺詐往往隱藏在非常復雜的關系網(wǎng)絡里,很難識別。只有把其中隱含的關系網(wǎng)絡梳理清楚,才有可能去分析出其中潛在的風險。知識圖譜,因為天生用來描述關系網(wǎng)絡,因而具備了分析組團欺詐的便捷手段。
(2)風險預測
基于多維度的數(shù)據(jù),從而建立起客戶、企業(yè)和行業(yè)間的知識圖譜,從行業(yè)關聯(lián)的角度預測行業(yè)或企業(yè)面臨的風險。例如,通過對行業(yè)進行細分,根據(jù)貸款信息、行業(yè)信息建立行業(yè)間的關系模型;通過機器學習,可發(fā)現(xiàn)各個行業(yè)間的關聯(lián)度,如果某一行業(yè)發(fā)生了行業(yè)風險或高風險事件,根據(jù)關聯(lián)關系可以及時預測有潛在風險的其他行業(yè)。從而可以幫助金融機構做出預判,盡早地規(guī)避風險。
除此以外,通過知識圖譜,也可以將行業(yè)和企業(yè)之間數(shù)據(jù)進行連接,借助對行業(yè)的潛在風險的預測,能夠及時發(fā)現(xiàn)與該行業(yè)風險或系統(tǒng)性風險相關聯(lián)的企業(yè)客戶。例如,某地區(qū)某行業(yè)連續(xù)出現(xiàn)了多筆逾期貸款,通過對行業(yè)和客戶的知識圖譜進行分析,可以及時發(fā)現(xiàn)該地區(qū)相關行業(yè)存在潛在風險的客戶。
(3)精準營銷
優(yōu)秀的企業(yè)可以比競爭對手更有效地挖掘潛在客戶,其中起關鍵作用的是分析用戶和理解用戶。知識圖譜綜合了多個數(shù)據(jù)源,挖掘出實體之間的關系,從而對用戶的行為有更好的理解,能更好、更深入地理解用戶的需求,挖掘已有客戶的潛在需求,針對性地推送相關產(chǎn)品,更好地為客戶提供營銷服務。比如,市場經(jīng)理可以用知識圖譜來分析用戶之間的關系,發(fā)現(xiàn)共同的喜好,從而有針對性的對某一類人群制定營銷策略;如果對知識圖譜擴展(如增加車輛信息、個人愛好、行為等),可以更加精準地分析客戶行為,進行精準推送。
同樣,挖掘潛在客戶也是金融行業(yè)重點關注的工作。如果能夠通過全方位的數(shù)據(jù),精準、迅速地找到相關業(yè)務的潛在客戶,對于提升銀行的業(yè)務會有很大的幫助?;阢y行客戶建立社交網(wǎng)絡知識圖譜,根據(jù)各種社交行為(如交往方式、頻次等)發(fā)現(xiàn)圖譜的關系模型,對客戶社交網(wǎng)中的相關主體(如親屬、朋友、同事、同學、陌生人等)進行挖掘,評估關系緊密度。
以上的業(yè)務不僅可以針對個人客戶,還可以針對企業(yè)級客戶。例如,分析企業(yè)客戶的資金關系、法人關系、上下游投資關系、相似企業(yè)業(yè)務關系等,為企業(yè)推薦合適產(chǎn)品、服務。
(4)智能搜索和可視化
基于知識圖譜,我們也可以提供智能搜索和數(shù)據(jù)可視化服務。智能搜索的功能指的是,知識圖譜能夠在語義上擴展用戶的搜索關鍵詞,從而返回更豐富、更全面的信息。比如,搜索某個人的身份證號,可以返回與這個人相關的所有歷史借款記錄、聯(lián)系人關系和其他相關的標簽(如黑名單等)。這些結果可以用圖形網(wǎng)絡的方式展示,從而把復雜的信息以直觀明了的圖像呈現(xiàn)出來,讓使用者對隱藏信息的來龍去脈一目了然。
如何建設企業(yè)應用的知識圖譜?
如果想要針對特定行業(yè)或企業(yè)建立知識圖譜,首先,需要分析行業(yè)特點,創(chuàng)建統(tǒng)一的數(shù)據(jù)模型和視圖;然后,要對收集的各類行業(yè)數(shù)據(jù)進行整合,并通過關聯(lián)計算找出數(shù)據(jù)間的關系,再使用圖數(shù)據(jù)庫保存及展示;最后,建立業(yè)務模型對數(shù)據(jù)進行機器學習,挖掘有價值的信息支撐業(yè)務場景。
具體到金融行業(yè),建立知識圖譜通常要經(jīng)歷三個主要步驟:
從海量的結構化、非結構化數(shù)據(jù)中識別金融實體;
根據(jù)業(yè)務需要,定義并識別金融實體間的各種關系,進而生成知識圖譜;
定義并表達業(yè)務邏輯,通過在知識圖譜上實現(xiàn)各種具體任務來體現(xiàn)數(shù)據(jù)價值,如推理等,實現(xiàn)數(shù)據(jù)到智能的升華。
先來看第一個步驟:實體的識別是從文本中抽取出特定的實體信息,如時間、人物、地點、公司、產(chǎn)品等等,由此確定了知識圖譜中的點。
再來看第二個步驟:關系的識別則是指實體間的各種關系,如地理位置關系、雇傭關系、股權關系等等,這些關系確定了點與點之間的邊。需要說明的是,常用的抽取關系的方法有基于專家知識庫和基于機器學習等類型。其中,基于專家知識庫的方法是由行業(yè)專家構筑大規(guī)模的領域知識庫,需要專家參與,一般耗時費力,但是質(zhì)量相對比較可靠;機器學習的方法需要構造特征向量形式的訓練數(shù)據(jù),使用機器學習算法自動構造。需要特別指出的是,對于非結構化文本,實體識別和關系抽取需要基于自然語言處理算法,以及深度學習算法(例如,用詞向量的方式尋找近義詞,提高實體模糊識別的準確度),這是一個反復迭代、不斷精進的過程。
最后來看第三個步驟:推理能力是人類智能的重要特征,是由一個或幾個已知的前提推出結論的過程,也可以從已有的知識中發(fā)現(xiàn)隱含的知識。在推理的過程中,往往需要一些規(guī)則的支持,例如:從“某人甲”既是“企業(yè)A”的法人也是“企業(yè)B”的法人,可以推測出“企業(yè)A”和“企業(yè)B”之間的關聯(lián)關系。當然,這里會涉及到概率的問題。當信息量特別多的時候,如何把這些信息有效地與推理算法結合在一起是最關鍵、最有挑戰(zhàn)性的工作。常用的推理算法包括基于邏輯和基于分布式表示的方法。隨著深度學習在人工智能領域取得的突破,基于分布式表示的方法已成為目前研究的熱點。
此外,金融知識圖譜還包含了很多其他的形式,例如:A股的公司、港股和美股的公司,各種基本面的數(shù)據(jù)、行情的數(shù)據(jù)都在逐漸的知識圖譜化,還有公告數(shù)據(jù)、研報數(shù)據(jù)、以及工商數(shù)據(jù)等都是金融知識圖譜的分支。
知識圖譜應用面臨哪些困難?
知識圖譜在工業(yè)界還沒有形成大規(guī)模的應用,很多仍處于調(diào)研階段,主要原因在于很多企業(yè)對知識圖譜并不了解,或者理解不深。但從目前的趨勢可以預測,知識圖譜在未來幾年內(nèi)必將成為工業(yè)界的熱門工具。當然,知識圖譜在實際應用中仍然將面對很多的挑戰(zhàn)。
(1)數(shù)據(jù)的可訪問性。
數(shù)據(jù)處理的最大煩惱常常是無法得到數(shù)據(jù)。由于種種原因,數(shù)據(jù)往往無法得到充分的公開,被封閉在數(shù)據(jù)孤島上;或者僅僅被用書面的方式保存,無法用電子形式讀取處理,可訪問性不好。提高可訪問性的主要手段是把數(shù)據(jù)電子化和網(wǎng)絡化,可以方便地通過網(wǎng)絡鏈接和訪問。其中涉及的技術有:網(wǎng)絡爬蟲、PDF格式轉文本、圖片中的字符識別和文本清理等。最后,使用大家廣泛接受的傳輸協(xié)議,提供不同平臺間的兼容。
(2)數(shù)據(jù)的可發(fā)現(xiàn)性。
原始數(shù)據(jù)中往往存在很多的噪聲,例如,數(shù)據(jù)本身在收錄時有錯誤,必須被糾正;再如,數(shù)據(jù)會有冗余,同一家公司的名稱可能會有全名、縮寫名等形式,處理時被當作不同的公司對待等。這些都會對后繼的數(shù)據(jù)處理造成干擾,降低數(shù)據(jù)的可發(fā)現(xiàn)性。
(3)數(shù)據(jù)的深層關系。
因為海量的數(shù)據(jù)已經(jīng)遠遠超出人類的處理能力,依靠人力無法發(fā)現(xiàn)在數(shù)據(jù)中隱藏的眾多關系。人類也許能從數(shù)據(jù)中最多找出幾百個維度,但是機器使用自然語言處理的技術可以識別成千上萬個維度,特別是關系抽取。此外,各種推理的方法也非常重要,通過推理規(guī)則可以發(fā)現(xiàn)隱藏得很深的聯(lián)系。
(4)領域知識的集成。
金融涉及多個行業(yè),可以分為上百個領域,這些領域都多少需要集成領域的專業(yè)知識。不管是投資還是制造,其中的主要概念、產(chǎn)品分類、市場競爭情況等都需要通過行業(yè)專家收集整理,并反映到領域知識庫中。其中需要的主要技術為:文檔篇章分割、中文分詞、實體提取及消歧、關系提取、規(guī)則庫建設等。金融領域中的征信、融資、資管、二級市場交易等都有具體的業(yè)務場景,都需要業(yè)務邏輯,這些邏輯在數(shù)據(jù)之上表現(xiàn)為模型,需要在基礎數(shù)據(jù)和領域知識的基礎上實現(xiàn)。
(5)策略的生成。
現(xiàn)有階段,機器在業(yè)務場景中還無法完全替代人類的作用,而是輔助人類作出價值判斷、風險判斷,通過過往的案例或者既定的邏輯,為人類推薦可行的策略。在此,涉及到人工智能的方方面面:對用戶交互而言,有意圖理解、語言生成、用戶畫像匹配等;在業(yè)務層面,有邏輯生成、投資模型、風險模型等;涉及的數(shù)據(jù)處理有規(guī)則提取、知識庫建設,語義檢索、邏輯推理等。
最后,我們必須看到,金融和所有其他領域一樣,正在逐漸被人工智能滲透,人類將會越來越多地依靠機器的幫助,更加科學地決策。今天的金融輔助工具已經(jīng)可以提供大量的幫助,讓投資人更容易地獲得數(shù)據(jù)和分析層面的支持,大大提高工作的效率。而在整個技術鏈中,知識圖譜居于核心地位,這是自金融報表電子化以來又一次質(zhì)的飛躍。知識圖譜是金融數(shù)據(jù)分析從簡單的量化模型走向更為復雜的價值判斷和風險評估必經(jīng)的一環(huán),把經(jīng)驗逐步變成可重用、可演化、可驗證、可傳播的知識模型,從而實現(xiàn)數(shù)據(jù)到智能的升華。