圖數據庫技術在金融風控中的應用
分享嘉賓:吳菁博士 創鄰科技 聯合創始人
編輯整理:王帥 金山雲
出品平臺:DataFunTalk
導讀: 隨着數字化、電子化的發展,犯罪份子日趨職業化、集團化、手段多樣化,金融風險日益呈現規模化、隱蔽性、動態變化的特徵,給金融機構帶來巨大的識別挑戰。隨着從聚焦單個客戶觀察到以全局視角進行觀察的轉變,新一代的金融風控要求金融機構具備全局、多維監控管理風險的能力—關聯分析。圖數據庫作爲輔助關聯分析的一個強有力的工具,已經從第一階段的 Neo4j 開始,經歷了具備高擴展的非原生分佈式存儲的 Janusgraph,到第三階段具有高擴展、運算快、智能化特點的 Galaxybase。
今天的介紹會圍繞下面四點展開:
-
現代金融風控的特徵與挑戰
-
圖數據庫技術簡介
-
圖數據庫在金融風控中的應用
-
Galaxybase 圖數據庫簡介
01 現代金融風控的特徵與挑戰
1. 金融風險的現代化特徵
首先介紹一個案例:2020 年 6 月 10 日上海市公安局對外披露了警方破獲的一起特大系列詐騙金融機構案,涉及 46 名犯罪嫌疑人。警方查實, 該犯罪團伙進行虛假交易, 非法套現 9700 餘萬元。
案例經過:犯罪團伙非法購買具有辦理信用卡資格的人員信息,並將其僞裝成某公司的虛擬 “員工” 爲其繳納社保;一段時間後, 填寫相關信用卡申請資料,待銀行卡申報下來,整個流程不到一個月即可完成。
金融風險的現代化特徵:隨着數字化、電子化的發展,犯罪份子越來越職業化、集團化、手段越來越多樣化,金融風險日益呈現規模化、隱蔽性、動態變化的特徵,給金融機構帶來巨大的識別挑戰。
2. 金融風控的痛點
①風險現狀:隱蔽性 X 動態性 X 規模性
②現有方法:專家規則 + 有監督機器學習 + 人工電審覈查
-
專家規則:業務員基於歷史信息,總結風控策略。
-
有監督機器學習:基於好樣本和壞樣本進行建模。
-
人工電審覈查:上述兩種方法以外,有經驗的業務員進行案件審覈。
③核心痛點:
-
個人信息易僞造,針對個體行爲、屬性特徵的評分規則,犯罪份子易識破繞開、難以發現團伙行爲,準確率低。
-
對標籤數據數量要求較高,黑樣本稀缺,易泄露、污染,使得學習效果差。
-
缺乏完整統一的用戶視圖,客戶信息散落在不同業務線的數據表中,整合分析對人工經驗要求高,耗時長、成本大。
3. 關聯分析
(1)關聯分析必要性
隨着從聚焦單個客戶觀察到以全局視角進行觀察的轉變,新一代的金融風控要求金融機構具備全局、多維監控管理風險的能力,該能力即爲關聯分析。關聯分析已經成爲當今環境下金融風控的底層核心能力。
在信息聯通、設備聯通、關係聯通,以及商業日益縱深整合的背景下,關聯是不可逆的趨勢。
關聯分析不僅存在於金融領域,在社交網絡、零售、電力、電信、政企、製造、網絡安全等生活的方方面面都存在。
(2)關聯分析難點
關聯分析,由於針對的是羣體,通常具有數據規模大、關聯鏈路複雜、實時性要求高等難點。
在此背景下,亟需新的技術突破關聯分析的難點,下面對圖數據庫進行介紹。
02 圖數據庫技術簡介
1. 基本概念
- 什麼是圖數據?
基於圖論以點(實體)和邊(關係)描述現實世界中個體和個體之間網絡關係的數據結構。
- 什麼是圖數據庫?
以點、邊爲基礎存儲單元,以高效存儲、查詢圖數據爲第一設計原理的數據管理系統。
下圖爲美國穆斯林黑幫組織的圖,圖中包含相關組織和人員,以及相關的資金和槍支交易,通過該圖可以去做恐怖分子挖掘分析。一張圖可以將複雜的現實問題展現出來,可謂之:“一圖勝過千言萬語”。
2. 數據庫技術的價值
(1)更貼近業務的數據模型
數據模型直觀還原業務場景,相比傳統數據模型複雜度極大降低,讓業務與技術的溝通效率極大提升。
上述的右圖採用圖數據庫模型,更加簡介直觀,而採用關係型的數據庫模型在建設和變更中都較爲複雜。
(2)更簡潔的查詢語言
讓代碼量極大下降,開發效率提升。
右圖展示了產品屬於某一個子品類,子品類可能還有母品類的關聯關係。在進行查詢時,如 “所有的奶製品有哪些?” 採用圖書庫的 Cypher 查詢,只需要一句話。而採用關係型的數據 SQL 查詢,涉及到多表的關聯查詢,較爲複雜。
(3)更高效的關聯查詢性能
複雜深度關聯查詢性能指數提升。
面對大規模業務的深鏈查詢,圖數據庫可以極大提高效率。
如上圖採用具有 7 萬個點,50 萬條邊(小於通常的金融領域使用的圖)的數據集,分別採用 MySQL 加索引查詢和圖數據庫 Galaxybase 進行查詢,對比結果可以看出,圖數據庫的查詢在 4 跳的時候已經比 MySQL 的快 1994 倍,在 5 跳的時候快幾萬倍。
03 圖數據庫在金融風控中的應用
1. 圖分析用於金融風控的社會學原理
圖技術應用與數據分析的底層社會學原理是 “物以類聚、人以羣分”,該法則同樣適用於金融領域。金融機構可以將其所擁有的各類數據,如灰黑名單、交易數據、客戶數據、設備數據、標籤數據等構建知識圖譜,從中找關係、找路徑、找羣體、找特徵,進而輔助業務人員實現業務應用,如身份識別、反洗錢、失聯修復等。
由於犯罪份子追求經濟效應,在團伙犯罪時,相同的犯罪資源會重複利用,比如在同一個地點用相同手機不同的身份證申請不同的信用卡,因此可以通過設備 ID、IP 地址、聯繫人手機等資源實體出發,由點到面,挖掘識別犯罪團伙。
2. 圖分析在金融風控的場景
(1)身份識別(Identity Resolution)
- 背景
銀行多條線業務數據間因數據收集時間不同、客戶筆誤、錄入 / 識別誤差等原因,存在矛盾 / 不一致,衆多聯繫人數據缺乏有效唯一標識,無法有效分析風控對象的信息全貌。
- 解決方案
通過使用圖計算找共同鄰居,分析兩點間的相似度,判斷數據唯一標識 / 推理數據關係。例如,通過相同的登錄設備、居住地址、定期的轉賬關係,推理李四與張三和黑名單用戶王五爲疑似親屬關係,並通過多種相同關係,推理王五與王六爲同一人。
(2)實際控制人挖掘
- 背景
企業及相關個人間具有錯綜複雜的控股關係,業務員很難看清全貌,以致系統性的不確定風險難以規避,導致銀行不敢貸,優質企業貸款難。
- 解決方案
整合行內外企業股權關係,構建股權關係圖譜,向上追溯企業股東及其出資比例,深度剖析企業的實際控制人 / 企業,以其爲資本系中心分析相關組成機構,實現利益集團 / 資本系全貌識別與分析,方便監管。
(3)社羣發現
①社羣發現(1)
- 背景
企業間具有錯綜複雜的交易、股權、擔保、共同相關人等多種關係將企業構建成了多種類別及形式的社羣。這些社團的發現對普惠業務部或企業信貸管理部門瞭解企業真實業態發現欺詐團伙至關重要。
- 解決方案
整合交易流水、客戶貸款、工商、徵信、司法等系統信息,構建全方位關聯網絡,利用社區發現等算法識別可疑 / 高風險企業社羣進行社羣畫像,計算羣內指標,識別重要風險節點,輔助客戶風險等級評定。
②社羣發現(2)
- 背景
金融風險會在其上下游企業生態中傳播,速度之快往往令監管機構措手不及,被動響應往往又爲時過晚。現有風控手段無法有效量化企業的系統性外部風險。
- 解決方案
企業中心度越高,在網絡中的重要程度越高,與其他企業的連通性越強、風險傳導性也越強。構建企業關聯圖譜,企業之間的交易、擔保、產業上下游關係等構件不同權重與類型的邊,通過中心度計算、標籤傳播等算法,可以爲每個企業在整體產業業態中的影響力與受影響程度評分,有助於監管者在風險放生前從源頭遏制風險,在社羣中其他企業發生風險風險時,及時防範。
(4)風險對沖
- 背景
投和研割裂,無法形成續性優化閉環過程。市場瞬息萬變,信息爆炸增長,各投研平臺通常羅列繁多的研報、企業、市場數據。數據間缺少有序整合,對數據的整合以及發掘關聯價值,有賴於研究人員的行業研究經驗與積累,研究知識與能力難以從個體複製到羣體。
- 解決方案
公司數據、行業數據、研報數據、指標數據、新聞媒體等多源數據整合,構建產業鏈圖譜,利用可視化產業鏈分析,尋找產業鏈與產業鏈之間、行業與行業之間、行業與產品之間、產品與公司之間的關係,量化分析這些關係之間的波動關係,尋找更加穩定的反響波動投資組合,實現高效風險對沖。
(5)信用卡申請反欺詐
- 背景
在信用卡申請過程中,個人信息及行爲容易被僞造,針對個體的評分規則易被識破,隱蔽欺詐團伙容易對銀行造成大量損失。
- 解決方案
整合行內銷售、審批、風控、電銷、交易、催收等系統的多源數據以及第三方數據,構建全方位用戶關聯網絡,利用多維交叉關聯信息深度刻畫申請和交易行爲,識別多種複雜的規模化、隱蔽性欺詐。
(6)信用卡養卡提額檢測
- 背景
有些人通過和商家合作,利用多個賬號來進行刷單,以達到僞造商家信用 / 銷售數據,或提升信用卡刷卡額度的目的。
- 解決方案
通過使用圖計算找特徵的技術,進行子圖匹配,發現類似的模式,並將對應的賬號及商戶標黑。
(7)對公信貸風險檢測
- 背景
外部企業分攤的客戶違約風險有可能會隨着擔保及上下游交易等關係轉移到目標客戶身上,除了自身經營能力,銀行需要對企業進行外在風險的評估。
- 解決方案
通過執行全圖遍歷,在複雜關係統網絡中識別出特定的有向連通網絡結構,檢測出互保、連環擔保等特殊擔保形態,預警當前信貸申請。
(8)反套現
- 背景
不良商家常常通過銀行卡、熟人來完成套現這個 “迴路”,純資金流的模式無法看出端倪。
- 解決方案
通過使用圖計算找關係的技術,尋找閉環關係,掃清套現 “死角”。
(9)貸後資金監控
- 背景
爲響應國家普惠金融戰略,支撐小微、個體戶實體經濟發展,銀行業推出了 “無需抵押、便捷高效、使用靈活” 便捷線上融資產品。但有些小微、個體戶沒有將貸來的錢用於生產經營,而是直接或間接流向投理財、證券、房地產、P2P 等違禁領域。
- 解決方案
基於圖技術關聯分析及深鏈查詢優勢,基於廣度優先遍歷算法及環路自圖發現算法,快速定位 3 跳及以上違規交易鏈條幾跨行、分拆回流等交易模式。
(10)失聯修復
- 背景
客戶數據被分散在各個不同業務線的大量表格中,一旦某個業務線的客戶失聯,信息查詢效率低下,增加了銀行壞賬率。
- 解決方案
構建 360 度全息客戶視圖,助力銀行基於客戶多維聯繫查找失聯客戶,完成失聯(客戶)修復,並進一步完成智能分類、傳達和差異化催收。
(11)反洗錢
- 背景
洗錢過程往往存在着通過多個核心賬戶進行深鏈轉賬行爲,將大額變爲小額,降低被識別的風險。
- 解決方案
利用圖技術的深鏈查詢性能,高效定位轉賬鏈路,分析資金流向,快速定位可疑洗錢賬戶。
3. 圖技術在金融風控場景的核心價值
①實時性
提高識別效率,在事前、事中及時發現風險,降低損失。
②準確率
發現傳統方法很難發現的規模型風險,提升準確率,降低誤殺率。
③樣本增益
增加黑樣本的維度與數量,反哺給現有業務,提升業務效果。
04 Galaxybase 圖數據庫簡介
1. 圖數據庫技術發展的三個階段
2. Galaxybase 簡介
Galaxybase 是一個國產高性能分佈式圖數據庫,具有如下特點:
-
速度快:原生分佈式並行圖存儲,毫秒級完成深鏈查詢,較同類技術百倍提升。
-
高擴展:完全分佈式架構,動態在線擴容,高效支持萬億級超級大圖。
-
實時計算:內置豐富分佈式圖算法、無 ETL 實現實時圖分析。
-
高效數據壓縮:優化資源利用,節省硬件和維護成本。
-
內核代碼 100% 自研、全自主可控、兼容國產底層軟硬件。
3. Galaxybase 圖數據庫優勢
(1)優異的深鏈查詢性能
與市場中其他的圖數據庫進行比較,Galaxybase 查詢速度最快,且查詢跳數越多,性能優勢越明顯。
注:N/A 爲超時報錯,沒有辦法返回結果。
(2)優異的交互式查詢及 BI 查詢性能
- LDBC-SNB 測試
LDBC 是迄今爲止國際上最完整的圖數據庫基準測試,能夠通過交互式查詢與模擬真實業務場景的 BI 查詢更全面的測試數據庫的性能。Galaxybase 的測試性能全球領先。
(3)優異的橫向擴展能力
Galaxybase 僅使用 50 臺機器集羣,實現了 5 萬億規模大圖分佈式存儲、實時在線查詢。創鄰科技打破了圖數據處理規模的世界紀錄(2021 年 Neo4j 使用 100 臺機器完成 1.2 萬億規模圖存儲查詢),涵蓋出入度最大超過 1000 萬的超級節點,六跳深鏈查詢平均耗時僅 6.7 秒。
(4)優秀的圖算法支持
Galaxybase 是首個信通院完成測評的圖計算平臺,涵蓋多類圖算法,如圖遍歷、路徑發現、社羣發現、相似度、中心性和子圖模式匹配等。
(5)完備的數據管理工具
通過可視化視窗對圖項目進行創建、搜索、排序、佈局,對圖數據的格式、名稱、來源進行管理;完備的權限管理系統可對不同用戶進行細化到屬性顆粒度的權限管理。
(6)簡易圖分析視窗
符合人類直覺的可視化展現與交互,從業務視角展現數據之間盤根錯節的關係,幫助終端用戶理解複雜關聯,發現隱藏線索,洞察真相。複雜關係網絡圖展現不卡頓,流暢查詢和探索。無需編程,通過直觀的拖拽操作完成高複雜度的分析挖掘。
(7)雲企創新生態
創鄰科技加入雲啓創新生態,與騰訊合作聯合推出高性能圖數據庫產品 TGDB,已在農行、交行、國家電網等超大型客戶場景中落地,TGDB 當前在墨天輪的圖數據庫類目中排名第一。
4. 標杆客戶與合作伙伴
今天的分享就到這裏,謝謝大家。
01 分享嘉賓
吳菁 博士
創鄰科技聯合創始人 & COO
浙江大學 計算機科學 本科
萊頓大學 ICT in Business 碩士
麥吉爾大學 信息系統 博士
博士期間,社交網絡理論研究獲加拿大國家科研基金評比第一名,一直從事商業社交網絡分析。創鄰科技聯合創始人,負責公司技術產品應用、戰略生態搭建及市場工作。
DataFun: 專注於大數據、人工智能技術應用的分享與交流。發起於 2017 年,在北京、上海、深圳、杭州等城市舉辦超過 100 + 線下和 100 + 線上沙龍、論壇及峯會,已邀請超過 2000 位專家和學者參與分享。其公衆號 DataFunTalk 累計生產原創文章 700+,百萬 + 閱讀,14 萬 + 精準粉絲。
本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源:https://mp.weixin.qq.com/s/PZbqxd17ZwILWXd5Ws0fvg