GraphRAG 原理

1、當前框架簡述

向量和圖譜是兩種重要的知識載體，當然大模型時代參數可能是更重要的載體，但是目前來講太大了，暫時還沒有端側的有效模型可用。

向量的神奇之處在於它們各自以編碼形式捕獲了其對應文本的本質，向量的價值更多體現在相似度計算上，也就是你需要確定一段文本與另一段文本的相似度時。

但是，如果你想理解向量內部的含義、瞭解文本中表示的事物、洞察其與更大規模語境的關係，那使用向量表示法就無能爲力了。

相較之下，知識圖譜是以陳述式（declarative）的形式來表示世界 —— 用 AI 領域的術語來說，也就是符號式（symbolic）。因此，人類和機器都可以理解知識圖譜並基於其執行推理。

2、知名框架

2.1 算法框架

GraphRAG

最早嘗試將 LLM 和 Graph 結合的框架來自微軟，他們 24 年 4 月提出 GraphRAG 大幅提升了大模型在大規模數據集上的理解與生成能力。其優勢包括拓展上下文視野、全局精準查詢、豐富摘要生成、優化算力與資源、強化檢索與生成協同以及提升複雜問題處理能力。

4 天時間內迅速獲得了 6000 Stars，當前已經 2.3w。傳統 RAG 偏重局部文本匹配，忽略了整體數據的全面理解。GraphRAG 最核心的賣點就在於一定程度上解決了聚焦於查詢的總結性（QueryFocused Summarization, QFS）任務。通過使用 LLM 生成的知識圖譜，GraphRAG 可以大幅提升 RAG 的「檢索」部分，爲上下文窗口填入相關性更高的內容，從而得到更好的答案並獲取證據來源。

舉一個來自 Writer 的例子，他們最近發佈了一份基於 RobustQA 框架的 RAG 基準評測報告，其中對比了他們的基於 GraphRAG 的方法與其它同類工具。GraphRAG 得到的分數是 86%，明顯優於其它方法（在 33% 到 76% 之間），同時還有相近或更好的延遲性能。

LightRAG

港大在 24 年 10 月開源了 LightRAG，它不僅能夠全面理解實體之間的複雜關係，從而處理更復雜的問題，還大幅降低了大模型檢索增強系統的成本。LightRAG 利用全面的知識圖，促進快速且相關的文檔檢索，幫助用戶更深入地理解複雜查詢。其雙層檢索範式能夠提取具體和抽象的信息，以滿足多樣化的用戶需求。此外，LightRAG 的無縫增量更新功能確保系統能夠隨時響應新信息，保持長期的有效性。

團隊從 UltraDomain Benchmark 中選擇了四個數據集。UltraDomain 數據來源於 428 本大學教科書，涵蓋 18 個不同領域，包括農業、社會科學和人文學科。在這些領域中，團隊選擇了農業、計算機科學、法律和混合領域的數據集。每個數據集包含 60 萬到 500 萬之間的 tokens。

雖然 LightRAG 和 GraphRAG 都採用基於圖的檢索機制，但 LightRAG 在性能上始終優於 GraphRAG，尤其是在包含複雜語言上下文的大型數據集中。在農業、計算機科學和法律數據集中（每個數據集包含數百萬個 tokens），LightRAG 顯示出明顯的優勢，顯著超越 GraphRAG，突顯了其在多樣化環境中對信息全面理解的強大能力。

隨着數據集規模的增加，這種性能差距尤爲明顯。例如，在最大的法律數據集中，差距顯著擴大，基線方法的勝率僅約爲 20%，而 LightRAG 佔據主導地位。這一趨勢突顯了圖增強 RAG 系統在捕捉大規模語料庫中複雜語義依賴關係的優勢，有助於更全面地理解知識並提升泛化性能。

2.2、工程化和解決方案

KAG

在 2024 年 9 月外灘大會上，螞蟻集團帶來了知識圖譜與大模型結合最新研發成果 —— 知識增強大模型服務框架 KAG。

螞蟻認爲在垂直領域落地的時候，大語言模型一定確保專業和可信，可信是大語言模型真正意義上落地的前提。KAG 框架在垂直領域的適用性得到了有效驗證。比如，支付寶最新推出的 AI 原生 App “支小寶” 採用這套框架，在政務問答場景的準確率提升到了 91%，醫療問答垂直的指標解讀準確率可達 90% 以上。

在垂直領域，有很多知識在字面上不相似，但卻是很相關的。比如政策明確規定了五險一金的範圍，大模型不能對這些內容做胡亂生成，這就必須有一些預定義的領域知識和預定義的知識結構，來約束大模型的行爲，甚至給它提供一個更有效的知識注入，而這些都是模型在文本上不相似，但卻是強相關的。

KAG 可控生成框架是基於開源系統 OpenSPG 升級，並且結合了螞蟻自研的圖數據庫 TuGraph-DB 的能力。TuGraph-DB 作爲 KAG 中知識圖譜 SPG 的底層圖引擎，爲 KAG 提供了高效的知識存儲與檢索能力。KAG 將抽取的知識存儲於 SPG 中，由 TuGraph-DB 提供圖存儲；在檢索流程中，SPG 通過 TuGraph-DB 的 Cypher 接口檢索與用戶提問相關的知識信息，並將結果反饋給大模型生成回答。
KAG 框架針對大語言模型和圖譜的結合做了五方面的增強：分別是知識表示的增強、圖結構與文本互索引、符號引導的拆解和推理、基於概念的知識對齊、KAG Model。

SAC-KG

24 年 10 月來自中科大 MIRA 實驗室研究人員提出一種全新的自動化知識圖譜構建通用框架 SAC-KG，利用大語言模型作爲領域知識圖譜的自動化構建專家，在給定領域語料的情況下，以自動化、精確性和可控性爲目標提取三元組。

當使用 ChatGPT 作爲基礎模型時，SAC-KG 達到了 89.32% 的準確率和 81.25% 的領域特異性，相對於 SOTA 方法提升了 20%，實現了用 LLM 一鍵就能生成百萬級領域知識圖譜。

SAC-KG 在這些傳統 OIE 基準數據集上，顯著優於現有的最先進方法。特別是，在與基於規則的方法（如 OpenIE6 和 StanfordOIE）和基於大規模語言模型的方法（如 DeepEx 和 PIVE）的比較中，SAC-KG 始終達到最佳結果，證明了其在傳統 OIE 任務中的有效性和魯棒性。

3、數據集

Data Commons 是一個龐大的開源公共統計數據存儲庫，包含來自聯合國 (UN)、疾病控制與預防中心 (CDC) 、人口普查局、衛生部、環境機構、經濟部門、非政府組織和學術機構等可信來源的大量統計數據。目前，整個語料庫包含超過 2500 億個數據點和超過 2.5 萬億個三元組。

阿里 & 浙大藏經閣：大規模開放數字商業知識圖譜 AliOpenKG，第一個版本已包含了超過 18 億的三元組，多達 67 萬的核心概念，2681 類關係，後面還將持續維護與擴展。

4、熱門應用方向

1）電影 / 歌曲推薦

構建基於關係的推薦圖譜
利用圖遍歷算法發現相似內容
考慮多種關係類型的權重

2）關係圖譜風控 RAG 識別

構建實體關係網絡
識別可疑的關係模式
計算風險傳播路徑

3）知識的矛盾一致性

存儲知識三元組
檢測矛盾的知識陳述
考慮置信度權重

這些內容小編會在後續實戰中進一步描述...

5、業界案例

1）阿里小蜜

比如說用戶問的是口紅，直播間內有多個口紅。我們就會展示出來給用戶進行瀏覽，當用戶點擊確認，選擇一個感興趣的口紅之後，我們就會從知識圖譜中抽取相應的圖片節點、文本節點以及屬性邊信息。

2）美團大腦

2018 年，美團知識圖譜團隊開始構建美團大腦，着力於利用知識圖譜技術賦能業務，進一步改善用戶體驗。具體來說，美團大腦會對美團業務中涉及到的千萬級別商家、億級別的菜品 / 商品、數十億的用戶評論，以及背後百萬級別的場景進行深入的理解和結構化的知識建模，構建人、店、商品、場景之間的知識關聯，從而形成生活服務領域大規模的知識圖譜。現階段，美團大腦已覆蓋了數十億實體，數百億三元組，在餐飲、外賣、酒店、金融等場景中驗證了知識圖譜的有效性。

3）蝦皮

蝦皮具有國際化特色，他們認爲電商分類是一個樹狀的結構，從最粗的粒度到最細的粒度，不同的分類中有不同的深度。以移動電子類爲例，在其下面又可以細分出可穿戴類的電子產品，在可穿戴類中又包括了移動手錶等等。

對於細分品類，蝦皮會梳理出大家關心的屬性項和屬性值。以 T-shirt 爲例，消費者和平臺可能會比較關注 T-shirt 的品牌、材質等信息，這裏的品牌、材質是屬性項（Attribute Type)。我們會梳理出品牌、材質這些屬性項對應的具體屬性值（Attribute Value），比如材質裏面包含純棉 Cotten、真絲 Silk 等。通過類目（category），屬性項（Attribute Type），屬性值（Attribute Value）這樣一個組合體，就可以構建出商品知識圖譜的本體層，用這樣的本體來表達所有具體商品實體的信息。

參考文章