GraphRAG 原理

1、當前框架簡述

    向量和圖譜是兩種重要的知識載體,當然大模型時代參數可能是更重要的載體,但是目前來講太大了,暫時還沒有端側的有效模型可用。

    向量的神奇之處在於它們各自以編碼形式捕獲了其對應文本的本質,向量的價值更多體現在相似度計算上,也就是你需要確定一段文本與另一段文本的相似度時。

    但是,如果你想理解向量內部的含義、瞭解文本中表示的事物、洞察其與更大規模語境的關係,那使用向量表示法就無能爲力了。

    相較之下,知識圖譜是以陳述式(declarative)的形式來表示世界 —— 用 AI 領域的術語來說,也就是符號式(symbolic)。因此,人類和機器都可以理解知識圖譜並基於其執行推理。

2、知名框架

2.1 算法框架

GraphRAG

    最早嘗試將 LLM 和 Graph 結合的框架來自微軟,他們 24 年 4 月提出 GraphRAG 大幅提升了大模型在大規模數據集上的理解與生成能力。其優勢包括拓展上下文視野、全局精準查詢、豐富摘要生成、優化算力與資源、強化檢索與生成協同以及提升複雜問題處理能力。

    4 天時間內迅速獲得了 6000 Stars,當前已經 2.3w。傳統 RAG 偏重局部文本匹配,忽略了整體數據的全面理解。GraphRAG 最核心的賣點就在於一定程度上解決了聚焦於查詢的總結性(QueryFocused Summarization, QFS)任務。通過使用 LLM 生成的知識圖譜,GraphRAG 可以大幅提升 RAG 的「檢索」部分,爲上下文窗口填入相關性更高的內容,從而得到更好的答案並獲取證據來源。

    舉一個來自 Writer 的例子,他們最近發佈了一份基於 RobustQA 框架的 RAG 基準評測報告,其中對比了他們的基於 GraphRAG 的方法與其它同類工具。GraphRAG 得到的分數是 86%,明顯優於其它方法(在 33% 到 76% 之間),同時還有相近或更好的延遲性能。

LightRAG

    港大在 24 年 10 月開源了 LightRAG,它不僅能夠全面理解實體之間的複雜關係,從而處理更復雜的問題,還大幅降低了大模型檢索增強系統的成本。LightRAG 利用全面的知識圖,促進快速且相關的文檔檢索,幫助用戶更深入地理解複雜查詢。其雙層檢索範式能夠提取具體和抽象的信息,以滿足多樣化的用戶需求。此外,LightRAG 的無縫增量更新功能確保系統能夠隨時響應新信息,保持長期的有效性。

   團隊從 UltraDomain Benchmark 中選擇了四個數據集。UltraDomain 數據來源於 428 本大學教科書,涵蓋 18 個不同領域,包括農業、社會科學和人文學科。在這些領域中,團隊選擇了農業、計算機科學、法律和混合領域的數據集。每個數據集包含 60 萬到 500 萬之間的 tokens。

    雖然 LightRAG 和 GraphRAG 都採用基於圖的檢索機制,但 LightRAG 在性能上始終優於 GraphRAG,尤其是在包含複雜語言上下文的大型數據集中。在農業、計算機科學和法律數據集中(每個數據集包含數百萬個 tokens),LightRAG 顯示出明顯的優勢,顯著超越 GraphRAG,突顯了其在多樣化環境中對信息全面理解的強大能力。

    隨着數據集規模的增加,這種性能差距尤爲明顯。例如,在最大的法律數據集中,差距顯著擴大,基線方法的勝率僅約爲 20%,而 LightRAG 佔據主導地位。這一趨勢突顯了圖增強 RAG 系統在捕捉大規模語料庫中複雜語義依賴關係的優勢,有助於更全面地理解知識並提升泛化性能。

2.2、工程化和解決方案

KAG

    在 2024 年 9 月外灘大會上,螞蟻集團帶來了知識圖譜與大模型結合最新研發成果 —— 知識增強大模型服務框架 KAG。

    螞蟻認爲在垂直領域落地的時候,大語言模型一定確保專業和可信,可信是大語言模型真正意義上落地的前提。KAG 框架在垂直領域的適用性得到了有效驗證。比如,支付寶最新推出的 AI 原生 App “支小寶” 採用這套框架,在政務問答場景的準確率提升到了 91%,醫療問答垂直的指標解讀準確率可達 90% 以上。

    在垂直領域,有很多知識在字面上不相似,但卻是很相關的。比如政策明確規定了五險一金的範圍,大模型不能對這些內容做胡亂生成,這就必須有一些預定義的領域知識和預定義的知識結構,來約束大模型的行爲,甚至給它提供一個更有效的知識注入,而這些都是模型在文本上不相似,但卻是強相關的。

    KAG 可控生成框架是基於開源系統 OpenSPG 升級,並且結合了螞蟻自研的圖數據庫 TuGraph-DB 的能力。TuGraph-DB 作爲 KAG 中知識圖譜 SPG 的底層圖引擎,爲 KAG 提供了高效的知識存儲與檢索能力。KAG 將抽取的知識存儲於 SPG 中,由 TuGraph-DB 提供圖存儲;在檢索流程中,SPG 通過 TuGraph-DB 的 Cypher 接口檢索與用戶提問相關的知識信息,並將結果反饋給大模型生成回答。
    KAG 框架針對大語言模型和圖譜的結合做了五方面的增強:分別是知識表示的增強、圖結構與文本互索引、符號引導的拆解和推理、基於概念的知識對齊、KAG Model。

SAC-KG

     24 年 10 月來自中科大 MIRA 實驗室研究人員提出一種全新的自動化知識圖譜構建通用框架 SAC-KG,利用大語言模型作爲領域知識圖譜的自動化構建專家,在給定領域語料的情況下,以自動化、精確性和可控性爲目標提取三元組。

    當使用 ChatGPT 作爲基礎模型時,SAC-KG 達到了 89.32% 的準確率和 81.25% 的領域特異性,相對於 SOTA 方法提升了 20%,實現了用 LLM 一鍵就能生成百萬級領域知識圖譜。

    SAC-KG 在這些傳統 OIE 基準數據集上,顯著優於現有的最先進方法。特別是,在與基於規則的方法(如 OpenIE6 和 StanfordOIE)和基於大規模語言模型的方法(如 DeepEx 和 PIVE)的比較中,SAC-KG 始終達到最佳結果,證明了其在傳統 OIE 任務中的有效性和魯棒性。

3、數據集

    Data Commons 是一個龐大的開源公共統計數據存儲庫,包含來自聯合國 (UN)、疾病控制與預防中心 (CDC) 、人口普查局、衛生部、環境機構、經濟部門、非政府組織和學術機構等可信來源的大量統計數據。目前,整個語料庫包含超過 2500 億個數據點和超過 2.5 萬億個三元組。

    阿里 & 浙大藏經閣:大規模開放數字商業知識圖譜 AliOpenKG,第一個版本已包含了超過 18 億的三元組,多達 67 萬的核心概念,2681 類關係,後面還將持續維護與擴展。

4、熱門應用方向

1)電影 / 歌曲推薦

2)關係圖譜風控 RAG 識別

3)知識的矛盾一致性

這些內容小編會在後續實戰中進一步描述...

5、業界案例

1)阿里小蜜

    比如說用戶問的是口紅,直播間內有多個口紅。我們就會展示出來給用戶進行瀏覽,當用戶點擊確認,選擇一個感興趣的口紅之後,我們就會從知識圖譜中抽取相應的圖片節點、文本節點以及屬性邊信息。

2)美團大腦

    2018 年,美團知識圖譜團隊開始構建美團大腦,着力於利用知識圖譜技術賦能業務,進一步改善用戶體驗。具體來說,美團大腦會對美團業務中涉及到的千萬級別商家、億級別的菜品 / 商品、數十億的用戶評論,以及背後百萬級別的場景進行深入的理解和結構化的知識建模,構建人、店、商品、場景之間的知識關聯,從而形成生活服務領域大規模的知識圖譜。現階段,美團大腦已覆蓋了數十億實體,數百億三元組,在餐飲、外賣、酒店、金融等場景中驗證了知識圖譜的有效性。

3)蝦皮

    蝦皮具有國際化特色,他們認爲電商分類是一個樹狀的結構,從最粗的粒度到最細的粒度,不同的分類中有不同的深度。以移動電子類爲例,在其下面又可以細分出可穿戴類的電子產品,在可穿戴類中又包括了移動手錶等等。

    對於細分品類,蝦皮會梳理出大家關心的屬性項和屬性值。以 T-shirt 爲例,消費者和平臺可能會比較關注 T-shirt 的品牌、材質等信息,這裏的品牌、材質是屬性項(Attribute Type)。我們會梳理出品牌、材質這些屬性項對應的具體屬性值(Attribute Value),比如材質裏面包含純棉 Cotten、真絲 Silk 等。通過類目(category),屬性項(Attribute Type),屬性值(Attribute Value)這樣一個組合體,就可以構建出商品知識圖譜的本體層,用這樣的本體來表達所有具體商品實體的信息。

參考文章

  1. sackg

https://mp.weixin.qq.com/s/FCDMhtMzMUTXjWNtZ02pUg

  1. lightRAG

https://mp.weixin.qq.com/s/gxlZUdPiRBRdSVgAeUsmJA

  1. kag

https://mp.weixin.qq.com/s/SPnfcSyTZQIJVCpsyYqwvA

  1. DataGamma

https://mp.weixin.qq.com/s/Fr8I9VwiyHcMnhrWMcgDeQ

  1. graphrag

https://mp.weixin.qq.com/s/2C1NpJt2tFwF4VVfoSiv2A

  1. alime

https://geek.zshipu.com/post / 互聯網 / 阿里小蜜多模態知識圖譜的構建及應用 /

  1. 美團知識圖譜

https://tech.meituan.com/2021/09/02/meituan-commodity-nlp-practice.html

8)蝦皮知識圖譜 DataFun 分享

https://uee.ai/373 / 電商知識圖譜建設及大模型應用探索 /

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/pS9B0BjRrBbEERTRgPYg-g