大模型知識圖譜GraphRAG才是未來? 原創 精華
在大模型浪潮中,知識圖譜與RAG的結合(GraphRAG)正展現出超越傳統扁平化RAG的巨大潛力,它很可能代表著未來的發展方向。
一、傳統 RAG
傳統RAG是一個擁有優秀記憶,但缺乏邏輯的助手,它將文檔切分成片段,為每個片段創建向量索引。當用戶提問時,它通過語義相似度檢索出最相關的幾個片段,然后交給大模型生成答案。它的核心局限在于:
- “碎片化”理解:文檔被切分后,篇章級的邏輯結構、實體間的深層次關系隨之丟失。它能看到“樹木”,卻難以看清“森林”。
- 無法進行復雜推理:對于需要串聯多個知識點的問題,傳統RAG顯得力不從心。
- 示例問題:“公司去年在亞太區的業務增長,主要受到了哪些政策的影響?”
- 傳統RAG的困境:它可能分別檢索到“亞太區業務增長”的段落和“某項政策”的段落,但由于檢索是獨立的,它很難自動建立兩者之間的因果關聯,除非原文明確同時提到了這兩者。
- 對長上下文和多跳問題效果不佳:對于需要聯系文檔前后來回推理(多跳推理)的問題,傳統RAG的檢索機制很容易中斷推理鏈。

傳統 RAG 技術在某些場景下,可能存在以下幾個問題,即使使用高級 RAG 方法通常也較難克服。
1. 效率問題:基于向量的搜索方法采用數學方法,如聚類,樹形結構或 HNSW 等近似最近鄰算法,這些方法在處理極高維度數據,或非常復雜的信息結構時效果不好。另外,ANN 搜索算法如 HNSW 雖然可以提高效率,但構建和維護索引通常需要大量的計算資源。
2. 可解釋性:文本 Embedding 后的向量,可解釋性很低。RAG 檢索后得到的向量只關注文本的片段,而表示文本片段的向量是數字數組,沒有直接的可解釋性,無法通過觀察向量中的具體數字理解文本內容。
3. 整體理解受限:RAG 檢索到的內容(向量塊)雖然來自數據庫中所包含的文檔,但這些內容相關的上下文卻不一定包含在答案中,導致其無法對問題、答案以及文檔形成整體理解。
4. 數值與文本:基于向量的檢索,同時處理包含文本和數字的數據時準確度不高。向量數據庫中,文本和數值型數據的特征和表示方法不同,系統會在處理中混淆這兩種類型的數據(文本經過 Embedding 轉化為向量,而數值型數據則可能直接使用或經過標準化后使用)。
5.工程挑戰:RAG 系統涉及包含檢索、排序、生成等多個組件,確保各組件之間的數據無礙傳輸、接口統一,以及如何高效地集成和優化這些組件,是一個巨大的工程挑戰。
二、Graph RAG
1. Knowledge Graph
GraphRAG是一個既博學又善思的專家,先利用大模型從非結構化數據中抽取知識,構建一個結構化的知識圖譜,然后基于這個圖譜進行檢索和推理。它通常包含兩個階段:
階段一:知識圖譜構建
- 使用大模型從整個文檔庫中系統性地抽取實體、關系和屬性,構建一個富含語義的圖結構。
- 例如:從公司報告中抽取?
?(公司A)-[收購]->(公司B)??、??(政策C)-[促進]->(行業D)?? 這樣的三元組。
階段二:圖譜增強的檢索與生成
- 當用戶提問時,系統不是去搜索文本片段,而是在知識圖譜上進行查詢、遍歷和推理,找到相關的子圖或路徑,再將這個結構化的信息與大模型強大的生成能力結合,產出答案
Graph RAG 是一個用來表示實體及其相互關系的結構化圖形數據模型。在 Graph 中,節點(Nodes) 代表實體如人、地點、事件等;邊(Edges)則代表這些實體之間的關系,(如人物關系、地理位置等)。

2. 知識的兩種表示方法:Vectors & Graphs
從人的視角,向量的視角,以及 Graph 的視角,來看一個“蘋果:人對“蘋果”的理解是復雜的,并非僅從字面捕捉。我們的大腦會為這個蘋果賦予想象,從而產生一種果香誘人、甜美可口之感。這是“蘋果”這個詞在人類感知與概念上的結合體。
向量“蘋果”的表示則是一組數字,這組數字以編碼的形式表征了相應文本的一部分意義。在 RAG 過程中,這組數字通過一次計算,識別其與另一組向量的相似度。但是,如前所述,人類幾乎無法理解這組向量內部每個數字所代表的內容;從這組數字嘗試理解其上下文,或將其融入更長的文本中顯然也無能為力。

知識圖譜“蘋果”的表示則是“declarative”(聲明式的),用 AI 的術語來講,是 symbolic(符號化)的。對人類來說, 知識圖譜的表示方式直觀,使用自然語言標簽和關系,人類可以輕松理解其中的內容,比如我們上邊的幾張圖。對于機器來說, 符號化表示的形式化和標準化特性,易于機器進行解析,并能進行邏輯和算法推理。
3. Graph RAG 運行模式
GraphRAG 本質上就是 RAG,只不過與一般 RAG 相比,其檢索路徑上多了一個知識圖譜。GraphRAG 與 RAG 的基本架構也相同,區別在于其數據庫中,同時存儲了結構化的知識圖譜數據和文本 Embedding 后的向量數據。

三、GraphRAG 的優勢
- 真正的深度推理能力
- 知識圖譜天然地存儲了關系。對于問題“政策C如何間接影響了公司A的股價?”,GraphRAG可以通過圖譜路徑?
?政策C -> 促進 -> 行業D -> 包含 -> 公司B -> 競爭 -> 公司A?? 發現間接影響,并進行推理。這是傳統RAG難以做到的。
- 全局視角與知識融合
- 圖譜整合了散落在文檔各處的知識。它能理解一個實體(如一個產品、一個人物)在整個文檔中的全貌和所有關聯,避免了傳統RAG在不同片段中獲取矛盾或片面信息的問題。
- 高效處理復雜查詢
- 對于多跳查詢、聚合查詢(如“列出所有與我們有合作關系的初創公司的CEO”),在圖譜上進行查詢比在向量空間中搜索要高效、精確得多。
- 可解釋性更強
- 傳統RAG返回的答案,其來源是幾段文本,邏輯需要用戶自己梳理。而GraphRAG可以直接展示出推導出答案的知識子圖,讓答案的推理過程一目了然,極大地增強了可信度。
與 傳統 RAG 相比,GraphRAG 還有幾方面的特點
1、準確性與可用性
GraphRAG 能顯著提高 RAG 環節中的“檢索”性能,可以在檢索的上下文中填充更高相關性的內容,最終產生更準確的回答與原始索引。同時,GraphRAG 與替代方法相比,所需要的 Token 數量減少了 26% 至 97%,因此其在提供答案方面不僅準確度高,而且成本也更低。
2、提升數據價值,加快產品迭代速度
由于知識圖譜在概念和視覺上都比較直觀,因此嘗試從知識圖譜的角度理解數據,會對數據產品新的洞察。圖譜能生動地展現應用底層的數據情況。另外,圖譜提供了能追溯到原始答案的“鉤子”,可以沿著這些“鉤子”組合而成的因果鏈追蹤這些數據。
對于 LLMs 應用,圖譜中獨立的數據塊能保留其價值,同時展現出的數據結構本身就能存儲并傳遞額外意義,可通過這些為應用程序增加更多智能。比如 LlamaIndex 最近展示的一個圖,闡釋了其通過“MENTIONS”將詞匯圖和域圖進行了關聯:

3、可解釋性及安全性
大語言模型缺乏可解釋性,因此基于 LLMs 的應用很難在決策層面提供信任。但知識圖譜則完全不同,知識圖譜的數據可導航,查詢、并能隨時修正和更新。
在數據質量方面,將數據置于知識圖譜中,更容易發現數據中的錯誤并進行溯源:并不僅能在計算中使用,還能在解釋中加以利用。而這一點在數據的向量表示中是根本無法實現的。在數據隱私方面,Graph RAG 可以通過分析圖結構中應用的訪問模式和路徑,檢測異常行為并及時響應。
從安全性角度來說,GraphRAG 可以通過圖結構,自然地表示和管理復雜的關系,包括用戶、角色、權限、資源之間的多對多關系;并且能通過圖的節點和邊的屬性與標簽,實現更細粒度的權限管理和動態調整。下圖是一個簡單的安全策略示意,可以在具備細粒度訪問控制的知識圖譜中實現:

GraphRAG解決的是“深度”和“智能”問題。它代表了大模型應用從 “基于記憶的對話” 向 “基于知識的推理” 的范式轉變。隨著自動化構建圖譜技術的成熟和成本的降低,GraphRAG必將成為處理復雜企業知識、驅動智能決策系統的核心基礎設施。
因此,說 “大模型時代,知識圖譜GraphRAG才是未來”,并非言過其實,而是對技術演進方向的深刻洞察。它并非要完全取代傳統RAG,而是在需要深度理解和推理的場景中,提供了一個更強大、更根本的解決方案。
本文轉載自??????數智飛輪??? 作者:藍田

















