文檔級知識圖譜: RAKG(95.91%) VS GraphRAG(89.71%)
本次分享一種名為 RAKG(Document-level Retrieval Augmented Knowledge Graph Construction)的框架,旨在解決傳統知識圖譜構建(KGC)方法在文檔級知識圖譜構建中的局限性。
一、GraphRAG的局限性
- 傳統 KGC 方法主要依賴于專家系統和基于規則的模式匹配,雖然能夠保證一定的知識準確性,但面臨高昂的人力成本和較差的可擴展性。
- 隨著深度學習的發展,基于神經網絡的端到端構建方法顯著提高了關系抽取的效率。然而,這些方法大多依賴于復雜的特征工程和大量的標注數據,模型性能容易受到數據質量和分布變化的影響。
- 如復雜的實體消歧、僵化的模式定義以及跨文檔知識整合不足等問題
RAKG 框架通過從文本片段中提取預實體,并利用這些預實體作為檢索增強生成(RAG)技術的查詢,有效解決了 LLMs 在長文本處理中的上下文遺忘問題,降低了核心ference Resolution 的復雜性,并更有效地捕獲全局信息和節點間的相互聯系,從而提升了模型的整體性能。
- RAKG 重點關注文檔級知識圖譜的構建,假設每篇文檔對應一個理想的知識圖譜,并基于此建立了一個定量評估系統。
- 采用雙重評估標準:
一是拓撲結構的完整性,即構建的知識圖譜必須涵蓋理想知識圖譜中的所有節點;
二是關系網絡的相似性,即每個對應節點的關聯結構必須與理想知識圖譜中對應節點的拓撲關系達到最大相似性。
二、RAKG的創新點

2.1 拓撲結構覆蓋
- 為了解決拓撲結構覆蓋問題,RAKG 采用基于句子的命名實體識別(NER)方法,充分利用 LLMs 強大的自然語言處理能力。
- 逐句 NER 方法:通過逐句分析文本,確保每個句子中的實體都能被準確識別,避免了傳統方法中因長文本處理而導致的實體遺漏問題。
- 預實體概念的引入:預實體作為中間表示單元,降低了實體消歧的復雜性,同時為后續的信息整合提供了便利。
2.2 關系網絡對齊
關系網絡的構建是知識圖譜構建中的關鍵環節。 RAKG 提出了一個兩步策略:
- 語料庫回溯檢索,通過檢索識別出的實體出現的文本片段,整合多視角的語義信息,并將其輸入 LLM 以生成關系網絡;
- 圖結構檢索,從初始知識圖譜中檢索與節點相關的信息,并將其整合到輸入中,以保持與初始知識圖譜的一致性,避免因 LLMs 的幻覺問題而導致的錯誤關系生成。
三、RAKG框架結構

RAKG 框架的整體結構包括以下幾個關鍵步驟:
- 文檔分塊與向量化:
RAKG 采用基于語義完整性的動態分塊策略,將文檔分割為多個文本片段,并對每個片段進行向量化處理。
這種方法不僅減少了 LLM 每次處理的信息量,還確保了每個片段的語義完整性,從而提高了命名實體識別的準確性。
- 預實體構建:
通過逐句進行 NER,識別出文本片段中的實體,并為每個預實體分配類型和描述屬性。
隨后,通過向量相似度檢查和 LLM 的最終判斷,對相似實體進行消歧處理,確保知識圖譜中實體的唯一性。
- 關系網絡構建:
通過語料庫回溯檢索和圖結構檢索,獲取與實體相關的文本片段和知識圖譜信息,并將其輸入 LLM 以生成關系網絡。
最后,利用 LLM 對生成的三元組進行真實性評估,確保關系網絡的準確性和可靠性。
- 知識圖譜融合:
將新構建的知識圖譜與初始知識圖譜進行融合,包括實體合并和關系整合,以獲得更全面的知識圖譜。

以“蝴蝶的生命周期”為例:
RAKG 的命名實體識別模塊檢測到 23 個核心實體,其中“蝴蝶卵”“毛毛蟲”和“成年蝴蝶”是中心實體。這些實體在文章中有密集的文本塊,表明它們是關鍵概念。 以“成年蝴蝶”為例,RAKG 檢索到描述其五個特征的專業文本塊,并從原始知識圖譜中檢索到與“成年蝴蝶”相關的子圖。 通過將這些文本塊和子圖整合后輸入 LLM,RAKG 構建了以“成年蝴蝶”為中心的關系網絡,形成了完整的子圖。 最終,通過整合所有子圖,RAKG 構建了一個系統化的知識圖譜,清晰地展示了文章的核心概念及其相互關系。
3.1文檔分塊與向量化

其中, 表示文本片段的向量集合, 表示第 個文本片段的向量表示。
3.2 預實體構建

其中, 表示與實體 相似的預實體集合, 表示經過 LLM 判斷后與 相同的實體集合。
3.3 關系網絡構建

3.4 知識圖譜融合
- 實體合并:將新構建的知識圖譜中的實體與初始知識圖譜中的實體進行合并,確保知識圖譜中實體的唯一性。
- 關系整合:將新構建的知識圖譜中的關系與初始知識圖譜中的關系進行整合,形成更全面的知識圖譜。
四、數據集與評價指標
- 數據集:本文使用 MINE 數據集進行實驗,該數據集包含 105 篇文章,每篇文章約 1000 字,涵蓋歷史、藝術、科學、倫理和心理學等多個領域。通過 LLM 從每篇文章中提取 15 個事實,并手動驗證其準確性和相關性。通過檢查知識圖譜是否能夠捕捉這些事實,評估文本到知識圖譜提取器的有效性。
- 基線模型:
- KGGen:由斯坦??尚湃斯ぶ悄苎芯繉嶒炇遥⊿TAIR Lab)開發的開源工具,能夠自動從純文本生成知識圖譜。
- GraphRAG:由微軟提出的一種基于知識圖譜的檢索增強生成框架,通過構建結構化的知識圖譜來增強 LLMs 的性能。
- 評估指標:
- 實體密度(ED):表示知識圖譜中實體的數量,反映了從文本中提取信息的能力。
- 關系豐富度(RR):表示知識圖譜中關系的數量,反映了實體關系網絡的復雜性。
- 實體保真度(EF):通過 LLM 對提取的實體進行評估,確保其與原文本內容的一致性。
- 關系保真度(RF):通過 LLM 對提取的關系進行評估,確保其與原文本內容的一致性。
- 準確性(Accuracy):通過知識圖譜在 MINE 數據集上的問答準確性來評估其語義信息保留能力。

- 準確性:RAKG 在 MINE 數據集上的準確性達到了 95.81%,顯著優于 KGGen(86.48%)和 GraphRAG(89.71%)。
- 實體密度與關系豐富度:RAKG 構建的知識圖譜在實體密度和關系豐富度方面均優于 GraphRAG 和 KGGen。RAKG 能夠識別并整合更豐富的實體信息,構建更復雜的實體關系網絡。
- 實體保真度與關系保真度:RAKG 的實體保真度和關系保真度分別為 91.33% 和 94.51%,表明其在提取實體和關系時具有較高的準確性和一致性。通過“LLM 作為評判者”的機制,RAKG 能夠有效識別并消除因 LLM 幻覺問題而生成的錯誤節點和關系。
本文轉載自??CourseAI??,作者:CourseAI

















