萬字長文詳解騰訊優圖RAG技術的架構設計與創新實踐

作者：優圖RAG技術 2025-09-12 15:50:54

本文將為你深度解析騰訊優圖實驗室RAG技術的架構設計與創新實踐：從多階段訓練的2B級Embedding模型、Reranker分層蒸餾，到結構化表的智能解析與查詢，再到自研GraphRAG框架在構圖效率與復雜推理上的突破。

導語

在信息爆炸的時代，如何從海量數據中精準獲取知識并生成智能回答，已成為AI落地的核心挑戰。騰訊優圖實驗室憑借前沿的RAG體系，突破傳統檢索與生成的局限，打造了一套覆蓋語義檢索、結構化表檢索、圖檢索的全棧解決方案。

本文將為你深度解析優圖實驗室RAG技術的架構設計與創新實踐：從多階段訓練的2B級Embedding模型、Reranker分層蒸餾，到結構化表的智能解析與查詢，再到自研GraphRAG框架在構圖效率與復雜推理上的突破。目前，優圖實驗室自研的RAG技術已應用在多個領域和產品，未來，我們更將著力于邁向Agentic RAG與低成本精細化方向，推動產業智能化升級。

RAG技術架構

語義檢索

1.1、Embedding模型

1.1.1、多階段訓練管線

為了提升基于大語言模型（LLM）的向量模型的檢索能力，采用多階段訓練策略，逐步增強向量模型的泛化能力和檢索效果。

圖1.1. 訓練管線概覽圖

弱監督對比學習訓練。通過批次內負樣本共享和跨設備負樣本共享技術，每個查詢文本對應多達6萬個負樣本，來極大增強向量模型的判別能力。
有監督對比學習訓練。通過優化數據采樣方法，使跨設備共享的負樣本來源于同一個子數據集，來保證難負樣本的質量和難度一致性，提升對比學習的有效性。在輸入文本中加入特定任務的指令詞，進行指令感知的對比學習，使模型能夠根據不同任務調整語義匹配策略，來提升向量模型指令遵循的動態檢索能力。

1.1.2、精細化數據工程

1.1.2.1、數據構造流程

訓練數據的規模和質量對向量模型的效果至關重要，一般地，構建對比學習訓練數據的流程如下：

構建（問題，相關文檔）的文本對。通常有兩種方式，一是在網絡上收集已經構建好的開源的問答對數據；二是利用大語言模型杰出的文本生成能力，為文檔生成高質量的問題數據。通過收集開源數據和利用大語言模型合成數據，擴充了訓練數據的規模，增加訓練數據的多樣性和豐富性，有助于提高向量模型的泛化能力。
挖掘難負樣本，構建（問題，正樣本，負樣本）三元組。構建兩千萬規模的文本語料庫用于難負樣本挖掘，通過擴大語料庫規模、構建特定行業語料庫、利用大語言模型識別過濾假負樣本的方法，優化了挖掘負樣本的質量和效果。

1.1.2.2、數據質量控制

圖1.2. 質量控制邏輯示意圖

在上述內容基礎上，借助 Reranker 模型對訓練語料進行篩選及重組，以進一步提升數據質量。大致的處理邏輯包含以下三項：

剔除相關性分數極低的偽正例
基于相關性分布，過濾簡單負樣本
識別強負例挖掘過程中的潛在正樣本，并進行替換

Reranker 模型的評分在通過驗證后，會應用于編碼器的更新過程，實現label層面的知識蒸餾。

1.1.3、多任務均衡配置

圖3. 多任務跨GPU聯合訓練示意圖

為充分發揮 Embedding 模型的潛力，解決不同任務屬性、不同領域數據之間的沖突問題，我們設計了一套精密的聯合訓練方案：

數據統一化：依據數據在組織形式等方面的差異，將整體語料劃分為 IR 和 STS 兩大類，并采用統一的聯調格式同時囊括二者，從而實現混合加載。
動態采樣器：跨設備負采樣是編碼器微調過程中的常用技巧，但在多任務、多領域、多節點混合訓練時，跨域數據的引入會為對比學習帶來噪音，影響模型表現。對此，通過重構采樣器和加載器，保證一次 iteration 中，多個 GPU 獲取的樣本嚴格出自同一數據集，并支持為它們設置差異化的 batch size 以充分平衡更新次數。
任務特定指令及損失：不同的檢索及匹配任務擁有不同的領域特點及評價標準。相較于不加區分地對待全體數據，差異性的設置可以在最大程度上為參數更新過程注入先驗知識。經過分析，我們針對 STS 和 IR 這兩大類任務設計了不同的損失函數，同時支持配置個性化指令以靈活應對下游任務。在這種方式下，通過與采樣器的聯合作用，每個批次將提供純粹的任務梯度，從而極大地避免強制適配時的潛在性能損失。
模型融合策略：以ModelSoups為代表的權重融合技術此前已被證實可以為CLIP等多模態模型帶來提升，而這一方案同樣適用于文本嵌入領域。在精調階段結束后，通過選取不同訓練軌跡得到的模型，并精心設置它們的融合方式及權重，進一步增強了網絡在各項任務的表現。

1.1.4、任務定制損失

損失函數是模型優化過程的目標及主要參照，對于神經網絡的性能具有重要影響。良好的損失函數應充分貼近任務的評價指標，從而為模型提供有效指導。

具體到編碼模型最主要的兩類應用場景——文本語義相似性（STS）及信息檢索（IR）。STS任務采用Spearman相關系數作為根本指標，該指標通過計算樣本的預測排位與真實排位之差來衡量順序一致性。IR任務的核心指標nDCG同樣是list-wise式的，但它更強調高位優先性。鑒于在大部分IR任務中，與給定query相關的文檔其實非常稀少，因此將這些正樣本有效突出出來是提升模型表現的關鍵。

基于這兩類任務的差異性和共通性，我們為STS任務引入了多種順序性損失，希望模型從逆序對、分數差異性等角度對Embedding分布進行調整，以捕獲細粒度的語義區別。對于IR任務，則會在采集充分多的負樣本同時盡可能地擴大query和所有正樣本之間的相似度分數，從而增強模型的判別能力。

1.1.5、模型效果

目前很多開源的Embedding模型在開源榜單測試集和業務側測試集上的效果沒法很好的平衡，往往顧此失彼。我們的apd-embedding-2b模型能夠在這兩種測試集上都達到比較好的效果。

我們驗證了apd-embedding-2b模型在C-MTEB基準測試中的表現，在中文IR任務和中文STS任務上均取得了SOTA的結果。

中文IR任務

中文STS任務

同時我們也在業務集上進行了實際測試，apd-embedding-2b以2B的參數量超越競品4B、8B模型的效果，具體結果見下表：

1.2、Reranker模型

盡管向量模型的雙編碼器架構在實際的檢索場景中計算效率高，耗時短，但它卻無法直接捕捉查詢文本和文檔文本之間的微妙關聯。為了提升檢索環節召回文檔的準確性，需要采用基于LLM的Reranker模型對向量模型的檢索結果進行重排序。這種方式可以有效捕捉到查詢文本和文檔文本之間深層次的語義關聯，從而給出更準確的檢索結果。

1.2.1、Reranker模型升級為LLM模型

傳統的Reranker模型通常基于BERT、RoBERTa等模型進行訓練，包括BGE-Reranker-large、Jina-Reranker等，其模型參數量相對較小（110M～400M），輸入長度有限（512個token），對自然語言的理解能力遠不及LLM。

為了提升Reranker模型在實際復雜場景中的表現，使用LLM訓練Reranker模型成為必要方案。該方案能夠有效發揮LLM對復雜問題和文檔的理解能力，從而提供更高質量的文檔檢索結果，并且其所能支持的文本長度更長（達到8k甚至更長）。同時，通過對特殊任務添加指令，模型也能夠適應不同場景的重排序需求。下表是在某業務數據上進行的評測：

1.2.2、分層知識蒸餾損失

對比學習損失是的Reranker模型訓練時常用的損失函數，它的核心作用是幫助模型學習到區分相關和不相關查詢-文檔對的能力，從而有效地提升文檔的排序質量。除此之外，知識蒸餾也是一種可用的訓練策略。使用更強大的LLM作為教師模型，為查詢-文檔對給出更精確的相似度分數，然后約束Reranker模型輸出和教師模型盡可能保持一致。這兩種損失均有助于模型提升文檔檢索能力，通常可以兩者搭配一起使用。

為了進一步發揮知識蒸餾的優勢，我們對Reranker模型多個層級的Transformer的輸出添加約束，構建分層（Layerwise）知識蒸餾損失。這種策略能夠強化模型在不同深度層給出較一致的查詢-文檔相似度分數的能力，也稱層級輸出能力。如果訓練數據中未提供教師模型給出的相似度分數，則可以用模型最后一層的輸出狀態作為知識蒸餾的監督信號，來約束之前的部分層輸出和最后一層一致的狀態，同樣可以實現分層知識蒸餾。

圖1.4. 分層知識蒸餾損失策略

使用該策略訓練的Reranker模型具備層級輸出能力，允許用戶選擇模型不同層的輸出來計算最終的相關性分數。這意味著用戶可以選擇使用模型較淺層或較深層的輸出來進行重排序，這為檢索效率和性能提供了更大的靈活性。通過選擇合適的層，可以在性能和推理速度之間進行權衡。

1.2.3、高質量業務訓練數據構造

對于特定業務場景，通常缺乏領域適應的高質量訓練數據用于Reranker模型的精調。對此，我們構建了一套高效的數據自動化構造流程，能夠批量的清洗和構造高質量的訓練數據。具體步驟如下：

Query預處理（可選）：對于復雜問題，可以優先對問題進行拆解，用子問題（或原問題）借助向量模型進行第一階段文檔檢索，同時檢查Query的明確性和拆解的合理性，去除無效的Query
Query實體識別：對Query或子問題進行分析，識別其中所包含的有效實體，包括客觀實體和時間實體，以此作為文檔初篩的參考依據。
文檔實體召回：對于步驟1中檢索到的文檔，使用LLM判斷其中是否包含Query中存在的實體，并給出實體召回打分；客觀實體和時間實體需要分別打分，0為無召回，1為全部召回。
文檔初篩：根據實體召回結果，篩除實體召回打分均為0的文檔，不參與下一階段處理（這些文檔可視為簡單負例）
文檔精評分：使用LLM對初篩后的文檔結合Query一起給出相關性打分（這一步的文檔數量將大幅度減少，提升精評分速度）
分數校準：對于打分后的文檔，根據實體召回的評分重新校準分數；這一步能有效緩解模型在評分時產生的幻覺，糾正一些LLM的不合理判斷。校準后的分數僅是針對單個Query的相對評分，只用于文檔排序
自適應正負例篩選：

a.按照單個Query的分數分布選取正例，遵循“高分突出的情況下固定正例數量 <=10”和“高分均衡的情況下保持最大分均為正例”兩個原則；

根據正例數量按固定比例確定負例數量，按分數從高到低依次補齊負例，盡可能保留難負例。

圖1.5. 高相關性數據篩選流程

這套數據構造流程的優點在于：

通過實體召回對文檔進行粗篩，能夠有效降低精評分步驟需要處理的文檔數量
通過實體召回打分對精評分進行矯正，能夠有效避免LLM因為幻覺打出錯誤的高分或低分
自適應正負例采樣策略保證了每個Query所構造的正負例文檔都是高質量且分布比例均衡

借助該數據構造流程，目前已針對業務場景進行了精調驗證。根據業務評測報告，精調后的版本顯著優于線上版本：

2.結構化信息檢索

2.1、技術簡介

在數據呈指數級增長的今天，企業內部積累了海量的信息數據，其中，結構化數據因其格式規整、語義明確，蘊含著巨大的商業價值。然而，如何讓非技術人員也能輕松訪問和分析這些數據，一直是業界的難題。

結構化數據：具有固定格式和明確語義，如數據庫表格，便于計算機快速查詢和處理。
非結構化數據：如文本文檔、圖片，無固定格式，語義理解難度大。

為應對結構化數據查詢的挑戰，我們基于經典RAG框架融合Text2SQL技術，通過“理解-檢索-生成”的模式，將用戶的自然語言問題高效轉化為精準的數據結果。

2.2、方案總覽

2.2.1、多源數據檢索

結構化數據常見數據源形態包括DB數據庫表、表格文件等，業務上通過支持不同數據源的載入，設計了基于文本切片檢索的RAG與Text2SQL融合的方案，將文本切片與text2sql查詢結果送給下游閱讀理解模型。閱讀理解模型會綜合兩類信息，生成更準確、更全面的回答——既包含基于統計或字段的精確數據，也包含相關文本切片提供的上下文解釋或補充信息。整體檢索問答方案如下：

圖2.1. 不同數據源載入問答系統

2.2.2、Text2SQL核心技術

（1）自動化數據合成和增強

數據合成對Text2SQL任務具有重要價值，主要體現在快速適配新場景和提升模型泛化能力兩方面。通過自動化生成多語言的數據庫表結構、自然語言問題及帶推理過程的SQL答案對，系統能快速構建適配不同數據庫方言（如SQLite、MySQL等）的訓練數據。這種能力不僅顯著降低人工標注成本，更重要的是使模型能預先學習到多樣化的schema結構和查詢邏輯，當面對真實業務中新出現的數據庫范式或查詢需求時，模型憑借合成數據訓練獲得的"經驗"能更快實現性能收斂。特別是合成的"帶思考過程的SQL答案"通過顯式展現查詢邏輯的構建路徑，有效增強了模型對復雜查詢的語義解析能力。

圖2.2. 數據合成方法

通過數據合成加訓，對新場景提升效果如下：

（2）基于Agent的Text2SQL框架

Text2SQL 是一項將自然語言轉換為SQL的技術，它允許用戶通過日常語言與數據庫交互，而不需要掌握專業的SQL語法。在實際業務中落地應用仍面臨諸多挑戰。例如領域知識的泛化能力，自然語言表達的多樣性與復雜性，語義不明確、不完整等。

我們提出基于大語言模型的多智能體（Multi-Agent）協作框架，該框架由三個Agent組成：

篩選器（Selector）：從眾多表中選擇相關表和列，減輕不相關信息的干擾；
分解器（Decomposer）：將復雜的問題分解為子問題并逐步解決它們；
優化器（Refiner）：使用外部工具執行SQL并獲取反饋，根據反饋信息優化錯誤的SQL。

圖2.3. MAC-SQL技術架構概覽（中稿COLING 2025 [1]）

基于開源 BIRD 和 Spider 數據集，本框架配合自研的7B模型，執行準確率超過ChatGPT-3.5等。本框架的方法配合 GPT-4 使用，能夠達到SOTA的水平，遠超單獨直接使用GPT-4的效果。

圖2.4. 效果對比

2.3、技術實踐與優勢

2.3.1、表格文件場景

（1）高精度結構化解析

由于Text2SQL僅支持標準結構化表格，現實場景的表格文件會有許多非標準表格被排除在外。針對嵌套、合并等非標準情況，我們設計解析引擎-智能結構化識別方案，將原本非結構化表格自動轉化為結構化表格。調用智能結構化解析，精度超過90%。主要階段包括：

階段①是否結構化知識表格判斷
階段②表頭識別
階段③將原表格元素識別結果提取整合為可被Text2SQL查詢的結構化表

圖2.5. 智能結構化解析流程示意

圖2.6. 非結構化表格解析為結構化表格效果

（2）靈活語義窗口切分

對于表格文件場景下的語義切片，支持可選窗口大小的切分策略，通過表頭屬性與表內容的組合，在保留語義的同時，允許靈活配置多粒度切分方法：

（3）雙引擎SQL查詢

將解析后的結構化表格數據存入Elasticsearch（ES）和MySQL，組成雙引擎檢索器。

圖2.7. SQL到ES/MySQL雙執行引擎的路由

在雙引擎檢索架構中，ES彌補了MySQL在模糊查詢和語義泛化上的局限性：

通過抽象語法樹解析SQL語句可以實現語法校驗與自動校正

抽象語法樹（AST）是源代碼語法結構的一種抽象表示。它以樹狀的形式表現編程語言的語法結構，樹上的每個節點都表示源代碼中的一種結構。

圖2.8. SQL語句的AST及其動作序列 (相關技術中稿ACL findings 2023[4])

利用ES強大的全文檢索能力處理模糊查詢，提升檢索召回
以某售賣場景為例，若按照問題中表述的售賣模式為'一次性售賣與租賃模式'，MySQL直接查詢執行結果為空；若使用ES泛化查詢，則售賣模式模糊匹配可以找到'一次性售賣模式'和'租賃模式'，該策略有效提升了SQL值匹配不準時查詢的召回率。

性能提升驗證

基于SQL的ES查詢，首先將SQL語言通過AST解析，檢查SQL語法的正確性，對語法錯誤的情況進行校正，然后可以通過方言轉化將SQL AST轉化為ES的DSL語法進行查詢召回。雙引擎表格查詢的評估結果如下：

2.3.2、通用DB場景

（1）表拼接與鏈接

針對Text2SQL的不同場景需要，提供DDL / SimpleDDL兩種數據schema的提示詞范式。

“DDL”（數據定義語言）包含標準化語言，其中包括定義數據庫結構和屬性的命令，提供創建數據庫所需的詳細信息，包括列類型和主鍵/外鍵。相關信息輸入健全，輸入長，查詢慢。
簡化的 “SimpleDDL ”只提供表名和列名。相關信息輸入簡潔，輸入短，查詢快。

表鏈接引入語義向量，為大模型SQL生成提供可靠的依據：

Schema: 數據庫的邏輯結構，描述數據的組織形式，包括表、字段、關系、約束等。定義數據如何存儲、關聯和驗證。

a.例如：學生數據庫 Schema 可能包含學生表（學號、姓名、年齡）和課程表（課程ID、課程名），并通過外鍵關聯選課記錄。

Schema Linking（模式鏈接）: 指將Query與數據庫模式（Schema）中的元素進行關聯的過程。關注表和字段的映射（如 "學生" → student 表）
Value Linking（值鏈接）: 指將Query中的具體值（如數字、日期等）與數據庫中的實際存儲值進行匹配和關聯的過程。確保查詢條件（where）中的值能正確映射到數據庫中的對應字段值。關注查詢條件值的映射，如：

a.識別查詢中的條件值（如 "年齡大于20" → age > 20）

b.處理模糊或非標準表達（如 "上個月" → date >= '2023-09-01'）

c.匹配數據庫存儲的格式（如 "張偉" → 數據庫可能存儲為 '張偉' 或 'Zhang Wei'）

d.處理同義詞或縮寫（如 "CS" → "Computer Science"）

利用語義向量拼接提示語生成SQL，執行準確率結果如下：

（2）改寫信號拆解與融合

為了將上下文改寫信號更好的融入Text2SQL模型中，我們對復雜查詢場景采用拆解策略，將復雜查詢拆分為多個簡單查詢；對多輪交互場景采用基于編輯矩陣 (包含插入和替換操作)的改寫信號表示方法，該編輯矩陣與表格-文本鏈接關系矩陣融合，一并融入到self-attention中。通過改寫信號的拆解與融合，可以顯著提升模型在SQL解析過程中對上下文語義的理解能力。

圖2.9. 改寫技術示意圖（中稿EMNLP 2022 [2]、PRICAI 2023[3]）

（3）SQL查詢與計算

Text2SQL技術作為連接自然語言與數據庫查詢的智能橋梁，能夠準確捕捉用戶查詢意圖，并將其映射為結構化的數據庫操作指令，在保持語義完整性的同時嚴格遵循SQL語法規范。應用Text2SQL技術具有以下優勢：①多維度查詢支持 ②智能條件處理 ③語義理解與擴展

常見能力覆蓋如下：

騰訊云智能體開發平臺實踐效果示例：

2.4、問答推理與潤色

問答系統中通過閱讀理解模型進行答案推理與潤色，能夠顯著提升Text2SQL直接查詢結果的可讀性，同時實現以下優勢：

（1）精準性與語義理解的統一

Text2SQL可直接獲取結構化數據中的關鍵字段或計算結果，確保查詢的精確性。
文本切片檢索提供語義層面的靈活匹配，豐富回答依據的信息量。

（2）復雜問題的高效處理

對于需要結合結構化查詢與文本推理的復雜問題（如推理分析、趨勢解讀等），模型可同時利用：

數據庫字段的精確查詢結果。
關聯問題的描述性內容。

生成兼具數據支撐與語義連貫的綜合回答。

3.GraphRAG

3.1、自研GraphRAG-Benchmark

當前GraphRAG技術發展還處于初期階段，業界缺少專門針對GraphRAG評測的規范數據集，同時缺少不同GraphRAG方法在相同benchmark下統一的效果評價方式，因此今年6月份優圖發布了自研的GraphRAG benchmark[5][6]。

優圖實驗室GraphRAG-Bench在多個領域構建了不同類型的問題，構建了適合衡量GraphRAG效果的復雜推理數據，并提出了一套完備的效果評估流程。

圖3.1. GraphRAG-Bench構建邏輯及評測設計

在優圖實驗室的GraphRAG-Bench中，我們設計了四個維度來評價GraphRAG框架的質量，并對當前主流的GrphRAG框架進行了評測分析。四個維度分別是：

構圖成本：構圖成本主要評估從原始文本數據離線構建圖譜過程中的時間和token消耗。在我們的測評中，HippoRAG、DALK，ToG，GFM-RAG四種方法在構建圖譜的時間消耗相當，RAPTOR方法在圖譜構建過程中token的消耗量具有顯著優勢。
檢索效率：檢索效率主要評估每次查詢對圖譜檢索的平均時長，在9種方法中，RAPTOR因為主要依賴向量檢索，速度最快；依賴GNN為代表的GFM-RAG框架速度達到秒級，以LightRAG為代表的圖檢索方法平均時長在十幾秒級。
回復準確率：用于評估各個框架在不同類別的任務下，回答問題的準確性。經評測，GFM-RAG、GraphRAG、HippoRAG和Raptor方法平均準確率效果領先。
推理能力：所有GraphRAG方法顯著提高了LLM的推理能力，增加了生成正確理由的概率。HippoRAG和RAPTOR在推理能力上表現最佳，這與它們檢索有用信息的能力密切相關。

3.2、自研GraphRAG框架

當前以知識圖譜為主要知識組織形式的第一大類框架有 GraphRAG和LightRAG等，這類方法將知識粒度細化，但是缺點在于構圖和檢索的質量和效率偏低，難以在生產環境使用；

第二大類是樹結構方案，代表框架有RAPTOR和E2GraphRAG等，這類方法通過層次化迭代對文本切片進行知識總結，但是構圖和總結高度依賴大模型且無法挖掘細粒度知識之間的關系。

3.2.1、領域圖譜構建的質量和效率提升

我們通過融入兩類方法的優點，每個節點類型都有特定的功能和角色：實體和關系節點用于連接語義單元；屬性節點用于表示實體的特征；社區節點用于總結社區的核心信息。這種異構圖結構使得優圖GraphRAG能夠實現更細粒度的檢索和理解，從而提高整體性能，形成效果和效率均更貼近落地可用的創新GraphRAG方案。

圖3.2. Knowledge Tree與當前基于圖/樹的GraphRAG 方法對比及優勢

（1）通過知識樹對知識進行有效組織

構建屬性、知識圖(三元組)、關鍵詞、社區四級知識粒度的樹型圖譜結構，實現了對文本知識的精確多級整合，從效果和效率上超越現有圖和樹的兩類方案；
同時保留了圖的細粒度知識推理和樹的層次化匯總摘要。

（2）對GraphRAG社區檢測進行創新 S2Dual-perception

圖3.3. 通過稀疏鄰接矩陣的結構感知以及子圖語義相似度的語義感知提出的社區檢測算法

現有的圖社區檢測SOTA算法Leiden存在如下問題：

強制按照連接性劃分社區，過分依賴圖構建質量，限制了推理發現和補全能力；
效率低下，全圖遍歷單個節點不斷計算與當前社區合并后的質量函數后更新社區，不適用于大規模圖數據。
為了解決這些缺陷，我們同時利用拓撲結構Structure和子圖語義信息Semantics，生成更高質量的社區總結和發現，實現對結構化知識的高效組織，克服傳統社區檢測算法的局限性。
通過稀疏鄰接矩陣計算Jaccard相似度量化錨節點與社區子圖間的拓撲重合度，反映錨節點與候選社區中鄰居間的連接強度；
編碼錨節點的特征與候選社區的子圖特征捕捉語義重合度，反映錨節點與候選社區子圖的文本相似度。

（3）支持不同領域的圖Schema結構自適應優化

通過預置三大類的中英文領域圖Schema包括人物、事件和概念中的實體類型、關系類型和屬性類型+ 在構圖時大模型的Schema信息補充，來自適應調整最合適特定領域的構圖Schema，在保證特定領域抽取質量的同時減少人工干預。

3.2.2、優化復雜query的理解和推理

領域內對復雜Query理解缺乏關注，現有baseline在Query查詢過程中主要以文本切片和摘要的語義向量相似度進行直接檢索，但復雜長難句Query的向量直接匹配效果較差，導致難以真正理解復雜多跳Query。

圖3.4. Agentic GraphQ，基于圖譜Schema進行復雜問題的針對性解耦

（1）復雜Query理解

圖Schema當前在AutoSchemaKG及優圖GraphRAG的兩個方法中被用于提升構圖質量。針對復雜長難Query理解，我們首次提出將圖Schema應用到Query理解和子任務解耦上，幫助模型對復雜多跳Query中的關鍵實體、關系和屬性精準定位。

首次提出圖譜Schema感知的復雜Query理解模塊AgenticGraphQ。通過Agent對Schema的理解，挖掘Query中{Entity} / {Relation}/ {Attribute}之間的隱式關系和依存句法，實現多跳向單跳簡化的子任務解耦；
基于Schema，結合Query理解和圖譜推理，大幅度提升復雜Query的理解能力及關鍵實體、關系等重要信息的定位能力；
通過將Query簡化，輕量推理即可完成解耦后的子任務，極大降低下游對推理模型的依賴，模型減重。

（2）高效多路檢索

主題詞匹配或關鍵詞檢索；
采用Query-Triple的三元組向量匹配并對結果進行相關性剪枝，融入更多結構和語義信息，取代傳統Query-Node的單一向量匹配方案；
基于路徑的DFS鄰居檢索

3.2.3、框架效果

經實驗對比，相比當前主流開源GraphRAG框架（如微軟GraphRAG、LightRAG等），優圖GraphRAG框架在構圖成本和回答準確率上有大幅度的優化。

（1）構圖成本

在hotpotQA、2wiki和musique三個開源數據集上對比評測，優圖GraphRAG的構圖效率大幅提升。在社區檢測上首次提出創新，相比當前社區檢測的SOTA算法Leiden，效率提升近100%。

優圖實驗室GraphRAG的大模型調用成本顯著降低。在hotpotQA數據集構圖階段，微軟GraphRAG(Global)消耗token量為億級，LightRAG構圖token消耗量在千萬級，優圖GraphRAG在相同的數據上構圖的大模型調用成本降低到百萬級。

（2）檢索效果提升

效果方面，優圖實驗室GraphRAG對比微軟GraphRAG(Global) 提升200%+、對比LightRAG提升20%-100%，在GraphRAG專注的復雜數據集上效果提升顯著。

未來展望

目前，我們的RAG技術已在汽車、文旅、泛政、金融等多個行業成功落地，深度助力騰訊云智能客服、QQ瀏覽器、IMA等騰訊內部產品。隨著大語言模型和RAG技術的快速發展，我們也將持續打磨技術架構，提升原子能力效果，也將圍繞Agentic RAG、精細化、低成本的趨勢進一步實踐：

（1） Agentic RAG：通過引入智能體技術，實現復雜問題的自動化分解和多步驟推理。結合動態規劃、實時反饋和工具調用能力，提升系統在復雜場景下的推理準確性和解釋性。

（2）精細化與低成本：以GraphRAG作為新興技術的代表，在保障精細化知識管理優勢的同時，重點優化構圖成本和計算效率。通過動態增量式更新、輕量化建模等技術手段，降低部署門檻，使技術更普惠。

未來的RAG技術將不再局限于簡單的“檢索-生成”的線性流程，而是發展為“規劃-決策-檢索-驗證-推理”一體化閉環智能系統。也期待更多業界伙伴與我們攜手，共同探索RAG技術在更廣泛場景的創新應用，推動產業智能化升級！

參考文獻

[1]MAC-SQL: A Multi-Agent Collaborative Framework for Text-to-SQL,COLING,2025.

[2]Cqr-sql: Conversational question reformulation enhanced context-dependent text-to-sql parsers,EMNLP,2022.

[3]QURG: Question rewriting guided context-dependent text-to-SQL semantic parsing,PRICAI,2023.

[4]G3R: A Graph-Guided Generate-and-Rerank Framework for Complex and Cross-domain Text-to-SQL Generation,ACL,2023.

[5]GraphRAG-Bench: Challenging Domain-Specific Reasoning for Evaluating Graph Retrieval-Augmented Generation, arxiv,2025.

[6]首個！騰訊優圖聯合香港理工大學發布為GraphRAG設計的評測基準+數據集

責任編輯：火鳳凰來源：騰訊技術工程

騰訊優圖 RAG 架構技術實踐