打破瓶頸,讓RAG學會思考:中科大、智源等發布推理檢索框架BGE-Reasoner
人工智能的浪潮正將我們推向一個由 RAG 和 AI Agent 定義的新時代。然而,要讓這些智能體真正「智能」,而非僅僅是信息的搬運工,就必須攻克一個橫亙在所有頂尖團隊面前的核心難題。這個難題,就是推理密集型信息檢索(Reasoning-Intensive IR)。
它不僅是當前 RAG 和 AI Agent 技術發展的關鍵瓶頸,更對大模型智能體和深度研究(DeepResearch)等應用場景的成敗具有決定性意義。
正當全球研究者都在為此尋求突破之際,我們看到了一項來自中國的貢獻:BGE-Reasoner。
BGE-Reasoner 由來自中國科學技術大學、智源研究院、北京郵電大學與香港理工大學等機構的聯合團隊研發,是一套用于推理密集型信息檢索任務的創新的端到端解決方案。通過系統性的查詢理解、向量檢索與重排序,該方案可顯著提升搜索引擎在推理密集型信息檢索任務中的表現。
在權威評測基準 BRIGHT 上,BGE-Reasoner 取得 45.2 的測試得分,以顯著優勢刷新了該基準的最佳紀錄。
作為 BGE 系列模型的又一重要里程碑,BGE-Reasoner 不僅實現了性能上的突破,更為解決推理密集型檢索這一行業難題提供了一套行之有效的新范式。從技術洞察來看,本次成果的核心創新主要體現在以下三個方面:
- 一個可復制的框架: 提出了一個由 Rewriter、Embedder 和 Reranker 組成的三階段模塊化框架,為處理復雜查詢提供了清晰、高效的工程范式。
- 數據驅動創新: 探索并證明了利用大模型合成高質量、多領域推理訓練數據的可行性,巧妙地解決了該領域訓練數據稀缺的核心瓶頸。
- 強化學習賦能: 成功將強化學習應用于 Reranker 訓練,讓模型在面對困難樣本時具備了更強的推理和泛化能力。
相關模型權重、訓練代碼及訓練數據即將面向社區開放,進一步推動該領域的研究與應用發展。
項目主頁:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_Reasoner
簡介
推理密集型信息檢索(Reasoning-Intensive IR)是近年來興起的一類新型信息檢索任務。與傳統檢索不同,它不僅依賴語義匹配,還需要綜合運用深層邏輯推理、多步語義鏈以及相關背景知識,才能在查詢與目標文檔之間建立起正確的語義關聯。
為推動該領域研究,香港大學、普林斯頓大學和斯坦福大學聯合提出了首個面向推理密集型檢索的權威評測基準 BRIGHT。該基準匯集了來自 StackExchange、LeetCode、數學競賽等領域的真實查詢,并將其與需要多步推理才能識別的相關文檔進行配對,用于評估檢索系統在復雜推理場景下的能力。
在 BRIGHT 基準下,傳統依賴關鍵詞匹配或簡單語義相似度的方法往往難以定位真正相關的目標文檔,暴露出當前檢索系統在復雜推理場景中的不足。因此,如何在推理密集型檢索中提升系統性能,成為推動檢索增強生成(RAG)在復雜推理任務中發展的關鍵問題。

圖 1. 不同于基于關鍵詞和直接語義匹配的檢索任務,BRIGHT 評測基準關注于推理密集型場景下的檢索任務
在這一背景下,BGE-Reasoner 在推理密集型檢索任務中展現出卓越性能。在 BRIGHT 榜單中,它超越了此前由螞蟻、百度、字節跳動、人民大學、滑鐵盧大學等機構提交的成果,并以領先第二名 3.6 分的優勢刷新紀錄。與此同時,其內置向量模型 BGE-Reasoner-Embed 也大幅超越了 Seed1.5-Embedding、Qwen3-Embedding、GTE 等當前最強基線模型,展現了顯著的性能提升。

圖 2. 在 BRIGHT 榜單上,BGE-Reasoner 取得 SOTA 表現于 8 月 21 日榮登第一名,BGE-Reasoner-Embed 使用原生查詢即表現出色,在向量模型中取得 SOTA 結果,榜單鏈接:https://brightbenchmark.github.io

圖 3. BGE-Reasoner 及 BGE-Reasoner-Embed 與基線模型在 BRIGHT 上的檢索表現對比圖
技術分析
BGE-Reasoner 采用信息檢索中的經典三模塊體系:
- 查詢理解 —— BGE-Reasoner-Rewriter:對初始查詢進行理解與改寫,生成更適合檢索的優化查詢;
- 向量模型 —— BGE-Reasoner-Embed:與 BM25 協同利用改寫后的查詢進行檢索,獲取候選文檔集合;
- 排序模型 —— BGE-Reasoner-Reranker:對候選文檔進行重排序,得到更為準確的排序結果。
在實際工作流程中,用戶的原始查詢首先經過 BGE-Reasoner-Rewriter 改寫,然后由 BGE-Reasoner-Embed 與 BM25 并行檢索得到候選文檔,最后交由 BGE-Reasoner-Reranker 進行精排。系統通過集成多路結果,輸出最終排序,完成端到端的推理式檢索流程。完整框架如下圖所示:

圖 4. BGE-Reasoner 的端到端檢索流程示意圖
數據合成。不同于傳統的開放式問答場景,推理密集型信息檢索場景下的訓練數據十分稀缺。為了解決這一問題,智源及合作機構的研究團隊訴諸于基于大語言模型的數據合成策略。具體來說,基于現實場景中存在的知識密集型語料庫,合成出針對特定場景的高質量推理密集型查詢,然后借助于大語言模型強大的理解能力為每個查詢構造出高質量的正例和負例。最終構造出一份覆蓋數學、代碼等多個領域的高質量推理密集型檢索訓練數據,為后續各個模塊的訓練提供支撐。
查詢理解。在查詢理解模塊中,研究人員基于前述合成數據,借助推理能力較強的教師模型生成多條推理路徑,并通過拒絕采樣策略篩選高質量結果以構建訓練樣本。隨后,利用這些訓練數據對 Qwen2.5-7B-Instruct 模型進行微調,從而顯著提升其在查詢理解與改寫方面的能力,最終得到 BGE-Reasoner-Rewriter。
向量模型。內嵌的向量模型 BGE-Reasoner-Embed 基于 Qwen3-8B 基座模型進行微調。依托高質量的合成訓練數據,模型在推理密集型檢索任務中的能力得到了顯著增強。在 BRIGHT 基準下,無論是基于原始查詢還是 GPT-4 推理查詢,BGE-Reasoner-Embed 均取得了當前向量模型中的最佳檢索表現,充分驗證了所構建合成數據的有效性。
排序模型。內嵌的排序模型 BGE-Reasoner-Reranker 基于 Qwen3 系列基座模型進行微調。結合任務場景下的相關性定義,模型能夠在查詢與候選文檔之間展開細粒度推理,識別關鍵信息片段并準確評估相關性。在訓練過程中,引入強化學習以提升模型在困難樣本上的推理能力;在推理階段,模型通過測試時擴展(test-time augmentation)獲取更加穩健的相關性評分,從而進一步增強排序性能。

圖 5. BGE-Reasoner-Reranker 的推理過程示意圖
總結
BGE-Reasoner 的卓越表現充分驗證了強化學習與合成數據在推理密集型信息檢索中的重要作用,為未來 Agent Search 的發展提供了關鍵支撐。
智源研究院將持續深耕向量模型與檢索增強技術,不斷提升 BGE 系列模型的能力與通用性。未來期待與更多科研機構及產業伙伴合作,共同推動檢索與人工智能的發展,歡迎研究者與開發者關注并使用 BGE 系列模型,共建開放繁榮的開源生態。

































