當(dāng)RAG遇上了推理:一文看懂 DeepResearch 背后的靈魂 精華
1. RAG與大模型推理
大型語(yǔ)言模型正在重塑多個(gè)領(lǐng)域,展現(xiàn)出非凡能力,但其應(yīng)用的發(fā)展仍受制于兩大瓶頸:
- 第一,知識(shí)以靜態(tài)參數(shù)的形式存儲(chǔ)導(dǎo)致頻繁出現(xiàn)幻覺
- 第二,應(yīng)對(duì)復(fù)雜現(xiàn)實(shí)問題時(shí)的缺乏推理能力
這兩大瓶頸互為因果,知識(shí)缺失會(huì)阻礙推理,而推理缺陷又會(huì)浪費(fèi)已有知識(shí)。
為了突破這兩大瓶頸,出現(xiàn)了兩大技術(shù)路線:
- 一是通過檢索增強(qiáng)生成(RAG)引入外部知識(shí)
- 二是提升模型內(nèi)在推理能力
隨著大模型應(yīng)用的深入,大家逐漸開始探索檢索與推理的融合,早期工作呈現(xiàn)兩種單向增強(qiáng)模式:
- 推理增強(qiáng)型RAG(Reasoningenhanced RAG)在流程中注入推理環(huán)節(jié)
- 知識(shí)增強(qiáng)型推理(RAGenhanced Reasoning)則為L(zhǎng)LM提供事實(shí)錨點(diǎn)。
目前的方法仍受限于靜態(tài)的"檢索-推理"(Retrieval-Then-Reasoning, RTR)框架,存在三大問題:
(1)檢索質(zhì)量不可控,預(yù)取知識(shí)常與動(dòng)態(tài)推理需求脫節(jié);
(2)錯(cuò)誤知識(shí)會(huì)污染推理過程;
(3)系統(tǒng)缺乏自適應(yīng)能力,難以應(yīng)對(duì)開放域問答等場(chǎng)景。

如上圖所示,當(dāng)前研究正轉(zhuǎn)向"協(xié)同檢索推理"新范式(Synergized Retrieval and Reasoning),實(shí)現(xiàn)知識(shí)檢索與邏輯推理的動(dòng)態(tài)迭代。
OpenAI等機(jī)構(gòu)推出的"深度研究(DeepResearch)"系統(tǒng)正是該范式下的典型應(yīng)用,通過智能體協(xié)調(diào)多輪搜索,結(jié)合推理深度解析內(nèi)容。

今天介紹的這篇文章,將分別從推理增強(qiáng)型RAG(Reasoningenhanced RAG)和知識(shí)增強(qiáng)型推理(RAGenhanced Reasoning)兩個(gè)角度帶大家一起探究"協(xié)同檢索推理"新范式(Synergized Retrieval and Reasoning)。
2. 推理增強(qiáng)型RAG(Reasoning enhanced RAG)
傳統(tǒng)RAG方案先檢索文檔,再將結(jié)果與原始問題簡(jiǎn)單拼接來生成答案,往往難以支撐需要深度推理的復(fù)雜任務(wù)。
新一代方法在檢索、整合、生成全流程中融入推理能力,精準(zhǔn)鎖定關(guān)鍵信息,有效減少幻覺,顯著提升回答質(zhì)量。
2.1 檢索優(yōu)化
檢索優(yōu)化通過智能推理提升結(jié)果質(zhì)量,現(xiàn)有方法主要分為三大方向:
- (1) 智能查詢重構(gòu)(Reasoning-Aware Query Reformulation)
- (2) 策略化檢索規(guī)劃(Retrieval Strategy and Planning)
- (3) 檢索模型升級(jí)(Retrieval Model Enhancement)
2.1.1 智能查詢重構(gòu)
智能查詢重構(gòu)是指通過優(yōu)化原始查詢精準(zhǔn)獲取推理上下文。
- 一種方法是采用查詢分解技術(shù),將復(fù)雜問題拆解為簡(jiǎn)單子問;
- 另一種方法是通過查詢重寫,將模糊表述轉(zhuǎn)化為精準(zhǔn)指令,部分研究結(jié)合強(qiáng)化學(xué)習(xí)訓(xùn)練改寫模型;
- 第三種方法是運(yùn)用思維鏈推理擴(kuò)展查詢語(yǔ)義。
2.1.2 策略化檢索規(guī)劃
檢索方案包含兩類:
- 前瞻式規(guī)劃通過推理模型預(yù)先生成完整檢索路徑,如:
- PAR-RAG 運(yùn)用思維鏈規(guī)避局部最優(yōu)
- LPKG 基于知識(shí)圖譜微調(diào)模型
- 自適應(yīng)決策則實(shí)時(shí)判斷檢索需求,如:
- FIND 和自適應(yīng) RAG 通過智能分類減少冗余檢索
2.1.3 檢索模型升級(jí)
升級(jí)路徑分兩種:
- 知識(shí)結(jié)構(gòu)化方案,如:
- GNN-RAG 用圖神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)隱式推理
- RuleRAG 通過符號(hào)規(guī)則保障邏輯一致
- 顯式推理方案,將思維鏈融入查詢,優(yōu)化多跳問答的知識(shí)召回。
2.2 集成增強(qiáng)(Integration Enhancement)
集成增強(qiáng)通過深度推理實(shí)現(xiàn)異構(gòu)證據(jù)的融合,屏蔽無(wú)關(guān)信息干擾。
可分為兩大方向:
- (1) 相關(guān)性精篩 (Relevance assessment)
- (2) 信息熔煉(Information synthesis)
2.2.1 相關(guān)性精篩
通過多維度推理精準(zhǔn)評(píng)估檢索內(nèi)容的相關(guān)性。
- 采用專家評(píng)估機(jī)制篩選高價(jià)值證據(jù);
- 結(jié)合NLI模型過濾與對(duì)抗訓(xùn)練,使模型具備噪聲免疫力。
2.2.2 信息熔煉
核心在于多源信息的有機(jī)融合,比如:
- BeamAggR 首創(chuàng)概率組合推理框架;
- DualRAG 實(shí)現(xiàn)查詢推理與知識(shí)圖譜的協(xié)同進(jìn)化;
- CRP-RAG 構(gòu)建動(dòng)態(tài)推理網(wǎng)絡(luò),實(shí)現(xiàn)知識(shí)路徑的智能優(yōu)選。
2.3 生成增強(qiáng)
獲取了檢索上下文,傳統(tǒng)RAG仍可能因缺乏推理而生成失真內(nèi)容。為此,生成過程中的推理通過兩大核心策略實(shí)現(xiàn)優(yōu)化:
- (1) 上下文感知合成(Context-aware synthesis)
- (2) 證據(jù)錨定控制(Grounded generation control)
2.3.1 上下文感知合成
上下文感知合成可以在保持輸出相關(guān)性的同時(shí)有效降噪。
選擇性上下文機(jī)制會(huì)依據(jù)任務(wù)需求對(duì)內(nèi)容智能篩選與加權(quán):
- Open-RAG 采用稀疏專家混合動(dòng)態(tài)調(diào)配知識(shí)模塊;
- RARE 則通過提示工程注入領(lǐng)域知識(shí),促使模型優(yōu)先調(diào)用外部上下文而非依賴記憶。
推理路徑構(gòu)建方面,可以通過段落相關(guān)性逐級(jí)對(duì)比生成解釋,引導(dǎo)模型精準(zhǔn)推導(dǎo);也可以采用證據(jù)鏈?zhǔn)津?yàn)證,搭建結(jié)構(gòu)化推理框架。
2.3.2 證據(jù)錨定控制
證據(jù)錨定控制通過三重保障確保生成內(nèi)容扎根于檢索證據(jù):
- 事實(shí)驗(yàn)證:Self-RAG(Asai等,2023)在解碼時(shí)植入反思標(biāo)記實(shí)現(xiàn)實(shí)時(shí)糾偏;
- 引用生成:RARR在保持行文流暢的同時(shí)精準(zhǔn)標(biāo)注來源;
- 可信推理:確保每個(gè)推理步驟嚴(yán)格遵循檢索證據(jù),避免引入未經(jīng)驗(yàn)證的內(nèi)容。代表性工作包括:
a.TRACE 通過構(gòu)建知識(shí)圖譜形成連貫證據(jù)鏈
b.AlignRAG 采用批判對(duì)齊機(jī)制優(yōu)化推理路徑
3. 知識(shí)增強(qiáng)型推理(RAG enhanced Reasoning)
3.1 外部知識(shí)檢索
外部知識(shí)檢索通過整合網(wǎng)頁(yè)內(nèi)容、數(shù)據(jù)庫(kù)或工具,填補(bǔ)知識(shí)缺口。定向檢索提升事實(shí)準(zhǔn)確性,讓語(yǔ)言模型基于外部證據(jù)可靠解答復(fù)雜問題。
3.1.1 知識(shí)庫(kù)
知識(shí)庫(kù)(KB)存儲(chǔ)算術(shù)、常識(shí)等結(jié)構(gòu)化知識(shí),檢索策略因任務(wù)而異。
- 問答推理中,AlignRAG、MultiHop-RAG等從通用知識(shí)庫(kù)提取關(guān)聯(lián)事實(shí),強(qiáng)化邏輯鏈條;
- 數(shù)學(xué)推理采用Premise-Retrieval等工具調(diào)用定理庫(kù)引理;
- 法律推理如CASEGPT通過判例庫(kù)實(shí)現(xiàn)類比推演;
- 代碼生成則依賴CodeRAG等從倉(cāng)庫(kù)獲取語(yǔ)法正確的代碼片段。
3.1.2 網(wǎng)絡(luò)檢索
動(dòng)態(tài)網(wǎng)絡(luò)內(nèi)容(新聞/社交媒體)為推理注入時(shí)效性。
- 事實(shí)核查類工具通過多源驗(yàn)證提升可信度;
- 智能問答系統(tǒng)迭代優(yōu)化網(wǎng)絡(luò)素材,契合當(dāng)前搜索智能體趨勢(shì);
- 醫(yī)療診斷則精準(zhǔn)抓取文獻(xiàn)實(shí)現(xiàn)專業(yè)決策。
3.1.3 工具調(diào)用
外部工具顯著增強(qiáng)推理能力:
- 問答場(chǎng)景調(diào)用計(jì)算器/API確保數(shù)值精準(zhǔn)
- 科研建模整合Wolfram Alpha等符號(hào)計(jì)算工具
- 數(shù)學(xué)推理自主使用計(jì)算器驗(yàn)證結(jié)果
- 代碼生成通過文檔庫(kù)保證語(yǔ)法合規(guī)性
3.2 上下文檢索
上下文檢索通過調(diào)用模型的內(nèi)部經(jīng)驗(yàn)或從訓(xùn)練數(shù)據(jù)中提取的示例,為推理提供引導(dǎo)。
這種機(jī)制不僅提供相關(guān)范例,還能幫助模型學(xué)習(xí)推理模式,從而在處理新問題時(shí)提升準(zhǔn)確性與邏輯性。
3.2.1 先驗(yàn)知識(shí)(Prior Experience)
先驗(yàn)知識(shí)是指模型內(nèi)部存儲(chǔ)的過往交互或成功策略,其檢索方式因任務(wù)而異。例如:
- 在機(jī)器人路徑規(guī)劃等決策任務(wù)中,RAHL 和RA-DT 會(huì)調(diào)用歷史決策和強(qiáng)化信號(hào)進(jìn)行序列推理。
- 對(duì)于交互式任務(wù),JARVIS1、RAP 和 EM-LLM 則動(dòng)態(tài)調(diào)取多模態(tài)交互記錄和對(duì)話歷史,實(shí)現(xiàn)個(gè)性化自適應(yīng)推理。
- 在邏輯推理領(lǐng)域,CoPS 通過檢索結(jié)構(gòu)化案例(如醫(yī)療和法律判例),為專業(yè)場(chǎng)景提供可靠的邏輯支持。
3.2.2 示例和訓(xùn)練數(shù)據(jù)(Example or Training Data)
與依賴歷史經(jīng)驗(yàn)不同,示例驅(qū)動(dòng)的方法直接從示例或訓(xùn)練數(shù)據(jù)中提取外部樣本。例如,
- RE4 利用標(biāo)注句對(duì)增強(qiáng)文本關(guān)系識(shí)別;
- OpenRAG、UPRISE、MoD和Dr.ICL則通過精準(zhǔn)匹配問答樣本提升泛化能力。
- 代碼生成領(lǐng)域,PERC會(huì)基于語(yǔ)義/結(jié)構(gòu)相似性,從HumanEval等數(shù)據(jù)集中檢索偽代碼模板,確保生成代碼的準(zhǔn)確性。
4. 協(xié)同式檢索增強(qiáng)推理(Synergized Retrieval and Reasoning)
開放域問答和科學(xué)發(fā)現(xiàn)等真實(shí)場(chǎng)景中,往往需要新證據(jù)與推理能力相互促進(jìn)的迭代過程。
單次檢索可能信息不足,單輪推理易遺漏關(guān)鍵洞見。通過多輪交互式檢索推理協(xié)同,系統(tǒng)能持續(xù)優(yōu)化信息檢索的相關(guān)性,并深化對(duì)原始問題的理解。
現(xiàn)有應(yīng)用主要聚焦兩個(gè)互補(bǔ)維度:
- 注重結(jié)構(gòu)化多步推理的推理工作流,
- 研究智能體與環(huán)境互動(dòng)、彼此協(xié)同的智能體編排機(jī)制。
4.1 推理范式演進(jìn)
推理范式主要分為鏈?zhǔn)?、樹狀和圖狀三大類,展現(xiàn)了從線性推演到多路徑探索的進(jìn)化軌跡。
4.1.1 鏈?zhǔn)酵评恚–hain-based)
思維鏈(CoT)開創(chuàng)了分步線性推理的先河,但純參數(shù)化推理易導(dǎo)致錯(cuò)誤累積。
- IRCoT和Rat創(chuàng)新性地在推理鏈中嵌入檢索機(jī)制。
- CoV-RAG通過逐環(huán)驗(yàn)證機(jī)制確保推理準(zhǔn)確性
- RAFT和Chain-of-Note則分別采用干擾文檔屏蔽和閱讀筆記技術(shù)來凈化上下文信息。
4.1.2 樹狀推理(Tree-based)
思維樹(ToT)架構(gòu)通過構(gòu)建多分支推理路徑,有效規(guī)避了早期決策偏差,在模糊問題診斷和復(fù)雜敘事創(chuàng)作中表現(xiàn)突出。
蒙特卡洛派生的AirRAG等方案則引入概率搜索策略,配合自校驗(yàn)機(jī)制和動(dòng)態(tài)檢索優(yōu)化,顯著提升了推理可靠性。
4.1.3 圖狀推理(Graph-based)
- Walk-on-Graph 把圖學(xué)習(xí)當(dāng)“探路器”:
a.PullNet、QA-GNN、GreaseLM 直接上 GNN,層層聚合鄰居信息;
b.SR、LightRAG、StructRAG 則用向量索引、PageRank 等輕量招式,在多跳上下文里“抽絲”般精準(zhǔn)召回,為 LLM 奉上量身定制的結(jié)構(gòu)化答案。
- Think-on-Graph 圖融進(jìn) LLM 的推理脈絡(luò):
- ToG 讓模型把知識(shí)圖譜當(dāng)“推理樂園”,每步挑實(shí)體、選關(guān)系,自行鋪出一條通向答案的小徑;
- Graph-CoT 設(shè)計(jì)“推理—圖交互—執(zhí)行”三步舞曲,KGP 先搭文檔級(jí)圖譜,二者都讓 LLM 智能體在全局視野里逐段跳躍。
- GraphReader每一步都把子圖抓回來、證據(jù)釘牢,邊推理邊校準(zhǔn),讓答案站得更穩(wěn)。
4.2 智能體編排
基于智能體架構(gòu)研究,將現(xiàn)有工作劃分為單智能體與多智能體兩大范式。
4.2.1 單智能體
單智能體系統(tǒng)通過將知識(shí)檢索深度融入LLM推理循環(huán),實(shí)現(xiàn)了動(dòng)態(tài)信息獲取與主動(dòng)證據(jù)搜尋的閉環(huán)機(jī)制。
- ReAct框架及其衍生技術(shù)開創(chuàng)性地采用"推理-工具交互"交替策略。
- 相較之下,Self-Ask 和IRCoT 通過遞歸子問題求解實(shí)現(xiàn)檢索推理交織。
- DeepRAG 與Self-RAG 則賦予模型自省式檢索決策能力。
相比只依賴提示或靜態(tài)檢索器,Toolformer 和 INTERS 通過監(jiān)督微調(diào)(SFT)在基于指令或合成數(shù)據(jù)集上訓(xùn)練大語(yǔ)言模型,交替進(jìn)行搜索與推理,開辟了一條互補(bǔ)路線。
合成數(shù)據(jù)生成的目的在于創(chuàng)建大規(guī)模、多樣化、任務(wù)專用的搜索數(shù)據(jù)集,無(wú)需大量人工標(biāo)注。
而基于指令的數(shù)據(jù)重構(gòu)則把現(xiàn)有數(shù)據(jù)集改寫成指令格式,以提升模型泛化能力并貼合類人推理。INTERS就是典型:它用 43 個(gè)原始數(shù)據(jù)集和人工編寫的模板,拼出涵蓋 20 個(gè)任務(wù)的 SFT 數(shù)據(jù)集。
強(qiáng)化學(xué)習(xí)(RL)激勵(lì)型方法通過獎(jiǎng)勵(lì)信號(hào)優(yōu)化答案質(zhì)量,指導(dǎo)智能體“搜什么、怎么整合證據(jù)、何時(shí)收工”,專攻復(fù)雜知識(shí)密集型任務(wù)(即“深度研究”難題)。如:
- WebGPT 和 RAG-RL 用事實(shí)正確度或人類偏好來獎(jiǎng)勵(lì)輸出,以提升推理忠實(shí)度。更近的工作直接面向動(dòng)態(tài)環(huán)境(實(shí)時(shí)網(wǎng)頁(yè)搜索、本地工具),訓(xùn)練智能體在嘈雜現(xiàn)實(shí)里探索、反思、自糾。例如 Search-R1 學(xué)會(huì)在推理中生成
4.2.2 多智能體協(xié)同
多智能體系統(tǒng)呈現(xiàn)兩大演進(jìn)方向:
- 分散式架構(gòu)充分發(fā)揮角色化智能體的專業(yè)優(yōu)勢(shì),如:分區(qū)檢索系統(tǒng)、Collab-RAG 的能力分工機(jī)制、MDocAgent組建圖文處理團(tuán)隊(duì)、Agentic reasoning則構(gòu)建起搜索-計(jì)算-推理的智能體聯(lián)邦。
- 集中式架構(gòu)以分層管控見長(zhǎng):HM-RAG 采用"分解-檢索-決策"三級(jí)流水線;Chain of Agents 實(shí)現(xiàn)長(zhǎng)上下文分層處理;以及動(dòng)態(tài)路由機(jī)制。
5. 未來展望
協(xié)同RAG推理系統(tǒng)的未來研究將聚焦于提升推理與檢索能力,以應(yīng)對(duì)現(xiàn)實(shí)場(chǎng)景中對(duì)精準(zhǔn)度、效率、可信度及用戶適配的嚴(yán)苛要求。
5.1 推理能力
5.1.1 推理效率
協(xié)同RAG-推理系統(tǒng)雖擅長(zhǎng)復(fù)雜推理,但迭代檢索和多步推理循環(huán)會(huì)導(dǎo)致顯著延遲。例如,實(shí)際場(chǎng)景中一次深度研究查詢可能耗時(shí)超10分鐘。
未來研究可通過潛在推理方法、思維蒸餾及長(zhǎng)度懲罰策略優(yōu)化推理效率。
此外,量化、剪枝等模型壓縮技術(shù)有望打造高效輕量級(jí)系統(tǒng)。
檢索層面需采用預(yù)算感知查詢規(guī)劃與記憶緩存機(jī)制,配合基于不確定性的自適應(yīng)檢索控制,推動(dòng)系統(tǒng)突破靜態(tài)框架,實(shí)現(xiàn)動(dòng)態(tài)自我調(diào)節(jié)的智能推理-檢索閉環(huán)。
5.1.2 人機(jī)協(xié)作
知識(shí)增強(qiáng)型推理應(yīng)用(比如文獻(xiàn)綜述AI應(yīng)用)具有強(qiáng)個(gè)性化特征,用戶往往難以精準(zhǔn)提問或處理結(jié)果,人類可作為高階智能體提供精細(xì)反饋。
未來潛在研究方向:不確定性下的用戶意圖建模、交互式澄清界面、基于用戶畫像的自適應(yīng)推理策略。
這種人機(jī)協(xié)同范式對(duì)開放域/高風(fēng)險(xiǎn)場(chǎng)景的可靠系統(tǒng)構(gòu)建至關(guān)重要。
5.1.3 智能體能力
協(xié)同式檢索增強(qiáng)推理的核心在于其智能體架構(gòu)——系統(tǒng)能自主選擇推理階段的工具與檢索策略。
要釋放其潛力,需重點(diǎn)研發(fā)支持動(dòng)態(tài)工具選擇、檢索規(guī)劃和工作流編排的智能體框架,這種上下文感知的問題解決能力是應(yīng)對(duì)復(fù)雜多樣化任務(wù)的關(guān)鍵。
5.2 檢索能力
5.2.1 多模態(tài)檢索
現(xiàn)有協(xié)同式檢索增強(qiáng)推理系統(tǒng)多局限于純文本任務(wù)。但實(shí)際應(yīng)用正迫切需求多模態(tài)內(nèi)容的檢索與整合能力。
未來研究需突破傳統(tǒng)視覺-文本范式,實(shí)現(xiàn)真正的多模態(tài)。
這要求強(qiáng)化MLLMs的基礎(chǔ)能力,包括跨模態(tài)推理與語(yǔ)義理解。通過混合模態(tài)思維鏈推理提升模型智能體能力也至關(guān)重要,使其能借助多模態(tài)搜索工具與現(xiàn)實(shí)交互。同時(shí),亟需開發(fā)能統(tǒng)一處理圖像、表格及異構(gòu)文檔的多模態(tài)檢索器。
5.3 檢索可信度
協(xié)同式檢索增強(qiáng)推理系統(tǒng)易受污染知識(shí)源的對(duì)抗攻擊。
確保內(nèi)容可信度是維持可靠推理的關(guān)鍵。
現(xiàn)有水印等技術(shù)雖能提升溯源能力,但需開發(fā)更靈活的防御機(jī)制以應(yīng)對(duì)LLMs演進(jìn)與新型攻擊。不確定性量化與魯棒生成研究的有機(jī)整合將顯著提升系統(tǒng)穩(wěn)健性。未來還應(yīng)擴(kuò)展基準(zhǔn)測(cè)試場(chǎng)景,建立超越準(zhǔn)確率的多元化可信度評(píng)估體系。
本文轉(zhuǎn)載自??大語(yǔ)言模型論文跟蹤??,作者:HuggingAGI

















