從崩潰到可靠：深度研究智能體RL訓練的“標準配方”揭秘

作者：肆零柒 2025-09-29 10:41:26

從“能做”到“可靠做”，深度研究智能體的進化正依賴于RL訓練的三大突破——穩(wěn)定性、效率與多模態(tài)融合。本文基于最新綜述，揭示行業(yè)收斂的“標準配方”及其背后的硬核邏輯。

大家好，我是肆〇柒。今天我們要深入探討的是一項由華為技術團隊發(fā)表的綜述報告《Reinforcement Learning Foundations for Deep Research Systems: A Survey》。這份報告系統(tǒng)梳理了后DeepSeek-R1時代，如何利用強化學習訓練能夠自主進行網(wǎng)絡搜索、工具調用和多步推理的深度研究智能體，為我們揭示了從理論到實踐的關鍵路徑。

思考這樣一個場景：你的研究智能體正在處理一個復雜的金融分析任務，它連續(xù)調用了5次搜索引擎，卻始終無法提取關鍵數(shù)據(jù)——不是因為模型"變笨"了，而是因為訓練過程中的梯度污染導致它學會了"預測"網(wǎng)頁內(nèi)容而非"決策"如何使用這些內(nèi)容。在第7輪訓練迭代后，系統(tǒng)徹底崩潰，開始無限循環(huán)生成相似查詢。

隨著人工智能技術向解決復雜問題邁進，深度研究智能體（Deep Research Agents）正成為連接理論與實踐的關鍵橋梁。這些系統(tǒng)能夠通過協(xié)調推理、開放網(wǎng)絡搜索和工具使用，完成從簡單查詢到復雜知識整合的多步驟任務。然而，如何有效訓練這類系統(tǒng)，使其具備穩(wěn)健的推理能力與決策邏輯，一直是行業(yè)面臨的重大挑戰(zhàn)。

近期，華為技術團隊發(fā)表的《Reinforcement Learning Foundations for Deep Research Systems: A Survey》為這一領域提供了系統(tǒng)性梳理。該研究指出，傳統(tǒng)的監(jiān)督微調（SFT）和直接偏好優(yōu)化（DPO）方法在訓練深度研究智能體時存在明顯局限，而強化學習（RL）正成為端到端優(yōu)化這類系統(tǒng)的"有前途的途徑"。下面將與大家一起看看深度研究智能體RL訓練中的三大核心挑戰(zhàn)——穩(wěn)定性、樣本效率、多模態(tài)集成，揭示行業(yè)已形成的"標準配方"及其背后的理論依據(jù)。（注意這是一份索引級綜述，每個棧都并不深入，如有需要可按圖索驥）

各分支領域的調研組織架構及代表性論文

RL for Deep Research Systems——從理論到實踐的跨越

深度研究系統(tǒng)被定義為能夠通過"協(xié)調推理、開放網(wǎng)絡搜索和工具使用"來解決問題的智能體AI。與傳統(tǒng)問答系統(tǒng)不同，這類系統(tǒng)需要在閉環(huán)、工具豐富的環(huán)境中進行軌跡級學習（trajectory-level learning），包括決定如何分解問題、何時調用工具、信任哪些證據(jù)、何時停止以及如何在準確性、成本和延遲之間進行權衡。

SFT的崩潰時刻：多個團隊曾嘗試用SFT訓練Web研究智能體，結果發(fā)現(xiàn)模型在推理時遇到訓練中未見過的狀態(tài)就陷入無限循環(huán)。WebSailor團隊報告，他們的模型在處理"查找最新季度財報"任務時，由于無法適應網(wǎng)頁結構變化，導致搜索查詢不斷重復且無法提取關鍵數(shù)據(jù)，最終訓練完全停滯。

監(jiān)督微調（SFT）在訓練深度研究智能體時面臨三大缺陷：模仿偏差（immitation bias）導致模型只能復制訓練數(shù)據(jù)中的行為模式；暴露偏差（exposure bias）使模型在推理時遇到訓練中未見過的狀態(tài)；以及環(huán)境反饋利用不足，無法從交互結果中學習。而直接偏好優(yōu)化（DPO）雖能處理偏好數(shù)據(jù)，但其存在三大明顯局限：

1. 優(yōu)化目標偏差：DPO優(yōu)化的是文本替代而非狀態(tài)-動作回報，其成對損失應用于基于先前文本條件的字符串，缺乏對環(huán)境狀態(tài)（工具結果、緩存、預算）或動作語義的明確基礎。這使得信用分配本質上是短視的——它僅判斷該步驟中哪個片段更優(yōu)，但無法將下游成功/失敗歸因于早期檢索或工具使用決策，也無法在部分可觀察性下權衡搜索深度與成本/延遲。

2. Schema依賴：DPO繼承了schema和代理依賴，需要手工設計過程分解并生成偏好（通常使用啟發(fā)式或另一個LLM），這引入了標簽噪聲，當未見過的任務需要不同的分解時，會導致脆弱性。

3. 離策略局限：DPO主要是離策略和離線的：它改進固定比較，但不探索動作和工具結果的閉環(huán)空間，因此難以學習恢復行為（例如，當查詢返回垃圾、網(wǎng)站阻止訪問或價格變動時），也難以適應環(huán)境變化。

強化學習則提供了端到端優(yōu)化的可能性，使系統(tǒng)能夠從環(huán)境信號中進行整體改進，實現(xiàn)跨多步驟軌跡的信用分配，并探索替代策略以優(yōu)化搜索、工具協(xié)調、恢復和綜合能力。RL將系統(tǒng)視為狀態(tài)和動作上的策略，使深度研究智能體能夠真正實現(xiàn)"學習如何研究"。

當前，RL訓練深度研究智能體面臨三大核心瓶頸：穩(wěn)定性問題（如獎勵崩潰）、樣本效率低下（稀疏獎勵、高成本環(huán)境交互）以及多模態(tài)融合困難。令人鼓舞的是，行業(yè)研究正逐漸收斂于一個"標準RL配方"，為解決這些挑戰(zhàn)提供了系統(tǒng)性路徑。

Training Regime Summary

議題一：穩(wěn)定性——標準配方如何馴服RL訓練的不確定性？

挑戰(zhàn)根源：從崩潰到穩(wěn)定的演進

深度研究智能體的RL訓練穩(wěn)定性問題源于多重復雜因素。WebSailor團隊在訓練初期遭遇了典型崩潰：模型在第3輪迭代就陷入無限搜索循環(huán)——不斷生成相似查詢卻無法提取有效信息，導致訓練完全停滯。問題根源在于：

長周期行為導致的信用分配困難：在多輪工具交互中，早期決策（如查詢措辭）如何影響最終結果難以追溯
工具交互引入的環(huán)境非平穩(wěn)性：網(wǎng)頁內(nèi)容動態(tài)變化使相同查詢返回不同結果
稀疏且延遲的獎勵信號：復雜Web任務中，僅有最終答案能提供有效反饋
外部工具返回內(nèi)容對梯度的干擾：策略網(wǎng)絡學習"預測"不可控的網(wǎng)頁內(nèi)容，而非"決策"如何使用它們

行業(yè)標準配方：DeepSeek-R1-style基準流程

根據(jù)系統(tǒng)性歸納，當前最優(yōu)實踐已收斂于一個清晰的基準流程。該流程包含五大核心組件：

1. 可選冷啟動：使用SFT/RSFT教授接口規(guī)范（如<think>、<search>標簽），穩(wěn)定早期rollout

2. 模板化軌跡：強制使用結構化標簽（ReAct風格），確保生成的軌跡可解析

3. 結果導向獎勵：以最終答案正確性（EM/F1）為核心，輔以格式合規(guī)性獎勵

4. GRPO/PPO+KL：采用組相對策略優(yōu)化（GRPO）或近端策略優(yōu)化（PPO），并加入對參考策略的KL散度正則化

5. 工具Token掩碼：在梯度計算中屏蔽工具返回內(nèi)容（<result>...</result>），防止噪聲干擾

這一"標準配方"已成為后DeepSeek-R1時代深度研究智能體訓練的事實基準。行業(yè)實踐中，大多數(shù)研究采用了這種模式，可概括為"可選冷啟動以教授接口，帶有明確工具標簽和動作預算的模板化rollout，結果（加格式）獎勵，以及在屏蔽工具返回Token的同時使用PPO/GRPO與參考KL。"

穩(wěn)定性三支柱深度解析

冷啟動（Cold Start）：避免早期崩潰的安全網(wǎng)

雖然約半數(shù)論文省略冷啟動以簡化流程，但另一半工作報告了明確收益：提升早期穩(wěn)定性、避免獎勵崩潰，并加速收斂。例如，RAG-R1論證SFT對"利用內(nèi)部和外部知識"至關重要；WebSailor發(fā)現(xiàn)，與直接RL相比，RFT→RL路徑能收斂到更高性能。

行業(yè)實踐中，冷啟動主要通過SFT/RSFT教授推理骨架、工具調用和答案格式等基本技能。WebSailor研究表明，針對復雜Web任務，適度的RSFT冷啟動"不可或缺"。該研究通過直接RL與RFT→RL的對比實驗，明確展示了冷啟動模型能夠收斂到更高性能。ARPO也明確采用冷啟動以緩解初始RL階段的獎勵崩潰問題。

KL散度正則化：策略演進的"錨點"

KL正則化是訓練穩(wěn)定的關鍵要素。通過這種方法，模型在工具交錯文本中能夠保持學習的穩(wěn)定性，避免策略因外部噪聲而發(fā)生劇烈波動。WebSailor團隊報告，通過KL正則化，模型格式正確率顯著提升，同時減少了無效工具調用。

工具Token掩碼（Tool-token masking）：隔離噪聲的關鍵

工具返回的內(nèi)容不受策略控制，若將其納入梯度計算，可能導致策略學習到對不可控環(huán)境因素的過度敏感。因此，在計算梯度時忽略<result>標簽內(nèi)的Token，僅讓策略學習從這些觀察中做出決策，而非預測或生成這些觀察，是提升訓練穩(wěn)定性的關鍵技術。

Training Regime Summary

上表顯示，大多數(shù)研究在梯度計算中屏蔽了工具返回Token。這一技術確保了梯度更新僅基于模型可控的輸出，避免了外部工具噪聲對訓練過程的干擾。在工具增強優(yōu)化中，由工具生成的Token被屏蔽，因此梯度（和KL）僅基于模型生成的文本計算，從而顯著提高了訓練穩(wěn)定性。

優(yōu)化器的實證選擇：GRPO vs. PPO vs. REINFORCE++

行業(yè)實踐中，GRPO因其組相對優(yōu)勢計算機制，在多智能體協(xié)作和長周期任務中展現(xiàn)出更好的樣本效率。業(yè)內(nèi)多篇論文采用GRPO作為主要算法。

PPO則在獎勵信號噪聲較大、軌跡較長的場景下表現(xiàn)出更強的穩(wěn)定性，其價值函數(shù)批評器能有效平滑高方差回報。Search-R1，MEM1，RAG-R1等研究采用PPO作為主要訓練器。

REINFORCE++（如R1-Searcher++采用）在特定數(shù)據(jù)集上能實現(xiàn)更高的數(shù)據(jù)效率和域內(nèi)得分。

系統(tǒng)級穩(wěn)定性增強

ASearcher提出的異步設計代表了系統(tǒng)級穩(wěn)定性增強的創(chuàng)新方向。通過完全異步的actor-learner架構，該設計解耦了rollout生成與策略更新，支持長周期軌跡與重型工具使用的容忍機制。動態(tài)過濾技術則通過識別并移除"零信號提示"（即無法提供有效學習信號的交互軌跡），進一步提高了訓練效率。

層級式深度研究系統(tǒng)架構示意圖

在深度研究系統(tǒng)的架構設計中，分層架構成為主流趨勢。如圖所示，一個典型的系統(tǒng)包含三個關鍵組件：規(guī)劃器（Planner）執(zhí)行逐步分解和反思；協(xié)調器（Coordinator）處理任務分配、委托、聚合和驗證；以及執(zhí)行器池（Executors）（即專業(yè)智能體和工具）執(zhí)行網(wǎng)絡和文件上的基礎操作。這種關注點分離將戰(zhàn)略規(guī)劃與執(zhí)行細節(jié)解耦，實現(xiàn)了并行化、即插即用的專業(yè)知識（例如，替換更好的搜索器或代碼運行器，擴展到額外工具），以及針對過程日志記錄、信用分配和可審計性的更緊密的儀器化。

分層架構對于部署非常有吸引力，但目前尚無法對整個工作流進行端到端訓練。因此，大多數(shù)研究針對單個模型（通常是規(guī)劃器）直接連接到一組基本工具（搜索/瀏覽/代碼），這簡化了rollout長度和方差，適應現(xiàn)有的RL/SFT/DPO基礎設施，并產(chǎn)生更清晰的信號。訓練目標是以端到端的方式在一個地方加強長視野能力（即推理、分解、工具使用、反思和綜合），使結果規(guī)劃器能夠作為更強的"大腦"插入完整層次結構中，而協(xié)調和執(zhí)行保持模塊化和可替換。

議題二：樣本效率——如何在有限交互中最大化學習價值？

挑戰(zhàn)根源再審視：從高成本到經(jīng)濟訓練的轉變

開放Web環(huán)境的巨大狀態(tài)空間和有效軌跡的極度稀疏性，使得深度研究智能體的RL訓練面臨嚴重的樣本效率挑戰(zhàn)。在多輪工具交互場景中，僅有極小比例的軌跡能提供高質量的學習信號，而真實環(huán)境交互（如搜索引擎API調用）的成本高昂且存在延遲，進一步限制了可獲取的訓練樣本數(shù)量。

成本痛點：一個中等規(guī)模團隊每月進行50次RL訓練迭代的成本高達$（每次迭代￥$12.7），其中90%以上用于搜索引擎API調用。這對大多數(shù)研究團隊來說是難以承受的負擔。

行業(yè)實踐中，許多系統(tǒng)結合結果獎勵（最終答案正確性）與小格式獎勵，以鼓勵生成良好形成的軌跡。這表明，為了提高樣本效率，研究者們開始關注軌跡的質量而不僅僅是最終結果。

問答任務復雜度等級示例

構造 vs. 篩選：數(shù)據(jù)工程的雙軌范式

提升樣本效率的核心在于將數(shù)據(jù)準備過程解耦為兩個獨立階段："構造（Construct）"與"篩選（Curate）"。這種框架為高效數(shù)據(jù)工程提供了系統(tǒng)性方法論。

構造（C → Q?）：目標是"增加結構難度"。例如，SearchExpert從新鮮爬取開始，生成代碼級搜索DAG并轉換為自然語言DAG；CrawlQA通過擴展超鏈接圖生成多跳問題。E2HQA則通過用從網(wǎng)絡挖掘的約束替換實體來迭代重寫簡單種子，同時保持最終答案不變。這些方法主動提升任務的復雜性。
篩選（Curate(Q?)）：目標是"提升信號質量"。例如，WebPuzzle使用pass@k難度標簽篩選數(shù)據(jù)；ASearcher的動態(tài)過濾器識別并移除"零信號提示"；DUET框架系統(tǒng)化地生成與選擇高質量實例。這些方法確保進入訓練集的數(shù)據(jù)具有高信息密度。

這種"構造"與"篩選"的分離，使研究者能獨立優(yōu)化任務的"復雜性"與"可學習性"，是當前高效數(shù)據(jù)工程的基石。

算法層面的效率突破

課程學習與動態(tài)采樣

EVO-RAG引入了兩階段課程：發(fā)現(xiàn)階段鼓勵廣泛、多樣的查詢，隨后的精煉階段引導智能體轉向簡潔、有針對性的查詢以獲取基于證據(jù)的答案。Writing-RL進一步將這一思想推廣到多階段課程，并添加了邊界感知的數(shù)據(jù)選擇，通過估計"學習余量"（即策略輸出與最強參考之間的差距）來優(yōu)先選擇具有最大改進潛力的樣本。這種動態(tài)難度調整機制使模型能夠循序漸進地掌握復雜技能。

密集獎勵設計

OpenR整合了過程獎勵模型（Process Reward Models, PRMs），將步驟級信號注入訓練和測試時搜索。StepSearch則通過信息增益與冗余懲罰機制，為每一步提供更精細的反饋：步驟獎勵添加了信息增益（即該輪檢索文檔與參考黃金證據(jù)集之間的邊際相似度改進）減去冗余懲罰（隨著與早期輪次的重疊增加而增加），引導智能體朝著多樣化、高產(chǎn)出的探索方向發(fā)展。

此外，StepSearch還引入了查詢意圖對齊技術，即模型生成的查詢與該輪參考子任務關鍵詞之間的重疊。這種每步獎勵使搜索保持在任務軌道上（例如，針對分解中的正確子問題），而無需等待最終答案提供反饋。

模擬與自包含：降低真實交互成本的核心策略

ZeroSearch的模擬器革命

ZeroSearch提出了一種基于LLM的搜索模擬器，能夠替代真實搜索引擎進行訓練。該模擬器通過"噪聲課程"模擬真實網(wǎng)絡動態(tài)，將API支出降低"數(shù)量級"而不損害QA質量。模擬器的關鍵在于平衡真實性與可控性：初期使用高度可控的模擬環(huán)境進行基礎技能訓練，隨后逐漸引入噪聲和不確定性。

SSRL的內(nèi)化搜索

SSRL提出了自搜索循環(huán)的概念，將搜索過程結構化到軌跡內(nèi)部。通過在模型內(nèi)部優(yōu)化此循環(huán)，SSRL實現(xiàn)了檢索成本的內(nèi)化，使模型能夠自主決定何時需要外部信息以及需要多少信息。這種內(nèi)化機制與ZeroSearch的模擬器策略形成互補，共同構成了降低真實檢索成本的雙軌策略。

證據(jù)必要性訓練

FrugalRAG引入了STOP行動，使模型能夠學習顯式停止條件，在查詢數(shù)量與置信度間進行權衡。IKEA則通過知識邊界感知設計，提示偏向內(nèi)部回憶，并使用GRPO強化邊界意識。AutoRefine通過搜索-精煉循環(huán)進一步優(yōu)化了這一過程：在每次搜索后，將長文檔壓縮成簡短的"精煉筆記"，只保留后續(xù)步驟中使用的關鍵證據(jù)，防止提示增長而不犧牲保真度。

WebSailor從另一個角度解決了上下文問題：它采用輕量級拒絕采樣微調步驟，將冗長的推理和工具使用軌跡重構為簡潔、一致、面向動作的序列，從而提高軌跡質量。

這些方法共同指向一個關鍵目標：訓練模型在推理深度與檢索輪次間做出最優(yōu)決策，實現(xiàn)"節(jié)儉式研究"，在保證質量的同時最小化資源消耗。

Open-Source Frameworks

議題三：多模態(tài)集成——當"看見"成為一種"決策"

多模態(tài)研究代理的獨特挑戰(zhàn)

當深度研究系統(tǒng)從純文本擴展到多模態(tài)領域，新的挑戰(zhàn)隨之而來。視覺信息的高熵特性與語言模型Token空間的融合難題，使得"何時感知"比"感知什么"更加關鍵。此外，高質量多模態(tài)交互軌跡數(shù)據(jù)的稀缺性，進一步限制了多模態(tài)深度研究智能體的發(fā)展。

崩潰：曾有多個團隊嘗試訓練多模態(tài)研究智能體，結果發(fā)現(xiàn)模型要么過度依賴視覺輸入（即使文本已足夠），要么完全忽略關鍵圖像信息。WebWatcher團隊報告，他們的初始模型在處理包含圖表的金融報告時，92%的情況下生成了與圖表無關的結論，因為模型無法決定"何時需要感知"。

多模態(tài)代理的近期進展主要不是由新優(yōu)化器驅動，而是由"感知即行動"、工程化觀測設計和精簡RL配方（GRPO/PPO+KL與工具Token掩碼及結果優(yōu)先獎勵）驅動。

"感知即行動"范式的三大支柱

動作化視覺操作

在多模態(tài)深度研究系統(tǒng)中，crop、zoom、highlight等視覺操作被視為策略動作，而非簡單的預處理步驟。這與傳統(tǒng)視覺語言模型（VLM）的關鍵區(qū)別在于：多模態(tài)決策被嵌入到推理循環(huán)中，成為智能體主動選擇的行為。

工程化觀測設計

多模態(tài)系統(tǒng)采用多種技術優(yōu)化觀測輸入：

原始像素裁剪：保留視覺細節(jié)（如小字號、圖表坐標），避免編碼器空間縮略圖的信息損失。研究表明，直接對原始像素進行裁剪能有效恢復小文本和圖表細節(jié)。
雙圖再插入：將原始圖I與編輯后圖I'同時輸入，強制模型關注變化區(qū)域，解決注意力分散問題。編輯后的圖像用于外部化注意力，幫助模型聚焦于關鍵區(qū)域。
讀者到摘要轉換：通過對網(wǎng)頁內(nèi)容進行結構化摘要，抑制無關文本（如廣告、導航欄）對模型決策的干擾。嚴格的、類型化的工具返回模式配合控制器級規(guī)范化/緩存，有效提升了輸入質量。

此外，軌跡質量門控技術——包括模式檢查、步驟一致性過濾器和實體模糊化（與檢索到的圖像配對）——防止了"從先前答案獲取答案"的捷徑行為，強制模型進行真正的視覺基礎訓練。

證據(jù)必要性內(nèi)化

多模態(tài)系統(tǒng)需要內(nèi)化"證據(jù)必要性"決策機制，使模型能夠自主決定"是否需要感知"、"使用哪種模態(tài)"。通過獎勵設計抑制不必要的視覺查詢，并強化基礎事實，確保多模態(tài)輸入真正支撐推理過程。

同時灌輸證據(jù)必要性——決定使用哪種模態(tài)以及是否在檢索前感知——以抑制過度搜索并加強基礎。

多模態(tài)RL訓練的實證進展

Visual-ARFT和VRAG-RL代表了當前多模態(tài)RL訓練的前沿實踐，均基于Qwen2.5-VL-7B-Instruct模型，但采用不同的訓練策略（前者無冷啟動，后者有冷啟動）。WebWatcher則驗證了大型多模態(tài)模型（Qwen2.5-VL-32B-Instruct）在真實Web環(huán)境中的可擴展性。

Multimodal Integration Summary

上表提供了多模態(tài)系統(tǒng)的關鍵信息，包括Visual-ARFT、VRAG-RL、WebWatcher和MMSearch-R1等系統(tǒng)的主干模型、是否采用冷啟動、獎勵類型和RL優(yōu)化器。

值得注意的是，MRAMG-Bench提供了更全面的多模態(tài)基準，包含4,346個文檔、14,190張圖像和4,800個QA對，來自多個領域，任務需要文本和視覺答案。MMDocRAG則展示了多模態(tài)文檔處理的先進能力，能夠有效處理PDF、儀表盤等復雜文檔。

評估困境與未來方向

值得注意的是，當前研究的瓶頸不僅在于算法，更在于評估體系的缺失。現(xiàn)有基準如WebWatcher、MMSearch-R1等，雖能評估最終答案質量，卻缺乏對"過程效率"（如動作預算、檢索輪次）和"模態(tài)必要性"的標準化度量。這導致不同研究間難以公平比較，也阻礙了"節(jié)儉式研究"等關鍵能力的優(yōu)化。

行業(yè)共識指出三個關鍵研究方向：

1. 性能歸因：將性能提升追溯到特定感知步驟或圖像區(qū)域

2. 規(guī)模化推理：實現(xiàn)大規(guī)模多圖像/多頁面推理（PDF、儀表盤）而不導致上下文爆炸式增長

3. 標準化評估：開發(fā)"標準化過程+節(jié)儉度量"基準，并標準化報告（動作預算、掩碼策略、緩存/速率限制）以實現(xiàn)公平比較

此外，多模態(tài)評估中需要考慮的"模態(tài)感知效率信號"包括：

搜索懲罰以減少網(wǎng)絡調用
軌跡級圖像檢索排序（NDCG）以更早顯示正確的視覺結果
可執(zhí)行圖像代碼檢查以鼓勵安全的預處理探索

總結：未竟之路與開放性問題

深度研究智能體的RL訓練已從理論探索走向實踐應用，但仍有諸多關鍵問題需要解決。

穩(wěn)定性深化：從"能用"到"可靠"

在穩(wěn)定性方面，行業(yè)實踐中仍面臨三個開放問題：

1. 冷啟動與課程調度：如何自動決定SFT/RSFT停止時機、課程階段推進，以在不過度擬合格式的情況下最大化樣本效率

2. 優(yōu)化器-工具交互：在部分、延遲和分段信用條件下，如何原則性地選擇PPO/GRPO/REINFORCE++；能否將分段感知優(yōu)勢歸因與KL控制統(tǒng)一，以實現(xiàn)更強穩(wěn)定性

3. 分段優(yōu)勢歸因：在具有工具邊界的環(huán)境中，如何更有效地分配信用

收獲：如果你正在訓練深度研究智能體，以下檢查清單能幫助你避免常見陷阱：

對于復雜Web任務，務必添加冷啟動階段（至少3輪SFT）
在梯度計算中屏蔽工具返回Token（<result>...</result>）
使用KL系數(shù)防止策略過度偏離
根據(jù)任務特性選擇合適的優(yōu)化器（GRPO適用于長周期任務）

樣本效率突破：從"昂貴"到"經(jīng)濟"

樣本效率的突破需要真正多目標優(yōu)化能力的提升。當前系統(tǒng)尚難以同時優(yōu)化準確率與顯式預算（延遲、查詢、token），且缺乏測試時計算分配的保證機制。主動任務生成——讓智能體驅動自身數(shù)據(jù)合成——可能成為解決樣本效率問題的創(chuàng)新路徑。

成本節(jié)約路徑：根據(jù)下表中的框架特性，實施以下策略可顯著降低訓練成本：

采用搜索模擬器：將API支出降低"數(shù)量級"
引入STOP行動：減少無效工具調用
使用動態(tài)過濾：移除"零信號提示"
實施課程學習：加速收斂速度

Open-Source Framework

多模態(tài)前沿：從"能看"到"會思考"

多模態(tài)領域的挑戰(zhàn)尤為突出。行業(yè)共識特別指出了三個關鍵方向：

1. 過程監(jiān)督可擴展性：如何將當前的步驟級信號擴展到更長、更復雜的多模態(tài)軌跡

2. 模態(tài)選擇機制：開發(fā)更精細的"證據(jù)必要性"決策框架

3. 跨模態(tài)信用分配：如何在視覺與語言決策間公平分配成功/失敗的信用

框架選擇指南：根據(jù)你的團隊需求，選擇合適的訓練框架：

如果追求"開箱即用"，verl是比較理想的起點
若瓶頸在"長軌跡吞吐量"，AReaL和SLIME的異步設計能顯著提升模型浮點運算利用率（MFU）
若需對接現(xiàn)有生產(chǎn)系統(tǒng)，Agent Lightning的"訓練器-智能體解耦"架構可最小化重構成本

上一段的表格對比了當前主流的開源深度研究框架，包括Agent Lightning、AREAL、AWorld等。這些框架在規(guī)劃角色、工具接口、人類監(jiān)督和評估報告方面各有特點，為不同需求的研究團隊提供了多樣化選擇。（擴展閱讀）

行業(yè)實踐中，實用深度研究系統(tǒng)逐漸形成一個收斂的配方：

1. 規(guī)劃與執(zhí)行分離：保持規(guī)劃器狀態(tài)的干凈，同時專業(yè)化和路由增加吞吐量和深度

2. 結構化工具接口：窄且類型明確的動作（搜索、瀏覽、代碼；MCP）減少故障模式，使恢復、緩存和重試可行

3. 人機協(xié)同：在需要人類判斷的關鍵點保留人類監(jiān)督

RL是訓練深度研究智能體的"有前途的途徑"，但要實現(xiàn)這一潛力，需要系統(tǒng)性解決基礎設施瓶頸、提煉設計模式并提供實用指南。隨著研究的深入和技術的成熟，深度研究智能體有望從"能做"邁向"可靠做"，真正解決現(xiàn)實世界中的復雜問題，為科學研究、商業(yè)決策和知識創(chuàng)新提供強大支持。

技術演進：

早期系統(tǒng)（如Search-R1）嘗試直接RL訓練，但面臨嚴重穩(wěn)定性問題
WebSailor發(fā)現(xiàn)冷啟動對復雜Web任務"不可或缺"，開始引入SFT預訓練
GRPO被證明在長周期任務中優(yōu)于PPO，成為主流選擇
工具Token掩碼和KL正則化成為行業(yè)標配，形成"標準配方"

這場從理論到實踐的跨越，不僅關乎技術進步，更代表著人工智能從"回答問題"到"解決問題"的根本轉變。隨著RL訓練方法的不斷完善，深度研究智能體將成為連接人類智慧與機器能力的關鍵橋梁。本文只是一份可以按圖索驥的綜述，更加細節(jié)的內(nèi)容，可以通過各個棧另行深度探索。

責任編輯：龐桂玉來源：覺察流

智能體 RL訓練 AI 人工智能