從崩潰到可靠:深度研究智能體RL訓練的“標準配方”揭秘

大家好,我是肆〇柒。今天我們要深入探討的是一項由華為技術團隊發(fā)表的綜述報告《Reinforcement Learning Foundations for Deep Research Systems: A Survey》。這份報告系統(tǒng)梳理了后DeepSeek-R1時代,如何利用強化學習訓練能夠自主進行網(wǎng)絡搜索、工具調用和多步推理的深度研究智能體,為我們揭示了從理論到實踐的關鍵路徑。

思考這樣一個場景:你的研究智能體正在處理一個復雜的金融分析任務,它連續(xù)調用了5次搜索引擎,卻始終無法提取關鍵數(shù)據(jù)——不是因為模型"變笨"了,而是因為訓練過程中的梯度污染導致它學會了"預測"網(wǎng)頁內(nèi)容而非"決策"如何使用這些內(nèi)容。在第7輪訓練迭代后,系統(tǒng)徹底崩潰,開始無限循環(huán)生成相似查詢。
隨著人工智能技術向解決復雜問題邁進,深度研究智能體(Deep Research Agents)正成為連接理論與實踐的關鍵橋梁。這些系統(tǒng)能夠通過協(xié)調推理、開放網(wǎng)絡搜索和工具使用,完成從簡單查詢到復雜知識整合的多步驟任務。然而,如何有效訓練這類系統(tǒng),使其具備穩(wěn)健的推理能力與決策邏輯,一直是行業(yè)面臨的重大挑戰(zhàn)。
近期,華為技術團隊發(fā)表的《Reinforcement Learning Foundations for Deep Research Systems: A Survey》為這一領域提供了系統(tǒng)性梳理。該研究指出,傳統(tǒng)的監(jiān)督微調(SFT)和直接偏好優(yōu)化(DPO)方法在訓練深度研究智能體時存在明顯局限,而強化學習(RL)正成為端到端優(yōu)化這類系統(tǒng)的"有前途的途徑"。下面將與大家一起看看深度研究智能體RL訓練中的三大核心挑戰(zhàn)——穩(wěn)定性、樣本效率、多模態(tài)集成,揭示行業(yè)已形成的"標準配方"及其背后的理論依據(jù)。(注意這是一份索引級綜述,每個棧都并不深入,如有需要可按圖索驥)

各分支領域的調研組織架構及代表性論文
RL for Deep Research Systems——從理論到實踐的跨越
深度研究系統(tǒng)被定義為能夠通過"協(xié)調推理、開放網(wǎng)絡搜索和工具使用"來解決問題的智能體AI。與傳統(tǒng)問答系統(tǒng)不同,這類系統(tǒng)需要在閉環(huán)、工具豐富的環(huán)境中進行軌跡級學習(trajectory-level learning),包括決定如何分解問題、何時調用工具、信任哪些證據(jù)、何時停止以及如何在準確性、成本和延遲之間進行權衡。
SFT的崩潰時刻:多個團隊曾嘗試用SFT訓練Web研究智能體,結果發(fā)現(xiàn)模型在推理時遇到訓練中未見過的狀態(tài)就陷入無限循環(huán)。WebSailor團隊報告,他們的模型在處理"查找最新季度財報"任務時,由于無法適應網(wǎng)頁結構變化,導致搜索查詢不斷重復且無法提取關鍵數(shù)據(jù),最終訓練完全停滯。
監(jiān)督微調(SFT)在訓練深度研究智能體時面臨三大缺陷:模仿偏差(immitation bias)導致模型只能復制訓練數(shù)據(jù)中的行為模式;暴露偏差(exposure bias)使模型在推理時遇到訓練中未見過的狀態(tài);以及環(huán)境反饋利用不足,無法從交互結果中學習。而直接偏好優(yōu)化(DPO)雖能處理偏好數(shù)據(jù),但其存在三大明顯局限:
1. 優(yōu)化目標偏差:DPO優(yōu)化的是文本替代而非狀態(tài)-動作回報,其成對損失應用于基于先前文本條件的字符串,缺乏對環(huán)境狀態(tài)(工具結果、緩存、預算)或動作語義的明確基礎。這使得信用分配本質上是短視的——它僅判斷該步驟中哪個片段更優(yōu),但無法將下游成功/失敗歸因于早期檢索或工具使用決策,也無法在部分可觀察性下權衡搜索深度與成本/延遲。
2. Schema依賴:DPO繼承了schema和代理依賴,需要手工設計過程分解并生成偏好(通常使用啟發(fā)式或另一個LLM),這引入了標簽噪聲,當未見過的任務需要不同的分解時,會導致脆弱性。
3. 離策略局限:DPO主要是離策略和離線的:它改進固定比較,但不探索動作和工具結果的閉環(huán)空間,因此難以學習恢復行為(例如,當查詢返回垃圾、網(wǎng)站阻止訪問或價格變動時),也難以適應環(huán)境變化。
強化學習則提供了端到端優(yōu)化的可能性,使系統(tǒng)能夠從環(huán)境信號中進行整體改進,實現(xiàn)跨多步驟軌跡的信用分配,并探索替代策略以優(yōu)化搜索、工具協(xié)調、恢復和綜合能力。RL將系統(tǒng)視為狀態(tài)和動作上的策略,使深度研究智能體能夠真正實現(xiàn)"學習如何研究"。
當前,RL訓練深度研究智能體面臨三大核心瓶頸:穩(wěn)定性問題(如獎勵崩潰)、樣本效率低下(稀疏獎勵、高成本環(huán)境交互)以及多模態(tài)融合困難。令人鼓舞的是,行業(yè)研究正逐漸收斂于一個"標準RL配方",為解決這些挑戰(zhàn)提供了系統(tǒng)性路徑。

Training Regime Summary
議題一:穩(wěn)定性——標準配方如何馴服RL訓練的不確定性?
挑戰(zhàn)根源:從崩潰到穩(wěn)定的演進
深度研究智能體的RL訓練穩(wěn)定性問題源于多重復雜因素。WebSailor團隊在訓練初期遭遇了典型崩潰:模型在第3輪迭代就陷入無限搜索循環(huán)——不斷生成相似查詢卻無法提取有效信息,導致訓練完全停滯。問題根源在于:
- 長周期行為導致的信用分配困難:在多輪工具交互中,早期決策(如查詢措辭)如何影響最終結果難以追溯
- 工具交互引入的環(huán)境非平穩(wěn)性:網(wǎng)頁內(nèi)容動態(tài)變化使相同查詢返回不同結果
- 稀疏且延遲的獎勵信號:復雜Web任務中,僅有最終答案能提供有效反饋
- 外部工具返回內(nèi)容對梯度的干擾:策略網(wǎng)絡學習"預測"不可控的網(wǎng)頁內(nèi)容,而非"決策"如何使用它們
行業(yè)標準配方:DeepSeek-R1-style基準流程
根據(jù)系統(tǒng)性歸納,當前最優(yōu)實踐已收斂于一個清晰的基準流程。該流程包含五大核心組件:
1. 可選冷啟動:使用SFT/RSFT教授接口規(guī)范(如<think>、<search>標簽),穩(wěn)定早期rollout
2. 模板化軌跡:強制使用結構化標簽(ReAct風格),確保生成的軌跡可解析
3. 結果導向獎勵:以最終答案正確性(EM/F1)為核心,輔以格式合規(guī)性獎勵
4. GRPO/PPO+KL:采用組相對策略優(yōu)化(GRPO)或近端策略優(yōu)化(PPO),并加入對參考策略的KL散度正則化
5. 工具Token掩碼:在梯度計算中屏蔽工具返回內(nèi)容(<result>...</result>),防止噪聲干擾
這一"標準配方"已成為后DeepSeek-R1時代深度研究智能體訓練的事實基準。行業(yè)實踐中,大多數(shù)研究采用了這種模式,可概括為"可選冷啟動以教授接口,帶有明確工具標簽和動作預算的模板化rollout,結果(加格式)獎勵,以及在屏蔽工具返回Token的同時使用PPO/GRPO與參考KL。"
穩(wěn)定性三支柱深度解析
冷啟動(Cold Start):避免早期崩潰的安全網(wǎng)
雖然約半數(shù)論文省略冷啟動以簡化流程,但另一半工作報告了明確收益:提升早期穩(wěn)定性、避免獎勵崩潰,并加速收斂。例如,RAG-R1論證SFT對"利用內(nèi)部和外部知識"至關重要;WebSailor發(fā)現(xiàn),與直接RL相比,RFT→RL路徑能收斂到更高性能。
行業(yè)實踐中,冷啟動主要通過SFT/RSFT教授推理骨架、工具調用和答案格式等基本技能。WebSailor研究表明,針對復雜Web任務,適度的RSFT冷啟動"不可或缺"。該研究通過直接RL與RFT→RL的對比實驗,明確展示了冷啟動模型能夠收斂到更高性能。ARPO也明確采用冷啟動以緩解初始RL階段的獎勵崩潰問題。
KL散度正則化:策略演進的"錨點"

KL正則化是訓練穩(wěn)定的關鍵要素。通過這種方法,模型在工具交錯文本中能夠保持學習的穩(wěn)定性,避免策略因外部噪聲而發(fā)生劇烈波動。WebSailor團隊報告,通過KL正則化,模型格式正確率顯著提升,同時減少了無效工具調用。
工具Token掩碼(Tool-token masking):隔離噪聲的關鍵
工具返回的內(nèi)容不受策略控制,若將其納入梯度計算,可能導致策略學習到對不可控環(huán)境因素的過度敏感。因此,在計算梯度時忽略<result>標簽內(nèi)的Token,僅讓策略學習從這些觀察中做出決策,而非預測或生成這些觀察,是提升訓練穩(wěn)定性的關鍵技術。

Training Regime Summary
上表顯示,大多數(shù)研究在梯度計算中屏蔽了工具返回Token。這一技術確保了梯度更新僅基于模型可控的輸出,避免了外部工具噪聲對訓練過程的干擾。在工具增強優(yōu)化中,由工具生成的Token被屏蔽,因此梯度(和KL)僅基于模型生成的文本計算,從而顯著提高了訓練穩(wěn)定性。
優(yōu)化器的實證選擇:GRPO vs. PPO vs. REINFORCE++
行業(yè)實踐中,GRPO因其組相對優(yōu)勢計算機制,在多智能體協(xié)作和長周期任務中展現(xiàn)出更好的樣本效率。業(yè)內(nèi)多篇論文采用GRPO作為主要算法。
PPO則在獎勵信號噪聲較大、軌跡較長的場景下表現(xiàn)出更強的穩(wěn)定性,其價值函數(shù)批評器能有效平滑高方差回報。Search-R1,MEM1,RAG-R1等研究采用PPO作為主要訓練器。
REINFORCE++(如R1-Searcher++采用)在特定數(shù)據(jù)集上能實現(xiàn)更高的數(shù)據(jù)效率和域內(nèi)得分。
系統(tǒng)級穩(wěn)定性增強
ASearcher提出的異步設計代表了系統(tǒng)級穩(wěn)定性增強的創(chuàng)新方向。通過完全異步的actor-learner架構,該設計解耦了rollout生成與策略更新,支持長周期軌跡與重型工具使用的容忍機制。動態(tài)過濾技術則通過識別并移除"零信號提示"(即無法提供有效學習信號的交互軌跡),進一步提高了訓練效率。

層級式深度研究系統(tǒng)架構示意圖
在深度研究系統(tǒng)的架構設計中,分層架構成為主流趨勢。如圖所示,一個典型的系統(tǒng)包含三個關鍵組件:規(guī)劃器(Planner)執(zhí)行逐步分解和反思;協(xié)調器(Coordinator)處理任務分配、委托、聚合和驗證;以及執(zhí)行器池(Executors)(即專業(yè)智能體和工具)執(zhí)行網(wǎng)絡和文件上的基礎操作。這種關注點分離將戰(zhàn)略規(guī)劃與執(zhí)行細節(jié)解耦,實現(xiàn)了并行化、即插即用的專業(yè)知識(例如,替換更好的搜索器或代碼運行器,擴展到額外工具),以及針對過程日志記錄、信用分配和可審計性的更緊密的儀器化。
分層架構對于部署非常有吸引力,但目前尚無法對整個工作流進行端到端訓練。因此,大多數(shù)研究針對單個模型(通常是規(guī)劃器)直接連接到一組基本工具(搜索/瀏覽/代碼),這簡化了rollout長度和方差,適應現(xiàn)有的RL/SFT/DPO基礎設施,并產(chǎn)生更清晰的信號。訓練目標是以端到端的方式在一個地方加強長視野能力(即推理、分解、工具使用、反思和綜合),使結果規(guī)劃器能夠作為更強的"大腦"插入完整層次結構中,而協(xié)調和執(zhí)行保持模塊化和可替換。
議題二:樣本效率——如何在有限交互中最大化學習價值?
挑戰(zhàn)根源再審視:從高成本到經(jīng)濟訓練的轉變
開放Web環(huán)境的巨大狀態(tài)空間和有效軌跡的極度稀疏性,使得深度研究智能體的RL訓練面臨嚴重的樣本效率挑戰(zhàn)。在多輪工具交互場景中,僅有極小比例的軌跡能提供高質量的學習信號,而真實環(huán)境交互(如搜索引擎API調用)的成本高昂且存在延遲,進一步限制了可獲取的訓練樣本數(shù)量。
成本痛點:一個中等規(guī)模團隊每月進行50次RL訓練迭代的成本高達$(每次迭代¥$12.7),其中90%以上用于搜索引擎API調用。這對大多數(shù)研究團隊來說是難以承受的負擔。
行業(yè)實踐中,許多系統(tǒng)結合結果獎勵(最終答案正確性)與小格式獎勵,以鼓勵生成良好形成的軌跡。這表明,為了提高樣本效率,研究者們開始關注軌跡的質量而不僅僅是最終結果。

問答任務復雜度等級示例
構造 vs. 篩選:數(shù)據(jù)工程的雙軌范式
提升樣本效率的核心在于將數(shù)據(jù)準備過程解耦為兩個獨立階段:"構造(Construct)"與"篩選(Curate)"。這種框架為高效數(shù)據(jù)工程提供了系統(tǒng)性方法論。
- 構造(C → Q?):目標是"增加結構難度"。例如,SearchExpert從新鮮爬取開始,生成代碼級搜索DAG并轉換為自然語言DAG;CrawlQA通過擴展超鏈接圖生成多跳問題。E2HQA則通過用從網(wǎng)絡挖掘的約束替換實體來迭代重寫簡單種子,同時保持最終答案不變。這些方法主動提升任務的復雜性。
- 篩選(Curate(Q?)):目標是"提升信號質量"。例如,WebPuzzle使用pass@k難度標簽篩選數(shù)據(jù);ASearcher的動態(tài)過濾器識別并移除"零信號提示";DUET框架系統(tǒng)化地生成與選擇高質量實例。這些方法確保進入訓練集的數(shù)據(jù)具有高信息密度。
這種"構造"與"篩選"的分離,使研究者能獨立優(yōu)化任務的"復雜性"與"可學習性",是當前高效數(shù)據(jù)工程的基石。
算法層面的效率突破
課程學習與動態(tài)采樣
EVO-RAG引入了兩階段課程:發(fā)現(xiàn)階段鼓勵廣泛、多樣的查詢,隨后的精煉階段引導智能體轉向簡潔、有針對性的查詢以獲取基于證據(jù)的答案。Writing-RL進一步將這一思想推廣到多階段課程,并添加了邊界感知的數(shù)據(jù)選擇,通過估計"學習余量"(即策略輸出與最強參考之間的差距)來優(yōu)先選擇具有最大改進潛力的樣本。這種動態(tài)難度調整機制使模型能夠循序漸進地掌握復雜技能。
密集獎勵設計
OpenR整合了過程獎勵模型(Process Reward Models, PRMs),將步驟級信號注入訓練和測試時搜索。StepSearch則通過信息增益與冗余懲罰機制,為每一步提供更精細的反饋:步驟獎勵添加了信息增益(即該輪檢索文檔與參考黃金證據(jù)集之間的邊際相似度改進)減去冗余懲罰(隨著與早期輪次的重疊增加而增加),引導智能體朝著多樣化、高產(chǎn)出的探索方向發(fā)展。
此外,StepSearch還引入了查詢意圖對齊技術,即模型生成的查詢與該輪參考子任務關鍵詞之間的重疊。這種每步獎勵使搜索保持在任務軌道上(例如,針對分解中的正確子問題),而無需等待最終答案提供反饋。
模擬與自包含:降低真實交互成本的核心策略
ZeroSearch的模擬器革命
ZeroSearch提出了一種基于LLM的搜索模擬器,能夠替代真實搜索引擎進行訓練。該模擬器通過"噪聲課程"模擬真實網(wǎng)絡動態(tài),將API支出降低"數(shù)量級"而不損害QA質量。模擬器的關鍵在于平衡真實性與可控性:初期使用高度可控的模擬環(huán)境進行基礎技能訓練,隨后逐漸引入噪聲和不確定性。
SSRL的內(nèi)化搜索
SSRL提出了自搜索循環(huán)的概念,將搜索過程結構化到軌跡內(nèi)部。通過在模型內(nèi)部優(yōu)化此循環(huán),SSRL實現(xiàn)了檢索成本的內(nèi)化,使模型能夠自主決定何時需要外部信息以及需要多少信息。這種內(nèi)化機制與ZeroSearch的模擬器策略形成互補,共同構成了降低真實檢索成本的雙軌策略。
證據(jù)必要性訓練
FrugalRAG引入了STOP行動,使模型能夠學習顯式停止條件,在查詢數(shù)量與置信度間進行權衡。IKEA則通過知識邊界感知設計,提示偏向內(nèi)部回憶,并使用GRPO強化邊界意識。AutoRefine通過搜索-精煉循環(huán)進一步優(yōu)化了這一過程:在每次搜索后,將長文檔壓縮成簡短的"精煉筆記",只保留后續(xù)步驟中使用的關鍵證據(jù),防止提示增長而不犧牲保真度。
WebSailor從另一個角度解決了上下文問題:它采用輕量級拒絕采樣微調步驟,將冗長的推理和工具使用軌跡重構為簡潔、一致、面向動作的序列,從而提高軌跡質量。
這些方法共同指向一個關鍵目標:訓練模型在推理深度與檢索輪次間做出最優(yōu)決策,實現(xiàn)"節(jié)儉式研究",在保證質量的同時最小化資源消耗。

Open-Source Frameworks
議題三:多模態(tài)集成——當"看見"成為一種"決策"
多模態(tài)研究代理的獨特挑戰(zhàn)
當深度研究系統(tǒng)從純文本擴展到多模態(tài)領域,新的挑戰(zhàn)隨之而來。視覺信息的高熵特性與語言模型Token空間的融合難題,使得"何時感知"比"感知什么"更加關鍵。此外,高質量多模態(tài)交互軌跡數(shù)據(jù)的稀缺性,進一步限制了多模態(tài)深度研究智能體的發(fā)展。
崩潰:曾有多個團隊嘗試訓練多模態(tài)研究智能體,結果發(fā)現(xiàn)模型要么過度依賴視覺輸入(即使文本已足夠),要么完全忽略關鍵圖像信息。WebWatcher團隊報告,他們的初始模型在處理包含圖表的金融報告時,92%的情況下生成了與圖表無關的結論,因為模型無法決定"何時需要感知"。
多模態(tài)代理的近期進展主要不是由新優(yōu)化器驅動,而是由"感知即行動"、工程化觀測設計和精簡RL配方(GRPO/PPO+KL與工具Token掩碼及結果優(yōu)先獎勵)驅動。
"感知即行動"范式的三大支柱
動作化視覺操作
在多模態(tài)深度研究系統(tǒng)中,crop、zoom、highlight等視覺操作被視為策略動作,而非簡單的預處理步驟。這與傳統(tǒng)視覺語言模型(VLM)的關鍵區(qū)別在于:多模態(tài)決策被嵌入到推理循環(huán)中,成為智能體主動選擇的行為。
工程化觀測設計
多模態(tài)系統(tǒng)采用多種技術優(yōu)化觀測輸入:
- 原始像素裁剪:保留視覺細節(jié)(如小字號、圖表坐標),避免編碼器空間縮略圖的信息損失。研究表明,直接對原始像素進行裁剪能有效恢復小文本和圖表細節(jié)。
- 雙圖再插入:將原始圖I與編輯后圖I'同時輸入,強制模型關注變化區(qū)域,解決注意力分散問題。編輯后的圖像用于外部化注意力,幫助模型聚焦于關鍵區(qū)域。
- 讀者到摘要轉換:通過對網(wǎng)頁內(nèi)容進行結構化摘要,抑制無關文本(如廣告、導航欄)對模型決策的干擾。嚴格的、類型化的工具返回模式配合控制器級規(guī)范化/緩存,有效提升了輸入質量。
此外,軌跡質量門控技術——包括模式檢查、步驟一致性過濾器和實體模糊化(與檢索到的圖像配對)——防止了"從先前答案獲取答案"的捷徑行為,強制模型進行真正的視覺基礎訓練。
證據(jù)必要性內(nèi)化
多模態(tài)系統(tǒng)需要內(nèi)化"證據(jù)必要性"決策機制,使模型能夠自主決定"是否需要感知"、"使用哪種模態(tài)"。通過獎勵設計抑制不必要的視覺查詢,并強化基礎事實,確保多模態(tài)輸入真正支撐推理過程。
同時灌輸證據(jù)必要性——決定使用哪種模態(tài)以及是否在檢索前感知——以抑制過度搜索并加強基礎。
多模態(tài)RL訓練的實證進展
Visual-ARFT和VRAG-RL代表了當前多模態(tài)RL訓練的前沿實踐,均基于Qwen2.5-VL-7B-Instruct模型,但采用不同的訓練策略(前者無冷啟動,后者有冷啟動)。WebWatcher則驗證了大型多模態(tài)模型(Qwen2.5-VL-32B-Instruct)在真實Web環(huán)境中的可擴展性。

Multimodal Integration Summary
上表提供了多模態(tài)系統(tǒng)的關鍵信息,包括Visual-ARFT、VRAG-RL、WebWatcher和MMSearch-R1等系統(tǒng)的主干模型、是否采用冷啟動、獎勵類型和RL優(yōu)化器。
值得注意的是,MRAMG-Bench提供了更全面的多模態(tài)基準,包含4,346個文檔、14,190張圖像和4,800個QA對,來自多個領域,任務需要文本和視覺答案。MMDocRAG則展示了多模態(tài)文檔處理的先進能力,能夠有效處理PDF、儀表盤等復雜文檔。
評估困境與未來方向
值得注意的是,當前研究的瓶頸不僅在于算法,更在于評估體系的缺失。現(xiàn)有基準如WebWatcher、MMSearch-R1等,雖能評估最終答案質量,卻缺乏對"過程效率"(如動作預算、檢索輪次)和"模態(tài)必要性"的標準化度量。這導致不同研究間難以公平比較,也阻礙了"節(jié)儉式研究"等關鍵能力的優(yōu)化。
行業(yè)共識指出三個關鍵研究方向:
1. 性能歸因:將性能提升追溯到特定感知步驟或圖像區(qū)域
2. 規(guī)模化推理:實現(xiàn)大規(guī)模多圖像/多頁面推理(PDF、儀表盤)而不導致上下文爆炸式增長
3. 標準化評估:開發(fā)"標準化過程+節(jié)儉度量"基準,并標準化報告(動作預算、掩碼策略、緩存/速率限制)以實現(xiàn)公平比較
此外,多模態(tài)評估中需要考慮的"模態(tài)感知效率信號"包括:
- 搜索懲罰以減少網(wǎng)絡調用
- 軌跡級圖像檢索排序(NDCG)以更早顯示正確的視覺結果
- 可執(zhí)行圖像代碼檢查以鼓勵安全的預處理探索
總結:未竟之路與開放性問題
深度研究智能體的RL訓練已從理論探索走向實踐應用,但仍有諸多關鍵問題需要解決。
穩(wěn)定性深化:從"能用"到"可靠"
在穩(wěn)定性方面,行業(yè)實踐中仍面臨三個開放問題:
1. 冷啟動與課程調度:如何自動決定SFT/RSFT停止時機、課程階段推進,以在不過度擬合格式的情況下最大化樣本效率
2. 優(yōu)化器-工具交互:在部分、延遲和分段信用條件下,如何原則性地選擇PPO/GRPO/REINFORCE++;能否將分段感知優(yōu)勢歸因與KL控制統(tǒng)一,以實現(xiàn)更強穩(wěn)定性
3. 分段優(yōu)勢歸因:在具有工具邊界的環(huán)境中,如何更有效地分配信用
收獲:如果你正在訓練深度研究智能體,以下檢查清單能幫助你避免常見陷阱:
- 對于復雜Web任務,務必添加冷啟動階段(至少3輪SFT)
- 在梯度計算中屏蔽工具返回Token(
<result>...</result>) - 使用KL系數(shù)防止策略過度偏離
- 根據(jù)任務特性選擇合適的優(yōu)化器(GRPO適用于長周期任務)
樣本效率突破:從"昂貴"到"經(jīng)濟"
樣本效率的突破需要真正多目標優(yōu)化能力的提升。當前系統(tǒng)尚難以同時優(yōu)化準確率與顯式預算(延遲、查詢、token),且缺乏測試時計算分配的保證機制。主動任務生成——讓智能體驅動自身數(shù)據(jù)合成——可能成為解決樣本效率問題的創(chuàng)新路徑。
成本節(jié)約路徑:根據(jù)下表中的框架特性,實施以下策略可顯著降低訓練成本:
- 采用搜索模擬器:將API支出降低"數(shù)量級"
- 引入STOP行動:減少無效工具調用
- 使用動態(tài)過濾:移除"零信號提示"
- 實施課程學習:加速收斂速度

Open-Source Framework
多模態(tài)前沿:從"能看"到"會思考"
多模態(tài)領域的挑戰(zhàn)尤為突出。行業(yè)共識特別指出了三個關鍵方向:
1. 過程監(jiān)督可擴展性:如何將當前的步驟級信號擴展到更長、更復雜的多模態(tài)軌跡
2. 模態(tài)選擇機制:開發(fā)更精細的"證據(jù)必要性"決策框架
3. 跨模態(tài)信用分配:如何在視覺與語言決策間公平分配成功/失敗的信用
框架選擇指南:根據(jù)你的團隊需求,選擇合適的訓練框架:
- 如果追求"開箱即用",verl是比較理想的起點
- 若瓶頸在"長軌跡吞吐量",AReaL和SLIME的異步設計能顯著提升模型浮點運算利用率(MFU)
- 若需對接現(xiàn)有生產(chǎn)系統(tǒng),Agent Lightning的"訓練器-智能體解耦"架構可最小化重構成本
上一段的表格對比了當前主流的開源深度研究框架,包括Agent Lightning、AREAL、AWorld等。這些框架在規(guī)劃角色、工具接口、人類監(jiān)督和評估報告方面各有特點,為不同需求的研究團隊提供了多樣化選擇。(擴展閱讀)
行業(yè)實踐中,實用深度研究系統(tǒng)逐漸形成一個收斂的配方:
1. 規(guī)劃與執(zhí)行分離:保持規(guī)劃器狀態(tài)的干凈,同時專業(yè)化和路由增加吞吐量和深度
2. 結構化工具接口:窄且類型明確的動作(搜索、瀏覽、代碼;MCP)減少故障模式,使恢復、緩存和重試可行
3. 人機協(xié)同:在需要人類判斷的關鍵點保留人類監(jiān)督
RL是訓練深度研究智能體的"有前途的途徑",但要實現(xiàn)這一潛力,需要系統(tǒng)性解決基礎設施瓶頸、提煉設計模式并提供實用指南。隨著研究的深入和技術的成熟,深度研究智能體有望從"能做"邁向"可靠做",真正解決現(xiàn)實世界中的復雜問題,為科學研究、商業(yè)決策和知識創(chuàng)新提供強大支持。
技術演進:
- 早期系統(tǒng)(如Search-R1)嘗試直接RL訓練,但面臨嚴重穩(wěn)定性問題
- WebSailor發(fā)現(xiàn)冷啟動對復雜Web任務"不可或缺",開始引入SFT預訓練
- GRPO被證明在長周期任務中優(yōu)于PPO,成為主流選擇
- 工具Token掩碼和KL正則化成為行業(yè)標配,形成"標準配方"
這場從理論到實踐的跨越,不僅關乎技術進步,更代表著人工智能從"回答問題"到"解決問題"的根本轉變。隨著RL訓練方法的不斷完善,深度研究智能體將成為連接人類智慧與機器能力的關鍵橋梁。本文只是一份可以按圖索驥的綜述,更加細節(jié)的內(nèi)容,可以通過各個棧另行深度探索。
































