?需任何監督信號!自博弈機制讓深度搜索Agent實現自我進化
近期,搜索型 Agent 的熱度持續攀升?從 OpenAI 的 Deep Research 到各類學術探索,「多輪檢索 + ?具調? + 深度推理」的新范式正在深刻改變 AI 獲取和整合信息的?式。但如何讓這些 Agent 能?持續提升,達到接近?類的表現?平,仍然是?個核?挑戰。
?前主流的訓練?法是可驗證獎勵強化學習(RLVR):給定任務題?和標準答案,?最終預測結果的正確性作為獎勵信號來訓練 Agent。然?,這種?法?臨著?個根本性的瓶頸:要讓 Agent 變強,需要大量「高質量任務 + 可驗證答案」的數據支撐。 而現實情況是:
- 人工標注:成本?昂,特別是跨?具鏈的標注數據難以復?;
- 離線合成:難以把控合成質量,仍依賴??校驗,且驗證成本居?不下;
- 擴展困境:即便有?夠的離線合成任務,如何讓訓練難度?適應地跟隨 Agent 能?提升?
那么,是否存在?種?法,能讓 Agent 在無需人工標注的情況下,通過與外部真實世界的交互,自主生成訓練任務、實現自我驅動的進化?

- 論?標題:Search Self-Play: Pushing the Frontier of Agent Capability without Supervision
- 研究團隊:阿?巴巴夸克基座?模型 × 北京?學 × 中??學
- ?章鏈接:https://arxiv.org/abs/2510.18821
- 代碼倉庫:https://github.com/Alibaba-Quark/SSP=
來?阿?巴巴夸克、北京?學、中??學的研究者提出了?種新的解決?案:搜索自博弈 Search Self-play(SSP)??種?向深度搜索 Agent 的?我博弈訓練范式。其核?思路是:讓?個模型同時扮演兩個???「出題者」和「解題者」,它們在對抗訓練中共同進化,使訓練難度隨著模型能?動態提升,最終形成?個?需??標注的動態博弈?我進化過程。
通過?量試驗,研究者發現經過 SSP ?法的訓練,多個開源深度搜索模型(Search-R1、ZeroSearch、R-Search)都能在原本?平上進?步顯著提升,在通?的 Qwen2.5-base 模型上,平均成功率更是達到了驚?的 26.4 分,并且整個訓練過程沒有?到任何監督信息!

方法概覽
搜索?博弈的核?設計是讓同?個?語?模型在不同的系統提示下,輪流扮演「出題者(Proposer)」和「解題者(Solver)」兩個??。

如上圖所示,搜索?博弈分為三個階段:
首先是問題生成階段:Proposer 圍繞?個參考答案,通過多輪搜索收集外部信息,反向構造出「有?定難度、但可解且答案唯?」的問題。
其次是協作驗證階段:為了防? Proposer ?成對于 Solver 來說?解或模糊的問題(即「Reward Hack」現象),系統會將 Proposer 檢索到的?檔作為 RAG 材料,讓 Solver 在有參考信息的條件下(不調?搜索?具)嘗試回答。只有 Solver 能夠正確作答的問題,才會進?對抗博弈。
最后是對抗求解階段:通過驗證的問題會交給 Solver,此時 Solver 可以使?完整的搜索功能,自行通過多輪推理、檢索來解答問題。根據 Solver 的表現,Proposer 和 Solver 各?獲得獎勵信號并在線更新策略。
這種設計的巧妙之處在于:通過?具檢索,問題?成不僅依賴于出題模型本身的能?,還可以利?海量外部的知識,突破了僅憑模型內部知識出題的局限;同時通過 solver 的協作驗證,保證題?和答案的?致性和可解答性。
在「零和對抗」的訓練中,出題者和解題者相互制衡、共同進化,形成?個動態提升的訓練過程。
建模與優化:零和博弈機制
搜索?博弈可以建模為?個 min-max 優化問題。令 μ 為 Proposer 策略, ν 為 Solver 策略, a^? 為參考答案,Q (?)、A (?) 分別是問題和答案的提取函數,r (?,?) 為判定答案是否等價的?元獎勵函數。那么 SSP 要優化的?標是:

這意味著 Proposer 希望最?化 Solver 的成功率(出更難的題),? Solver 則希望最?化??的成功率(提升解題能?)。
為了保證 Proposer ?成的問題既可解?唯?,研究引?了協作約束:將 Proposer 出題軌跡中所有的檢索結果
作為 RAG 材料提供給不調?搜索?具的 Solver,要求其在不使?搜索?具的開卷情況下能夠正確解答,即:

在實際訓練中,研究采?拒絕采樣來優化這?約束:只有通過 RAG 驗證的問題才會進?對抗階段。隨后對兩個??進?在線交替優化:
- Solver 優化:采? Group Relative Policy Optimization(GRPO)算法,在每個問題上進?多軌跡探索,以組均值作為基線來穩定優勢估計并更新策略。
- Proposer 優化:采? REINFORCE 算法,根據「Solver 平均成功率」的互補信號(1?成功率)來優化,從??成更具挑戰性但仍可驗證的問題。
兩個??在每?步訓練中都在線更新,形成緊密耦合、持續共同進化的零和博弈。

主要實驗結果
研究者在七?開放領域問答基準上對 SSP 進?了全?評估,包括 NQ、TriviaQA、PopQA、HotpotQA、2Wiki、MuSiQue 和 Bamboogle,覆蓋了從單跳到多跳、從簡單到復雜的各類問答任務。
實驗設置涵蓋了多個維度:「從零訓練」(未經專?訓練的基礎模型)、「持續訓練」(在已有能?基礎上繼續提升)、「跨架構泛化」(不同架構的模型)以及「不同??的模型泛化」(擴展到更?規模模型)。
實驗結果顯示,在所有實驗設置下,SSP 在問答基準測試中均持續超越基線方法, 表明 SSP 是?種?效且通?的增強智能體能?的?法。
SSP 在?任何外部監督的情況下,從零訓練能給模型帶來顯著提升。這?增益在未經過指令微調的基礎模型上尤為突出,例如,對 Qwen2.5-7B-Base 應? SSP 可實現平均 26.4 分的顯著提升,在 TriviaQA 上更是獲得 40.4 分的驚人提升。SSP 對指令微調模型同樣有效,將 Qwen2.5-7B-Instruct 的平均性能提升 8.0 分。
值得注意的是,SSP 可作為有效的持續訓練策略,拓展 Agent 的能力邊界。盡管?些強?的開源模型已在?向搜索的任務上經過?量數據的?泛訓練(如 Search-R1、R-Search),SSP 仍能實現性能提升。這種性能增益在擴展到更?模型時依然保持:對 Qwen2.5-32B-Instruct 應? SSP 后,其在七個基準測試中的五項達到 SOTA 水平。
啟示與展望:讓模型去「為難」模型
搜索?博弈并?局限于搜索任務。它代表了?種新的范式:
讓智能體在自我出題與解題的循環中,自我驗證、自我進化,最終達到 superhuman 的水平。
研究者相信,這種「?我博弈」的訓練范式具有極?潛?:??標注與校驗的速度遠遠趕不上模型能?提升;讓模型去「為難」模型將會成為未來?模型訓練的必然選擇。
未來,我們或許會看到越來越多類似 AlphaGo Zero 的時刻?模型不再依賴?類監督,?是通過?我競爭持續突破智能的上限。

































