?需任何監督信號！自博弈機制讓深度搜索Agent實現自我進化

2025-11-17 08:35:00

來?阿?巴巴夸克、北京?學、中??學的研究者提出了?種新的解決?案：搜索自博弈 Search Self-play（SSP）??種?向深度搜索 Agent 的?我博弈訓練范式。

近期，搜索型 Agent 的熱度持續攀升?從 OpenAI 的 Deep Research 到各類學術探索，「多輪檢索 + ?具調? + 深度推理」的新范式正在深刻改變 AI 獲取和整合信息的?式。但如何讓這些 Agent 能?持續提升，達到接近?類的表現?平，仍然是?個核?挑戰。

?前主流的訓練?法是可驗證獎勵強化學習（RLVR）：給定任務題?和標準答案，?最終預測結果的正確性作為獎勵信號來訓練 Agent。然?，這種?法?臨著?個根本性的瓶頸：要讓 Agent 變強，需要大量「高質量任務 + 可驗證答案」的數據支撐。而現實情況是：

人工標注：成本?昂，特別是跨?具鏈的標注數據難以復?；
離線合成：難以把控合成質量，仍依賴??校驗，且驗證成本居?不下；
擴展困境：即便有?夠的離線合成任務，如何讓訓練難度?適應地跟隨 Agent 能?提升？

那么，是否存在?種?法，能讓 Agent 在無需人工標注的情況下，通過與外部真實世界的交互，自主生成訓練任務、實現自我驅動的進化？

論?標題：Search Self-Play: Pushing the Frontier of Agent Capability without Supervision
研究團隊：阿?巴巴夸克基座?模型 × 北京?學 × 中??學
?章鏈接：https://arxiv.org/abs/2510.18821
代碼倉庫：https://github.com/Alibaba-Quark/SSP=

來?阿?巴巴夸克、北京?學、中??學的研究者提出了?種新的解決?案：搜索自博弈 Search Self-play（SSP）??種?向深度搜索 Agent 的?我博弈訓練范式。其核?思路是：讓?個模型同時扮演兩個???「出題者」和「解題者」，它們在對抗訓練中共同進化，使訓練難度隨著模型能?動態提升，最終形成?個?需??標注的動態博弈?我進化過程。

通過?量試驗，研究者發現經過 SSP ?法的訓練，多個開源深度搜索模型（Search-R1、ZeroSearch、R-Search）都能在原本?平上進?步顯著提升，在通?的 Qwen2.5-base 模型上，平均成功率更是達到了驚?的 26.4 分，并且整個訓練過程沒有?到任何監督信息！

方法概覽

搜索?博弈的核?設計是讓同?個?語?模型在不同的系統提示下，輪流扮演「出題者（Proposer）」和「解題者（Solver）」兩個??。

如上圖所示，搜索?博弈分為三個階段：

首先是問題生成階段：Proposer 圍繞?個參考答案，通過多輪搜索收集外部信息，反向構造出「有?定難度、但可解且答案唯?」的問題。

其次是協作驗證階段：為了防? Proposer ?成對于 Solver 來說?解或模糊的問題（即「Reward Hack」現象），系統會將 Proposer 檢索到的?檔作為 RAG 材料，讓 Solver 在有參考信息的條件下（不調?搜索?具）嘗試回答。只有 Solver 能夠正確作答的問題，才會進?對抗博弈。

最后是對抗求解階段：通過驗證的問題會交給 Solver，此時 Solver 可以使?完整的搜索功能，自行通過多輪推理、檢索來解答問題。根據 Solver 的表現，Proposer 和 Solver 各?獲得獎勵信號并在線更新策略。

這種設計的巧妙之處在于：通過?具檢索，問題?成不僅依賴于出題模型本身的能?，還可以利?海量外部的知識，突破了僅憑模型內部知識出題的局限；同時通過 solver 的協作驗證，保證題?和答案的?致性和可解答性。

在「零和對抗」的訓練中，出題者和解題者相互制衡、共同進化，形成?個動態提升的訓練過程。

建模與優化：零和博弈機制

搜索?博弈可以建模為?個 min-max 優化問題。令 μ 為 Proposer 策略， ν 為 Solver 策略， a^? 為參考答案，Q (?)、A (?) 分別是問題和答案的提取函數，r (?,?) 為判定答案是否等價的?元獎勵函數。那么 SSP 要優化的?標是：

這意味著 Proposer 希望最?化 Solver 的成功率（出更難的題），? Solver 則希望最?化??的成功率（提升解題能?）。

為了保證 Proposer ?成的問題既可解?唯?，研究引?了協作約束：將 Proposer 出題軌跡中所有的檢索結果作為 RAG 材料提供給不調?搜索?具的 Solver，要求其在不使?搜索?具的開卷情況下能夠正確解答，即：

在實際訓練中，研究采?拒絕采樣來優化這?約束：只有通過 RAG 驗證的問題才會進?對抗階段。隨后對兩個??進?在線交替優化：

Solver 優化：采? Group Relative Policy Optimization（GRPO）算法，在每個問題上進?多軌跡探索，以組均值作為基線來穩定優勢估計并更新策略。
Proposer 優化：采? REINFORCE 算法，根據「Solver 平均成功率」的互補信號（1?成功率）來優化，從??成更具挑戰性但仍可驗證的問題。

兩個??在每?步訓練中都在線更新，形成緊密耦合、持續共同進化的零和博弈。

主要實驗結果

研究者在七?開放領域問答基準上對 SSP 進?了全?評估，包括 NQ、TriviaQA、PopQA、HotpotQA、2Wiki、MuSiQue 和 Bamboogle，覆蓋了從單跳到多跳、從簡單到復雜的各類問答任務。

實驗設置涵蓋了多個維度：「從零訓練」（未經專?訓練的基礎模型）、「持續訓練」（在已有能?基礎上繼續提升）、「跨架構泛化」（不同架構的模型）以及「不同??的模型泛化」（擴展到更?規模模型）。

實驗結果顯示，在所有實驗設置下，SSP 在問答基準測試中均持續超越基線方法，表明 SSP 是?種?效且通?的增強智能體能?的?法。

SSP 在?任何外部監督的情況下，從零訓練能給模型帶來顯著提升。這?增益在未經過指令微調的基礎模型上尤為突出，例如，對 Qwen2.5-7B-Base 應? SSP 可實現平均 26.4 分的顯著提升，在 TriviaQA 上更是獲得 40.4 分的驚人提升。SSP 對指令微調模型同樣有效，將 Qwen2.5-7B-Instruct 的平均性能提升 8.0 分。

值得注意的是，SSP 可作為有效的持續訓練策略，拓展 Agent 的能力邊界。盡管?些強?的開源模型已在?向搜索的任務上經過?量數據的?泛訓練（如 Search-R1、R-Search），SSP 仍能實現性能提升。這種性能增益在擴展到更?模型時依然保持：對 Qwen2.5-32B-Instruct 應? SSP 后，其在七個基準測試中的五項達到 SOTA 水平。

啟示與展望：讓模型去「為難」模型

搜索?博弈并?局限于搜索任務。它代表了?種新的范式：

讓智能體在自我出題與解題的循環中，自我驗證、自我進化，最終達到 superhuman 的水平。

研究者相信，這種「?我博弈」的訓練范式具有極?潛?：??標注與校驗的速度遠遠趕不上模型能?提升；讓模型去「為難」模型將會成為未來?模型訓練的必然選擇。

未來，我們或許會看到越來越多類似 AlphaGo Zero 的時刻?模型不再依賴?類監督，?是通過?我競爭持續突破智能的上限。

責任編輯：張燕妮來源：機器之心

AI 模型工具