精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

自搜索強化學習SSRL:Agentic RL的Sim2Real時刻

人工智能 新聞
本研究探索 SSRL,通過大語言模型 (LLM)?內部世界知識的利用,可以顯著提升 Search Agent 的訓練效率和穩定性。實驗證明,該方法在多種基準測試中優于傳統基于外部搜索引擎的方法,同時首次在 LLM 智能體領域實現了從模擬到真實 (Sim2Real) 的有效遷移。

本文由清華大學、上海人工智能實驗室、上海交通大學等機構聯合完成。第一作者為上海 AI Lab 博士生樊鈺辰,研究方向是 Agent 以及強化學習;通訊作者為清華大學周伯文教授。

此前的 Agentic Search RL 任務大多采用真實搜索引擎,導致訓練效率低,速度慢,穩定性差。ZeroSearch 探索利用另一個模型提供信息的訓練方法,取得了較好的表現。然而,模型依賴自身世界知識能夠達到的上限,以及如何有效利用自身世界知識,降低幻覺仍然是一個值得探究的問題。為研究這些問題,本文引入 SSRL。

SSRL 利用結構化的 prompt 和 format reward,有效地提取出了模型中的 world knowledge,在各個 benchmark 上取得了更好的效果,有效地降低了模型的幻覺。本文接著探索訓練 agent 是否需要真實環境的參與,并發現在接入真實搜索引擎后,經過 SSRL 訓練的模型可以取得更好的效果,體現了 Sim2Real 的有效性。

SSRL 所有訓練數據,訓練細節,以及訓練模型均已開源。

  • Github鏈接: https://github.com/TsinghuaC3I/SSRL
  • 論文鏈接:https://arxiv.org/abs/2508.10874

一句話總結

本研究探索 SSRL,通過大語言模型 (LLM) 內部世界知識的利用,可以顯著提升 Search Agent 的訓練效率和穩定性。實驗證明,該方法在多種基準測試中優于傳統基于外部搜索引擎的方法,同時首次在 LLM 智能體領域實現了從模擬到真實 (Sim2Real) 的有效遷移。

一、動機

當前 RL 訓練 Search Agent 主要有兩種方式:

1. 全真實搜索 (Full-Real Search):直接調用商業搜索引擎 API 或檢索增強生成 (RAG) 本地知識庫

2. 半真實搜索 (Semi-Real Search):使用輔助 LLM 模擬搜索引擎行為

問題:

  • 高昂成本:商業 API 調用費用昂貴,本地知識庫加重 GPU 負擔,且和真實場景存在差距
  • 訓練效率低下:多輪工具調用導致 rollout 效率降低
  • 訓練不穩定性:外部信息引入導致模型容易崩潰
  • 非端到端訓練:半真實搜索仍需額外微調步驟

綜上所述,目前的 Search Agent 訓練非常昂貴,耗時,且不穩定。

如何能夠降低訓練成本與訓練時間,同時能夠穩定地訓練 Search Agent 呢?

面對這些問題,我們首先進行了對于 LLM 依賴自身世界知識所能達到的效果的上限的探究。我們利用 structured prompt 誘發 LLM 自發地利用世界知識,并且通過 pass@k 證明了其極高的上限。受此啟發,我們嘗試用 RL 進一步強化模型利用自身世界知識的能力,探索 SSRL 的效果。在此基礎上,我們首次在 LLM Agent 領域提出 Sim2Real,并驗證 SSRL 訓練的模型在真實場景的泛化性。

二、觀察:LLM 利用世界知識的上限

對應 Agentic Search 任務 Pass@K 上限很高

此前已經有研究證明 LLM 通過重復采樣的方式可以在數學和代碼取得極高的通過率,然而對于 LLM 利用自身世界知識回答 Search QA 類問題的上限還有待研究。我們首先使用一個 formatted instruction 來顯式地利用模型內部知識(Self-Search)。

我們在大量的模型(包括 Qwen2.5,Qwen3,Llama3.1,Llama3.2)上進行了大量采樣,實驗結果顯示,僅依賴模型內部知識,就可以在所有的 benchmark 上獲得明顯的效果提升,如 Llama-3.1-8B-Instruct 在 Bamboogle 上 pass@64 達到了 76% 的正確率,在 BrowseComp 上 pass@256 達到了 10% 的正確率。同時我們發現在這類任務上 Llama 系列效果遠超 Qwen 系列,這和 math 上的結論恰恰相反。

Thinking 越多效果不一定越好

受啟發于 Long-CoT LRM 的驚人表現,我們探究了 Long-CoT 對知識類的問題是否會有更好的表現。我們進行了三種 setting 的檢驗:

  • 對于 reasoning model,我們對是否使用 thinking mode 進行了對比實驗。
  • 對于 sampling strategy,我們對比了是否使用 multi-turn generation 以及 reflection-based generation。

實驗結果顯示,過多的 thinking,或者 multi-turn 的生成在給定相同 token budget 的情況下未必可以取得更好的效果,這也和之前的 reasoning 工作中的結論相左。

Pass@K 上限很高,但 Maj@N 達到上限很難

證明了 Self-Search 具有極高的上限后,我們嘗試使用 Majority Voting 的方法進行投票選擇。實驗結果顯示,僅僅依賴答案進行投票的方式無法逼近模型能力的上限,并且在增加參與 majority voting 的采樣數量時,效果也不會獲得進一步的提升。如何逼近 self-search 的 upper-bound 仍然是一個問題。

三、SSRL:自搜索強化學習

訓練目標優化

標準的搜索 RL Search Agent 目標函數為:

由于 R(檢索信息)來自策略本身,優化目標方程可以簡化為一個標準的 GRPO 優化目標:

關鍵技術設計

1. 信息掩碼(Information Masking)

和之前的 Search RL 工作一樣,我們在訓練時屏蔽 <information> 標簽內的 token,從而強制模型基于查詢和推理生成答案,而非簡單復制。

2. 復合獎勵函數

由于我們沒有人為地干預模型的生成過程,因此需要一個 format reward 去規范模型的格式化輸出,以更好地利用內部知識。同時,我們采用 outcome reward 防止 reward hacking,確保獎勵的有效性。

實驗結果

我們在 Llama 系列和 Qwen2. 5 系列上進行了訓練,實驗結果如下:

可以看到:

  • 利用 SSRL 訓練后的 Llama 系列模型比 Search-R1 和 ZeroSearch 這種依賴外部引擎訓練的模型可以取得更好的效果,然而在 Qwen 系列上,效果還有一定的差距。
  • 使用 SSRL 訓練效率可以提升約 5.6 倍,并且在訓練過程中,Training reward 持續增長,在訓練 2000 多步時也并未觀察到 collapse 現象。
  • 相比于 Base model,Instruct model 表現出更好的能力,我們將其歸因為 SFT 階段的大量信息注入。

四、Sim2Real Generalization

由于 Search 任務是和真實世界高度相關的,因此能夠結合真實搜索去實時地解決問題也是非常重要的。在這個工作中,我們探究了 SSRL 訓練的模型是否具有在真實世界搜索并推理的能力,我們稱為 Sim2Real。

替換 Self-Searched Knowledge 為 Online-Searched Information

首先我們進行實驗,將前 K 個 Self-Searched Knowledge 用在線搜索獲得的結果進行替換,我們發現

  • Sim2Real 會獲得一定程度的效果提升,這顯示了適當引入外部知識可以輔助模型思考。
  • 隨著 K 的增加,Sim2Real 的效果不會持續增長,這也顯示了模型內部知識的一定優越性,即高度壓縮性和靈活性,對于同樣的一個問題,模型 self-search 的知識可能更加貼合。

結合 Self-Generated Knowledge 和 Real-world Knowledge

此前我們已經證明了,真實世界的知識和模型生成的知識都各有其優越性,如何有機地在 SSRL 的背景下利用他們也是一個值得考慮的問題。我們首次提出 entropy-guided search,我們首先提取出 search content,如果呈現熵增趨勢,表明模型具有不確定性,我們應當尋求外部工具的幫助,如果熵減,則使用模型生成的知識。實驗結果如下:

實驗結果顯示,Search 次數相比于之前減少了 20%-42%,而實驗效果可以取得一個 comparable 的表現,但這只是一個初步的嘗試,更精細的結合方法仍是一個問題。

五、SSRL 和 TTRL 的結合

我們嘗試 SSRL 和 TTRL 相結合,證明 SSRL 的泛化性和有效性。可以發現,當使用 TTRL 時,相比于 GRPO-based SSRL,我們可以取得更好的效果,甚至可以獲得 67% 的效果提升。

甚至在最為困難的 BrowseComp 上,我們仍然能夠獲得穩定的增長。然而我們觀察到,使用 TTRL 時,模型會變得過于 confident,模型塌縮到每個問題只會搜索一次,且模型會學會一個捷徑,即先指出最后的答案,再通過 search 去 verify。此外,TTRL 也非常容易崩潰,Training reward 會極速下降到 0。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-10-11 04:00:00

2021-12-06 17:38:51

強化學習工具人工智能

2021-10-15 10:07:04

機器人人工智能算法

2025-08-29 05:00:00

2020-12-23 06:07:54

人工智能AI深度學習

2024-03-19 00:15:00

機器學習強化學習人工智能

2025-11-07 08:51:41

2025-09-09 09:09:00

2023-12-27 08:22:34

框架3D檢測

2025-03-28 10:16:15

2025-03-24 10:15:00

2023-03-09 08:00:00

強化學習機器學習圍棋

2020-08-10 06:36:21

強化學習代碼深度學習

2025-04-18 10:01:41

2020-02-06 13:06:52

人工智能自行車啤酒

2025-05-28 09:15:00

AI視覺模型

2020-11-12 19:31:41

強化學習人工智能機器學習

2025-08-08 09:15:00

2021-09-17 15:54:41

深度學習機器學習人工智能

2025-05-28 02:25:00

點贊
收藏

51CTO技術棧公眾號

久久av资源网站| 在线电影院国产精品| 久久久久久欧美精品色一二三四| aaa人片在线| 欧美偷拍综合| 欧美电影精品一区二区| 男女高潮又爽又黄又无遮挡| 国产大学生校花援交在线播放| 久久精品二区亚洲w码| 欧美激情一区二区三区成人| 成人免费看aa片| 2019中文亚洲字幕| 岛国av一区二区在线在线观看| 色播五月综合| 六月丁香综合网| 日本va欧美va精品发布| 欧美激情一区二区三区久久久| 给我看免费高清在线观看| 欧美视频第一| 欧美日韩一区免费| 一本大道东京热无码aⅴ| 国产亚洲依依| 成人精品国产免费网站| 国产剧情久久久久久| 欧美福利视频一区二区| 婷婷综合视频| 国产一区二区免费| 丰满少妇一区二区三区| 91欧美极品| 69久久99精品久久久久婷婷| 精品一卡二卡三卡| 国精一区二区三区| 亚洲视频在线观看一区| 欧美日韩在线观看一区二区三区| 成人免费视频97| 五月婷婷丁香色| 绿色成人影院| 永久免费看片在线观看| 黄色av免费在线| 久久综合一区二区| 国产日韩精品推荐| www.激情五月| 国精产品一区一区三区mba视频 | 影音先锋制服丝袜| 伦理一区二区| 精品久久免费看| 26uuu国产| 欧美一级大片在线视频| 欧美喷潮久久久xxxxx| 欧美成人免费高清视频| 中文一区一区三区高中清不卡免费 | 国产区欧美区日韩区| 性一交一乱一乱一视频| 国产电影精品久久禁18| 亚洲一区二区三| 国产人妖一区二区三区| 国产福利视频一区二区三区| 亚洲影院污污.| 精品国产va久久久久久久| 国产精品一区2区| 不卡视频一区二区三区| 亚洲精品人妻无码| 成人av网站在线观看| 久99久视频| 欧美婷婷久久五月精品三区| 久久久久久9999| 亚洲国产一区二区精品视频| 日本精品一区二区三区在线播放| 国产精品国产三级国产a| 97超碰人人爱| 2019中文字幕在线电影免费 | 久久91在线| 国产视频精品va久久久久久| av网站免费在线看| 日韩精品网站| 欧美美女操人视频| 欧美三级韩国三级日本三斤在线观看| 久久成人在线| 成人在线一区二区| 手机在线精品视频| 久久久www成人免费无遮挡大片| 日本黄网免费一区二区精品| 中文字幕在线视频区| 国产精品久久毛片| 国产亚洲一区二区三区四区 | 国产日韩一区二区在线观看| 四虎4545www精品视频| 欧洲av一区二区嗯嗯嗯啊| 亚洲激情在线观看视频| 国产精品亚洲d| 欧美一级xxx| 亚洲欧美在线不卡| 国产精品一区二区三区av麻| 中文字幕日本欧美| 日韩成人毛片视频| 国产欧美成人| 国产精品视频播放| 国产同性人妖ts口直男| 成人听书哪个软件好| 久久精品国产一区二区三区日韩 | 少妇高潮毛片色欲ava片| 五月天国产在线| 欧美亚洲一区二区三区四区| 五月天视频在线观看| 欧美三级精品| 欧美精品一区二区三区四区| 亚洲国产av一区| 亚洲成人三区| 国产成人aa精品一区在线播放| 这里只有精品国产| 粉嫩高潮美女一区二区三区| 欧美福利一区二区三区| 日本在线天堂| 色婷婷激情久久| 亚洲日本黄色片| 老牛影视av一区二区在线观看| 亚洲区中文字幕| 欧洲猛交xxxx乱大交3| 亚洲在线黄色| 999在线观看免费大全电视剧| 国产三级视频在线| 亚洲午夜羞羞片| 欧美精品久久久久久久久25p| 北条麻妃一区二区三区在线观看 | 99精品欧美| 91麻豆国产精品| 污视频在线免费| 亚洲欧洲日产国码二区| 免费av手机在线观看| 天堂久久一区| 亚洲无av在线中文字幕| 国产无套内射又大又猛又粗又爽| 国产麻豆精品theporn| 欧洲国产精品| 国产理论在线| 日韩欧美精品在线视频| 欧美性生交大片| 另类亚洲自拍| 精品国产综合久久| 欧洲一区二区三区| 精品久久久久久久一区二区蜜臀| 亚洲色图第四色| 先锋影音久久| 国产欧美亚洲日本| 色呦呦在线免费观看| 69久久99精品久久久久婷婷| 日韩一区二区三区四区视频| 米奇777在线欧美播放| 久久久久久a亚洲欧洲aⅴ| 女人黄色免费在线观看| 91精品国产一区二区三区 | 精品国产一区二区三区av片| 69av在线播放| 亚洲男人第一天堂| 一区二区三区四区不卡视频| 中文字幕在线视频精品| 成人影视亚洲图片在线| 国产成人精品综合| 国产精品秘入口| 一本在线高清不卡dvd| 97人妻天天摸天天爽天天| 久久一区激情| 蜜桃久久精品乱码一区二区 | 亚洲专区一二三| 亚欧美一区二区三区| 亚洲成人一区| 99蜜桃在线观看免费视频网站| 在线你懂的视频| 日韩三级在线观看| 天天操天天摸天天舔| 九九国产精品视频| 看全色黄大色大片| 亚洲第一二区| 国模gogo一区二区大胆私拍| 四虎永久在线精品免费网址| 欧美三级欧美成人高清www| 在线精品一区二区三区| 亚洲精品免费观看| 欧美国产一二三区| 成人涩涩视频| 日韩在线免费视频| 国产欧美日韩综合精品一区二区三区| 亚洲女女做受ⅹxx高潮| 国产调教打屁股xxxx网站| 亚洲高清在线| 精品一区二区三区国产| 高清亚洲高清| 欧美黑人性视频| 欧美男男同志| 8x8x8国产精品| 国产污片在线观看| 国产视频视频一区| 三上悠亚 电影| 免费日韩av片| 水蜜桃在线免费观看| 国产精品xxx在线观看| 全亚洲最色的网站在线观看| 日本综合在线| 精品精品欲导航| 影音先锋在线国产| 中文字幕亚洲区| 蜜桃色一区二区三区| 久久先锋资源| 好色先生视频污| 色综合综合网| 亚洲自拍av在线| 日本午夜大片a在线观看| 中文字幕亚洲二区| 免费激情视频网站| 欧美日韩亚洲国产综合| 综合激情网五月| 亚洲乱码国产乱码精品精可以看| 日本少妇毛茸茸| 精品亚洲成a人| 97在线播放视频| 午夜欧美精品| 欧美一区二区在线| 国产精品极品国产中出| 国产精品免费看久久久香蕉| 免费不卡av| 日韩少妇与小伙激情| 色播色播色播色播色播在线| 欧美一区二区在线免费观看| 中文字幕久久久久| 婷婷夜色潮精品综合在线| 激情五月激情综合| 久久久精品中文字幕麻豆发布| 91亚洲一区二区| 日韩vs国产vs欧美| 黄色影院一级片| 99国产精品视频免费观看一公开| 中文字幕在线亚洲三区| 欧美女优在线视频| 国产精品制服诱惑| 欧美成人一级| 成人www视频在线观看| 你懂得影院夜精品a| 久久欧美在线电影| 99热国产在线中文| 日韩在线观看免费av| 黄色在线播放| 精品无码久久久久久国产| 懂色av成人一区二区三区| 7777精品伊人久久久大香线蕉的| 亚洲性在线观看| 欧美丝袜丝nylons| 自拍偷拍校园春色| 欧美性xxxxx极品| 日韩成人av毛片| 亚洲无线码一区二区三区| 国产无套粉嫩白浆内谢| 国产精品久久看| 999精品视频在线观看播放| 国产拍欧美日韩视频二区| 美女又爽又黄视频毛茸茸| 不卡在线观看av| 日本不卡视频一区| 国产自产v一区二区三区c| 爱情岛论坛亚洲自拍| 国产一区二区三区av电影 | 欧美在线播放一区二区| 亚洲香蕉视频| 久久精品日产第一区二区三区精品版| 天海翼亚洲一区二区三区| 久久99精品久久久久久久久久| 欧美成人一区在线观看| 黄色小网站91| 天天躁日日躁狠狠躁欧美巨大小说| 精品免费视频123区| 九九视频精品全部免费播放| 欧美一级二级三级| 精品一区电影| 在线不卡日本| 欧美 日韩 国产 一区| 香港三级日本三级a视频| 亚洲一区二区三区四区五区午夜 | 亚洲欧美色图视频| 91理论电影在线观看| 欧美黄色激情视频| 国产精品成人在线观看| 91高清免费看| 亚洲一区中文日韩| 国产成人亚洲欧洲在线| 欧洲精品在线观看| 国产精品久久久久久免费免熟 | 中文字幕av免费专区久久| 亚洲色图100p| 亚洲激情第一区| 成人在线tv视频| 精品日韩一区二区三区免费视频| 99热这里精品| 欧美va日韩va| 人人妻人人澡人人爽精品日本| 亚洲黄色片网站| 国产区视频在线| 久热精品在线视频| 性欧美videoshd高清| 国产成人精品一区二区在线| 久久免费影院| 国产一区二区三区av在线| 国产欧美日韩影院| 男女爱爱视频网站| 国内精品久久久久久久97牛牛 | 中文字幕欧美视频| 成人的网站免费观看| 国产又黄又粗视频| 亚洲一二三区视频在线观看| 成人黄色激情视频| 日韩一区二区三区四区五区六区| 性xxxx18| 欧美另类69精品久久久久9999| 久九九久频精品短视频| 亚洲一区二区三区xxx视频| 性人久久久久| 国产精品igao激情视频 | 日本高清久久天堂| 国产色99精品9i| 欧美性色黄大片人与善| 欧美视频成人| 国内外成人免费在线视频| 成av人片一区二区| 亚洲波多野结衣| 91激情五月电影| 日本xxxxwww| 欧美极品在线视频| 久久er热在这里只有精品66| 久久精品一二三区| 午夜激情一区| 一级做a免费视频| 成人国产亚洲欧美成人综合网| avtt天堂在线| 欧美人与禽zozo性伦| 黄色av免费在线观看| 久久久久久久电影一区| 成人乱码手机视频| 秋霞在线观看一区二区三区| 夜久久久久久| 69xxx免费视频| 伊人性伊人情综合网| 亚洲综合网av| 一区三区二区视频| 97精品国产99久久久久久免费| 久久精品人成| 国产精品乱看| 国产精品无码专区| 亚洲成人一区二区| 精品国产av鲁一鲁一区| 久久av红桃一区二区小说| 日韩一级视频| 伊人久久av导航| 久久99久久精品欧美| 天海翼在线视频| 在线电影国产精品| 二区三区在线观看| 亚洲专区在线视频| 欧美大片一区| 成人三级做爰av| 中文字幕字幕中文在线中不卡视频| a片在线免费观看| 一区二区三区 在线观看视| 日韩欧美看国产| 日本欧洲国产一区二区| 精品中文字幕一区二区小辣椒| 91麻豆精品久久毛片一级| 欧美日韩大陆在线| 欧美被日视频| 亚洲已满18点击进入在线看片| 极品av少妇一区二区| 国产真实乱人偷精品| 粉嫩老牛aⅴ一区二区三区 | 成人h版在线观看| 日本在线视频免费观看| 亚洲精品97久久| 制服丝袜专区在线| 超碰在线免费观看97| 国产老肥熟一区二区三区| 麻豆亚洲av成人无码久久精品| 精品欧美黑人一区二区三区| 俺来俺也去www色在线观看| 欧美资源一区| 六月丁香婷婷色狠狠久久| 极品魔鬼身材女神啪啪精品| 日韩精品一区二区三区在线| 岛国片av在线| 精品国产乱码久久久久久蜜柚| 青娱乐精品视频| 青青草免费av| 精品网站999www| 高清在线一区| 青青草视频在线免费播放 | 国产在线观看不卡| 久久久久久久久影院| 国产福利一区二区三区视频在线 | 国产精品高潮呻吟av| 久久国产精品视频| 亚洲乱码一区| 黄色片视频在线播放| 亚洲最大成人网4388xx| 青青色在线视频| 91精品久久久久久久久久久久久久|