精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

UIUC聯(lián)手谷歌發(fā)布Search-R1:大模型學會「邊想邊查」,推理、搜索無縫切換

人工智能 新聞
本文提出了 Search-R1,一種全新的強化學習框架,使大語言模型能夠在生成過程中靈活調用搜索引擎,實現(xiàn)推理與外部檢索的深度融合。相較于傳統(tǒng)的 RAG 或工具使用方案,Search-R1 無需大規(guī)模監(jiān)督數(shù)據(jù),而是通過 RL 自主學習查詢與信息利用策略。

本文的作者來自伊利諾伊大學香檳分校(UIUC)、馬薩諸塞大學(UMass)和谷歌。本文的第一作者為 UIUC 博士生金博文,主要研究方向為與大語言模型相關的智能體、推理和強化學習研究。其余學生作者為 UMass 博士生曾翰偲和 UIUC 博士生岳真銳。本文的通信作者為 UIUC 教授韓家煒。

DeepSeek-R1 展示了強化學習在提升模型推理能力方面的巨大潛力,尤其是在無需人工標注推理過程的設定下,模型可以學習到如何更合理地組織回答。然而,這類模型缺乏對外部數(shù)據(jù)源的實時訪問能力,一旦訓練語料中不存在某些關鍵信息,推理過程往往會因知識缺失而失敗。

與此同時,另一個研究方向——搜索增強生成(Retrieval-Augmented Generation, RAG),試圖通過引入外部搜索引擎緩解上述問題。現(xiàn)有 RAG 方法主要分為兩類:

  • 基于 Prompting 的方法直接在提示詞中引導大模型調用搜索引擎。這種方式雖無需額外訓練,但存在明顯局限:大模型本身可能并不具備如何與搜索引擎交互的能力,例如何時觸發(fā)搜索、搜索什么關鍵詞等,往往導致調用行為不穩(wěn)定或冗余。
  • 基于監(jiān)督微調(SFT)的訓練方法:通過構建高質量的數(shù)據(jù)集,訓練模型學習合理的搜索調用策略。這類方法具有更強的適應性,但卻面臨可擴展性差的問題:一方面,構建高質量、覆蓋豐富推理路徑的搜索數(shù)據(jù)非常昂貴;另一方面,由于搜索操作本身不可微分,無法直接納入梯度下降優(yōu)化流程,阻礙了端到端訓練的有效性。

為此,我們提出了一個新的訓練范式——Search-R1,它基于強化學習,通過環(huán)境交互式學習方式訓練大模型自主掌握推理與搜索交替進行的策略,實現(xiàn)真正意義上的「邊推理,邊搜索」的閉環(huán)智能體。

圖片

  • 論文標題:Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning
  • 論文地址:https://arxiv.org/abs/2503.09516
  • 代碼地址:https://github.com/PeterGriffinJin/Search-R1
  • huggingface 主頁:https://huggingface.co/collections/PeterJinGo/search-r1-67d1a021202731cb065740f5

圖片

方法

搜索增強的強化學習框架

傳統(tǒng) RL 方法通常讓大模型僅在固定輸入上學習生成答案。而 Search-R1 引入了一個可交互的「搜索引擎模塊」,模型可以在生成過程中隨時發(fā)起搜索請求,獲取外部知識,從而提升推理質量。

圖片

為了避免訓練時對搜索結果本身產生不必要的「記憶」,我們對搜索引擎返回的文本進行了損失屏蔽(loss masking),確保模型僅學習如何在檢索增強背景下進行合理推理,而非簡單復制外部知識。

多輪搜索調用的生成機制

Search-R1 允許模型在回答前進行多輪推理與搜索交替進行。具體流程如下:

  • 模型首先通過 <think>...</think> 標簽進行推理;
  • 如果模型判斷當前知識不夠,會觸發(fā) <search>關鍵詞</search>;
  • 系統(tǒng)自動調用搜索引擎,將搜索結果以 <information>...</information> 的形式插入上下文;
  • 模型根據(jù)新信息繼續(xù)推理,直到輸出 <answer>答案</answer>為止。

整個過程高度模塊化且可擴展,支持多個搜索引擎與自定義檢索策略。

圖片

結構化的訓練模板

我們設計了簡單但有效的訓練模板(instruction),統(tǒng)一所有訓練樣本的格式:

圖片

這種訓練模板(instruction)指導大語言模型以結構化的方式與外部搜索引擎進行交互,同時保留策略空間的靈活性,使模型在強化學習過程中能夠自主探索更優(yōu)的搜索—推理策略。

輕量的獎勵設計

為減少訓練成本與復雜性,我們采用了基于最終回答準確性的獎勵函數(shù),無需構建額外的神經網絡打分模型,提升了訓練效率并降低了策略對獎勵信號偏差的敏感性。

實驗結果

主要性能表現(xiàn)

圖片

  • Search-R1 在所有數(shù)據(jù)集上均取得領先表現(xiàn),其中 Qwen2.5-7B 模型平均相對提升 41%,3B 模型提升 20%,相較 RAG 和 CoT 等方法具有顯著優(yōu)勢;
  • 引入搜索引擎的 RL 優(yōu)于純推理 RL(R1),驗證了搜索在知識稀缺問題中的重要性;
  • 在零樣本和跨任務遷移場景中也具有穩(wěn)健表現(xiàn),如在 PopQA、Musique、Bamboogle 等模型未見過的任務中依然保持顯著優(yōu)勢;
  • 更大的模型對搜索行為更敏感、效果更好,7B 模型相較 3B 展現(xiàn)出更大性能提升。

PPO vs. GRPO

圖片

我們對兩種 RL 優(yōu)化策略進行了系統(tǒng)比較:GRPO 收斂更快,但在訓練后期可能存在不穩(wěn)定性;PPO 表現(xiàn)更穩(wěn)定,最終性能略高于 GRPO,成為默認推薦配置;兩者最終訓練 reward 相近,均適用于 Search-R1 的優(yōu)化目標。

Base 模型 vs. Instruct 模型

圖片

實驗顯示:Instruct 模型初始表現(xiàn)更好,訓練收斂更快;但隨著訓練推進,Base 模型最終可達到相近甚至更優(yōu)的效果;強化學習彌合了兩者在結構化推理任務中的能力差異。

搜索行為與響應結構的動態(tài)學習

圖片

訓練初期模型輸出較短,搜索行為少;隨著訓練推進,模型逐漸學會更頻繁調用搜索,響應長度增加;表明模型逐步掌握了「推理中搜索」的動態(tài)交互式策略。

總結

本文提出了 Search-R1,一種全新的強化學習框架,使大語言模型能夠在生成過程中靈活調用搜索引擎,實現(xiàn)推理與外部檢索的深度融合。相較于傳統(tǒng)的 RAG 或工具使用方案,Search-R1 無需大規(guī)模監(jiān)督數(shù)據(jù),而是通過 RL 自主學習查詢與信息利用策略。

我們在七個問答任務上驗證了其顯著的性能提升,并系統(tǒng)分析了不同訓練策略對搜索增強推理的影響。未來,我們期待將該框架擴展到更多工具與信息源的協(xié)同調用,探索其在多模態(tài)推理任務中的應用潛力。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-07-28 03:00:00

2025-03-21 13:00:54

2025-06-05 03:00:00

AutoRefineRAGLLM

2025-03-27 23:41:35

豆包搜索AI

2025-03-03 09:00:00

2024-09-09 09:00:00

2025-06-23 08:47:00

2025-05-16 08:37:35

2025-03-14 09:02:03

大模型AI技術

2025-03-05 03:00:00

DeepSeek大模型調優(yōu)

2025-02-13 08:51:23

DeepSeek大模型

2025-02-17 08:43:00

模型推理訓練

2020-12-02 10:20:33

Docker命令Linux

2012-05-01 20:26:01

iPhone

2024-05-15 09:17:30

模型AI

2025-06-26 09:13:22

2022-06-06 16:39:58

云邊協(xié)同大會分布式云計算邊緣計算

2009-12-18 11:15:17

ADSL寬帶共享上網

2021-01-19 09:19:33

RPC調用過程框架

2025-10-21 09:06:00

點贊
收藏

51CTO技術棧公眾號

国产孕妇孕交大片孕| 免费网站在线观看黄| 深夜福利在线看| 亚洲男女自偷自拍| 国产偷国产偷亚洲清高网站| 干日本少妇首页| 五十路在线视频| 久久蜜桃精品| 久久精品成人一区二区三区 | 第一页在线视频| 9lporm自拍视频区在线| 久久青草欧美一区二区三区| 国产精品午夜视频| 国产精品7777| 精品高清在线| 精品久久久久久久久久久院品网| 久久久久久人妻一区二区三区| 日韩电影免费| 美女网站视频久久| 午夜精品三级视频福利| 国产老熟女伦老熟妇露脸| 欧美日韩亚洲国产| 亚洲在线中文字幕| 亚洲精品一卡二卡三卡四卡| 国产伦精品一区二区三区视频痴汉| 亚洲乱码久久| 在线电影av不卡网址| 人妻精品久久久久中文字幕69| 成人影院入口| 亚洲精品视频在线| 免费久久99精品国产自| av资源免费看| 美女免费视频一区| 九色成人免费视频| 欧美午夜激情影院| 麻豆一区二区麻豆免费观看| 欧美另类videos死尸| 欧美又粗又长又爽做受| 黄色网页网址在线免费| 久久久久久久久久久黄色| 91久久偷偷做嫩草影院| 中文字幕精品一区二| 亚洲精品综合| 欧美成人精品影院| 欧美自拍偷拍网| 神马久久av| 91精品国产一区二区人妖| av网址在线观看免费| xxxx另类黑人| 亚洲夂夂婷婷色拍ww47| 日韩欧美在线观看强乱免费| 少妇一区二区三区四区| 国产福利一区二区三区在线视频| 国产精品嫩草影院久久久| 91精品国产乱码久久久张津瑜| 911久久香蕉国产线看观看| 亚洲欧美日韩天堂一区二区| 色婷婷精品久久二区二区密| 欧美久久亚洲| 9191成人精品久久| 亚洲黄色小视频在线观看| 精品国产第一福利网站| 色综合咪咪久久| 欧美丰满熟妇bbbbbb百度| av网站网址在线观看| 国产精品久久久久久久久果冻传媒 | 在线精品视频一区二区三四| 亚洲自偷自拍熟女另类| 天天综合av| 欧美日韩性生活视频| 欧美精品久久久久久久自慰| 黄色在线看片| 午夜欧美在线一二页| 免费极品av一视觉盛宴| 特级毛片在线| 亚洲国产日产av| 国产真人做爰毛片视频直播 | 精品国产亚洲一区二区三区在线| 欧美日韩亚洲综合在线| 亚洲综合欧美激情| av在线亚洲一区| 欧美一级日韩免费不卡| 少妇丰满尤物大尺度写真| 秋霞影院一区| 日韩精品一区二区三区在线播放| 波多野结衣电影免费观看| 欧美视频二区欧美影视| 精品国产免费久久| 理论片大全免费理伦片| 婷婷精品视频| 中文字幕精品av| 国产suv精品一区二区68| 一精品久久久| 久久99精品久久久久久琪琪| 久久精品这里有| 国产日韩欧美一区| 国产精品久久久久久久av电影 | 欧美日韩中文国产| 国产成人在线综合| 影音先锋欧美激情| 亚洲免费电影一区| 亚洲一级理论片| 一个色综合网| 7777kkkk成人观看| 手机av免费观看| 久久国产精品72免费观看| 91嫩草免费看| 久久99久久| 国产欧美一区二区精品性| 成人性做爰片免费视频| 国产精选在线| 欧美剧情片在线观看| 日本不卡视频一区| 欧美先锋资源| 欧美劲爆第一页| 99久久久无码国产精品免费蜜柚 | 国产精品欧美极品| www.av片| av日韩在线免费观看| 日韩av在线看| 亚洲一二三在线观看| 午夜影院日韩| av蓝导航精品导航| eeuss影院www在线播放| 亚洲一区二区三区四区的| 国产激情在线观看视频| 亚洲一区二区三区中文字幕在线观看 | 久久精品ww人人做人人爽| 无遮挡动作视频在线观看免费入口| 亚洲综合自拍偷拍| 99热手机在线| 欧美午夜寂寞| 欧美成人合集magnet| 久草视频在线免费| 国产成人综合亚洲网站| 天天久久人人| 中文字幕在线高清| 日韩精品综合一本久道在线视频| 日本一二三不卡视频| 国产精品美女| 国产嫩草一区二区三区在线观看| 黄色网页在线看| 欧洲生活片亚洲生活在线观看| 深田咏美中文字幕| 99精品在线免费在线观看| 欧美综合第一页| 国产农村妇女毛片精品久久| 国产日产精品1区| 18禁网站免费无遮挡无码中文| 成人在线精品| 久热精品视频在线免费观看 | 99欧美视频| 国产经典一区二区| 青青青免费视频在线2| 亚洲国产一二三| 自拍视频第一页| 中文字幕免费精品| 国产精品专区h在线观看| 国产粉嫩一区二区三区在线观看| 欧美日韩日本国产| 久久人人妻人人人人妻性色av| 黄色综合网站| 国产精品毛片一区视频| 免费在线观看av电影| 欧美一区二区黄色| 成人免费精品动漫网站| 三级久久三级久久久| 欧美色欧美亚洲另类七区| 黄页网站大全在线免费观看| 欧美xfplay| 手机在线免费看毛片| 国内精品久久久久影院薰衣草| 亚洲一区二区三区精品视频| 欧美国产视频| 久久精品国产电影| 精品女同一区二区三区| 亚洲综合色视频| 亚洲一二三四五| 日韩午夜黄色| 欧美另类视频在线| 国产亚洲人成a在线v网站| 综合网日日天干夜夜久久| 黄色av一区二区| 国产精品欧美久久久久一区二区| 国产精品v日韩精品v在线观看| 99re6这里只有精品| 亚洲va国产va天堂va久久| 爆操欧美美女| 亚洲国产私拍精品国模在线观看| 无码一区二区三区| 亚洲卡通欧美制服中文| 动漫精品一区二区三区| 久久草av在线| 国产精品宾馆在线精品酒店| 天天做天天爱天天综合网| 精品国产一区二区三区日日嗨 | 亚洲欧美文学| 免费成人看片网址| 精品一区二区三区中文字幕| 欧美一区在线直播| 超碰电影在线播放| 一本色道久久综合狠狠躁篇怎么玩| www黄色网址| 欧美综合色免费| 国产91av视频| 亚洲视频在线一区二区| 国产综合精品在线| 成人av在线资源网| 国产毛片久久久久久| 久久精品一本| 亚洲人成无码网站久久99热国产| 久久中文视频| 欧美日产一区二区三区在线观看| 伊人久久大香线蕉av超碰| 国产精品午夜视频| 91精品论坛| 国内精品国产三级国产在线专| 免费黄色网址在线观看| 亚洲人成在线电影| 欧美熟女一区二区| 91精品国产色综合久久不卡电影| 无码人妻精品一区二区三区蜜桃91| 一区二区三区中文字幕| 摸摸摸bbb毛毛毛片| 99这里只有久久精品视频| 超碰中文字幕在线观看| 蜜臀91精品一区二区三区| 日本三级免费网站| 亚洲麻豆av| 欧美在线观看视频免费| 亚洲激情五月| 一级一片免费播放| 久久在线视频免费观看| 亚洲v国产v在线观看| 九色精品国产蝌蚪| 蜜桃视频在线观看成人| 欧美成人专区| 久久99精品久久久久久秒播放器 | 欧美下载看逼逼| 美女主播精品视频一二三四| 国产成人精品免费视频大全最热| 精品视频国内| 51蜜桃传媒精品一区二区| 国产精品麻豆| 91精品国产综合久久久久久丝袜| 成年永久一区二区三区免费视频| 国产美女搞久久| 亚洲网站免费| 91中文精品字幕在线视频| 精品国产一区二区三区性色av| 亚洲tv在线观看| 中文字幕亚洲在线观看| 国产精品成人一区二区三区| 欧美国产亚洲精品| 国产伦精品一区二区三区高清版| 精品无人区一区二区| 精品日本一区二区| 国产伦精品一区二区三区千人斩| 青青草原成人| 久久国产成人精品| 超碰97免费观看| 午夜精品电影| 日韩av在线播放不卡| 99国产精品视频免费观看一公开| 亚洲午夜精品久久久久久人妖| 久久精品一区二区国产| 色一情一区二区三区| 国产传媒日韩欧美成人| 野花社区视频在线观看| 国产亚洲午夜高清国产拍精品 | 日韩av免费大片| 在线码字幕一区| 激情综合网址| 成人在线观看a| 美女在线视频一区| 91精品啪在线观看国产| 久久夜色精品国产欧美乱极品| 欧美人与禽zoz0善交| 一区二区三区欧美视频| 黄网在线观看视频| 欧美写真视频网站| 亚洲AV无码精品自拍| 日韩精品免费电影| 黄色视屏免费在线观看| 91大神福利视频在线| 国产激情久久| 国产一区二区三区四区五区在线| 精品国产一区二区三区小蝌蚪| 中文字幕の友人北条麻妃| 国产毛片久久| 女教师高潮黄又色视频| 国产日本欧美一区二区| 国产亚洲欧美精品久久久久久 | 国产精品国产三级国产aⅴ入口| 国产1区2区3区4区| 一本到三区不卡视频| 99热这里只有精品5| 亚洲欧美一区二区三区在线| 黄色网页在线免费看| 国产成人精品视频在线| 一区二区三区高清在线观看| 水蜜桃一区二区三区| 欧美三区视频| 日本中文字幕精品—区二区| 成人黄色777网| 中国毛片直接看| 欧美性受xxxx| 三级在线播放| 欧美激情在线一区| 亚洲18在线| 日日骚一区二区网站| 精久久久久久| 国产女同无遮挡互慰高潮91| 日本一区二区三区四区在线视频 | 欧美区亚洲区| 99视频在线视频| 91亚洲精品久久久蜜桃网站| 综合五月激情网| 欧美在线一区二区| 污污视频在线免费看| 欧美丰满少妇xxxx| 亚洲国产综合在线观看| 欧美日韩精品免费观看| 伊人成人网在线看| 九色91porny| 成人免费在线视频| 一本色道久久综合无码人妻| 亚洲一区二区福利| 综合日韩av| 久久超碰亚洲| 在线午夜精品| youjizz.com国产| 亚洲国产一区二区视频| 国产黄色小视频在线观看| 蜜臀久久99精品久久久无需会员 | av电影高清在线观看| 国产日韩欧美成人| 日韩不卡一区| 一区二区三区国产免费| 中文字幕的久久| 中国女人真人一级毛片| 原创国产精品91| 日韩制服一区| 亚洲午夜精品福利| 蜜桃一区二区三区在线| а天堂中文在线资源| 欧美日韩激情一区二区| 久操视频在线播放| 成人午夜激情免费视频| 91精品啪在线观看国产81旧版| 在线视频一二区| 亚洲视频一区二区在线| 国产区精品在线| 久久久久久999| 日韩电影不卡一区| 欧美视频免费播放| 日本一区二区不卡视频| 国产又粗又黄又爽| 欧美精品在线网站| 给我免费播放日韩视频| 欧美丰满熟妇bbbbbb百度| 久久久久久久久伊人| 中文字幕在线观看1| 日韩在线观看免费| 亚洲一区二区三区免费| 两根大肉大捧一进一出好爽视频| 久久久一区二区三区| 自拍偷拍福利视频| 久久中文字幕在线| 青青一区二区| 天天干天天干天天干天天干天天干| 国产精品麻豆视频| www.黄色av| 日本高清久久天堂| 天天做天天爱天天综合网2021| 亚洲少妇中文字幕| 91成人国产精品| 99热国产在线中文| 久久综合婷婷综合| 久久精品国产999大香线蕉| 久久久精品视频在线| 亚洲精品一二区| 成人在线啊v| 日韩精品视频久久| 亚洲色欲色欲www在线观看| 天天操天天操天天操| 国产精品狠色婷| 精品电影一区| 欧美福利在线视频| 亚洲国产小视频| 欧美性www| 男女高潮又爽又黄又无遮挡| 亚洲天堂2014| 欧美捆绑视频| 电影午夜精品一区二区三区| 奇米综合一区二区三区精品视频| 免费在线观看av网址| 尤物精品国产第一福利三区| 久久资源综合| 激情在线观看视频|