精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

從「會說」邁向「會做」,LLM下半場:Agentic強化學習范式綜述

人工智能 新聞
自 2025 年初 DeepSeek R1 及其背后的 GRPO 范式獲得空前熱度以后,一種新的訓練范式 ——Agentic Reinforcement Learning(Agentic RL),愈發到社區關注。它試圖讓 LLM 從「被動對齊」進化為「主動決策」的智能體,在動態環境中規劃、行動、學習。

本文第一作者為新加坡國立大學博士生 張桂彬、牛津大學研究員 耿鶴嘉、帝國理工學院博士生 于曉航;通訊作者為上海人工智能實驗室青年領軍科學家 白磊 和 牛津大學博士后 / 上海人工智能實驗室星啟研究員 尹榛菲

過去幾年,大語言模型(LLM)的訓練大多依賴于基于人類或數據偏好的強化學習(Preference-based Reinforcement Fine-tuning, PBRFT):輸入提示、輸出文本、獲得一個偏好分數。這一范式催生了 GPT-4、Llama-3 等成功的早期大模型,但局限也日益明顯:缺乏長期規劃、環境交互與持續學習能力。

為了突破這樣的瓶頸,自 2025 年初 DeepSeek R1 及其背后的 GRPO 范式獲得空前熱度以后,一種新的訓練范式 ——Agentic Reinforcement Learning(Agentic RL),愈發到社區關注。它試圖讓 LLM 從「被動對齊」進化為「主動決策」的智能體,在動態環境中規劃、行動、學習。

  • 論文標題:The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
  • arXiv 地址:https://arxiv.org/pdf/2509.02547
  • GitHub 地址:https://github.com/xhyumiracle/Awesome-AgenticLLM-RL-Papers

為了捋清這一新興領域,一篇長達 100 頁、由牛津大學、新加坡國立大學、伊利諾伊大學厄巴納-香檳分校,倫敦大學學院、帝國理工學院、上海人工智能實驗室等 16 家海內外頂級研究機構聯合完成的最新綜述論文,全面系統地梳理了作用于 LLM 的 Agentic RL 這一方向,覆蓋 500 + 相關研究,構建了 Agentic RL 的理論框架、演化脈絡與資源版圖,并討論了可信性、擴展性和復雜環境等未來挑戰。

范式遷移:從 PBRFT 到 Agentic RL

從 LLM-RL 到 Agentic RL 范式遷移概覽

該綜述首先給出范式遷移的形式化定義:早期 RL 研究多基于 PBRFT 范式,可被視為退化的單步 MDP(單 prompt、一次性文本輸出、立即終止),而 Agentic RL 則將 LLM 置于部分可觀測馬爾可夫決策過程(POMDP)下進行多步交互:

其中關鍵變化在于動作空間從單一文本擴展為「文本 + 操作」();同時獎勵從「單步評分」擴展為「時序反饋」,優化整條決策軌跡,把 LLM 從「文本生成器」推進為「可交互的決策體」。

一句話:PBRFT 讓模型更會一次地說,Agentic RL 讓模型更會長程地做。

在強化學習優化算法層面,當前實踐形成了一條從通用策略梯度到偏好優化的譜系,Table 2 匯總比較了三類算法家族及其代表方法,便于讀者快速對照「訓練用什么算法」與「對齊目標/信號形態」 的對應關系。

六大核心能力:智能體的「內功」

要讓 LLM 真正成為智能體,僅有動作空間還不夠,它必須發展出一套完整的能力體系。該綜述將其總結為六大核心模塊,并對每個模塊提出了前瞻性討論:

1. 規劃(Planning):為復雜任務設定子目標與多步行動序列。通過外部引導(外部打分生成獎勵)或內部驅動(自主規劃并修正)實現。

2. 工具使用(Tool Use):調用外部工具完成任務。從 ReAct 等靜態提示模仿演進到 Tool-integrated RL (TIR),讓智能體學會自主選擇組合工具。

Agentic Tool Using 演化路徑

3. 記憶(Memory):保持上下文連貫并積累知識,包括基于外部數據庫檢索記憶、Token 級別記憶和結構化記憶。其中,值得關注的工作包括來自字節跳動的 MemAgent 和麻省理工大學的 MEM1,他們都通過強化學習讓 LLM Agent 擁有自行管理記憶窗口的能力。

4. 自我改進(Self-Improvement)同樣是目前 Agent 最熱門的發展方向。該綜述高屋建瓴地將目前 Agent 自我提升的能力劃分為以下三類:

  • 基于語言強化學習,即類似于 Reflexion、Self-Critic 等風格的自我糾正;
  • 通過強化學習訓練內化自提升能力,譬如來自 MIT-IBM Watson AI Lab 的 Satori 便通過強化學習內化 Agent 在測試階段自我糾正的能力;類似的工作還有來自上海 AI Lab 的 TTRL,Meta 的 SWEET-RL 等等;
  • 通過迭代自訓練,譬如來自清華的 Absolute Zero、來自斯坦福的 Sirius 等等。

5. 推理(Reasoning):解決復雜問題的推導能力,分為快速直覺推理(憑經驗直覺迅速答題)和慢速縝密推理(多步演繹得出嚴謹結論)。

6. 感知(Perception):理解多模態輸入的信息獲取能力。模型從被動識別走向主動感知,可通過定位驅動(將推理錨定具體對象)、工具驅動(借助外部工具輔助)和生成驅動(生成圖像草圖輔助推理)等方式提升感知效果。

智能體與環境交互閉環示意

借助強化學習,這些能力由人工啟發式轉變為可學習的策略,規劃不再依賴硬編碼流程、工具使用也可由模型自主決定、端到端訓練。

Agentic RL 6 大核心能力板塊

任務落地與演化路徑

不同任務領域的 Agent RL 進化樹

Agentic RL 也在橫向拓展應用邊界,涌現出多種智能體雛形:

  • 搜索與研究:優化多輪檢索與證據整合策略,學會何時繼續搜索、何時下結論;
  • 代碼:將編譯錯誤與單元測試結果用作獎勵,推動智能體能力從一次性代碼生成進化到自動調試以及自動化軟件工程流程;

  • 數學:在非形式化 (informal) 推理中,利用正確率或中間過程獎勵來塑造推理軌跡;在形式化 (formal) 推理中,交互式定理證明器 (ITPs) 提供可驗證的二值信號,使智能體能在嚴格規則下探索證明路徑;

  • 圖形界面 (GUI):在網頁和桌面環境中讓智能體學習點擊、輸入、導航等操作,從靜態腳本模仿走向交互式操作,提升對真實應用的適配性;

  • 視覺與具身:融合視覺感知與決策規劃,實現「看-思-做」的連續決策閉環,增強智能體在多模態問答、導航與機器人操作等任務中的表現;
  • 多智能體系統:通過獎勵設計促使多個模型在競爭或合作中逐漸涌現溝通與分工能力。

  • 其他探索:RL 也被應用于數據分析、科學發現等場景,顯示出 Agentic RL 在更多任務中的潛在適應性。

總體來看,Agentic RL 已在多個場景初步落地,并正從單一任務逐漸邁向更復雜、更貼近現實的任務生態。

環境與框架

Agentic RL 的發展離不開可復用的實驗環境與工具鏈。現有工作已涵蓋網頁、GUI、代碼、游戲等多種開源平臺,并配套了相應的評測基準與框架,為研究者提供了開展實驗和對比的基礎設施。

此外,這份綜述還整合了 500+ 篇相關研究,并在 GitHub 上開源了 Awesome-AgenticLLM-RL-Papers,將論文、環境、基準與框架一站式匯總,為后續研究提供了全景式的參考地圖。

挑戰與前瞻

盡管 Agentic RL 已展現出廣闊潛力,但要真正走向穩健和實用,還存在若干核心挑戰:

  • 可信性與安全性:相比傳統 LLM,Agentic RL 智能體集成了規劃、工具調用和記憶等能力,攻擊面顯著擴大;同時,RL 的獎勵驅動機制也可能導致 reward hacking,使不安全行為被強化,帶來更持久的風險。
  • Scale Up 智能體訓練:大規模 Agentic RL 訓練面臨算力、數據和算法效率的瓶頸。當前 RL 方法成本高昂,難以在長時程決策或復雜環境中穩定擴展,需要發展更高效的優化范式。
  • Scale Up 智能體環境:現有的交互環境難以覆蓋真實世界的復雜性。未來應探索環境與智能體的「協同進化」,例如通過自動化獎勵設計、課程生成和環境自適應優化,讓環境在訓練中發揮「主動教學」的作用,而不僅僅作為靜態測試平臺。

這些挑戰構成了 Agentic RL 進一步發展的關鍵門檻,也為未來研究提供了明確方向。

結語

這篇綜述系統化梳理了 Agentic RL 的理論框架、能力維度、任務應用與資源生態,確立了其作為 LLM 演進的重要訓練范式。

綜述強調:單步對齊已難以支撐復雜任務,LLM 訓練范式由此進入 Agentic RL 的下半場,而強化學習是將規劃、工具使用、記憶、推理等核心能力從啟發式功能轉化為穩健智能行為的關鍵機制。

未來,隨著可信性、可擴展性和復雜環境等挑戰的逐步突破,LLM 將有望真正從 「會說」邁向「會做」,成長為更通用、更自主的智能體。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-10-11 04:00:00

2025-07-29 09:05:00

2019-03-21 10:57:58

技術開源數據

2018-11-22 09:07:45

NFV網絡功能虛擬化網絡

2017-12-13 16:50:14

傳播

2018-10-29 13:50:40

2016-12-21 16:53:51

大數據互聯網阿里

2021-08-05 11:11:29

5G數字化行業專網

2020-07-13 07:00:03

微服務服務網格架構

2022-08-09 08:40:51

運營商互聯網云云計算

2021-03-04 09:37:40

云計算云原生計算云安全

2024-09-23 08:42:11

2016-12-13 12:34:23

寬帶電信移動

2024-10-12 17:14:12

2021-01-27 09:12:30

微信搜索騰訊

2018-08-12 11:54:41

BlackHat

2018-12-06 09:55:38

區塊鏈數字貨幣互聯網

2025-02-06 13:50:06

2025-05-28 02:25:00

2018-09-13 11:37:55

微信小程序騰訊
點贊
收藏

51CTO技術棧公眾號

av资源中文在线| 丰满少妇高潮在线观看| 欧美激情另类| 日韩手机在线导航| 久久精品免费一区二区| 在线观看免费黄色| 成人高清免费观看| 国产精品久久久久久超碰| 国产精品 欧美激情| 网曝91综合精品门事件在线 | 日本成人一级片| 中文精品电影| 国产一区二区久久精品| 国产又粗又猛又爽又黄| 色8久久影院午夜场| 亚洲精品一卡二卡| 日韩欧美在线电影| 十八禁一区二区三区| 麻豆国产精品官网| 欧美中文在线免费| 青青草原免费观看| 99精品视频在线观看播放| 精品偷拍各种wc美女嘘嘘| 天美一区二区三区| 日韩av黄色| 在线观看视频91| 国产精品后入内射日本在线观看| 在线观看操人| 国产精品久久久久三级| 免费h精品视频在线播放| 亚洲av无码一区二区三区性色| 日韩福利视频网| 欧美一二三视频| 日韩美女黄色片| 欧美三级小说| 久久大大胆人体| 黄色裸体一级片| 日韩国产一区二区| 一区二区三区在线播放欧美| 粉嫩av懂色av蜜臀av分享| 成人在线超碰| 精品欧美一区二区在线观看| 爱情岛论坛亚洲自拍| 亚洲精品成人一区| 欧美日韩一卡二卡| 亚洲无吗一区二区三区| 忘忧草在线www成人影院| 色偷偷久久人人79超碰人人澡| 国内性生活视频| 在线天堂资源www在线污| 欧美日韩中文在线观看| 欧美 日韩 亚洲 一区| 国内小视频在线看| 亚洲电影第三页| 精品少妇在线视频| 男人av在线播放| 狠狠躁18三区二区一区| 国产亚洲天堂网| 欧美大片免费| 欧美日韩高清一区二区不卡| 亚洲欧美日本一区二区三区| 91精品福利观看| 日韩欧美激情四射| 白嫩情侣偷拍呻吟刺激| 美国成人xxx| 亚洲欧洲激情在线| 美国精品一区二区| 欧美.www| 8090成年在线看片午夜| www五月天com| 精品亚洲aⅴ乱码一区二区三区| 91久久久国产精品| 亚洲黄色在线观看视频| 不卡大黄网站免费看| 秋霞久久久久久一区二区| 二区在线观看| 一区二区三区欧美| 97国产精东麻豆人妻电影| 久久91导航| 欧美一区午夜精品| a级一a一级在线观看| 九九在线高清精品视频| 一区二区三欧美| 欧美成人777| 午夜在线一区二区| 91精品视频大全| 无码精品在线观看| 国产精品久久久久久久久免费相片 | 日本久久久久亚洲中字幕| 国产精品高清无码| 国产成人亚洲综合a∨猫咪| 精品欧美一区二区三区久久久| 国产剧情在线观看| 亚洲一区欧美一区| www日韩在线观看| 久久伊人精品| 亚洲人成伊人成综合网久久久| 日韩国产第一页| 亚洲欧美日韩视频二区| 91网站免费观看| 欧美中文在线| 亚洲一区二区免费视频| 天天天干夜夜夜操| 久久久久97| www.色综合| 国产精品免费精品一区| 国产精品综合在线视频| 欧美日韩国产三区| 后进极品白嫩翘臀在线播放| 欧美性猛交xxxxxxxx| 美女伦理水蜜桃4| 久久亚洲在线| 日本午夜精品理论片a级appf发布| 国产一区二区视频免费观看| 久久女同性恋中文字幕| 精品视频在线观看一区二区| 69堂精品视频在线播放| 亚洲精品成人久久电影| 日本精品人妻无码77777| 日韩国产精品久久久| 国产在线视频欧美一区二区三区| 国产成人无吗| 欧美日韩成人在线| 在线观看国产精品一区| 亚洲综合不卡| 国产欧美韩日| 欧美1—12sexvideos| 欧美一区二区三区性视频| 欧美激情 一区| 日日夜夜精品视频免费| 久久久久久99| 国产传媒在线| 亚洲级视频在线观看免费1级| 老女人性淫交视频| 狠狠色丁香婷婷综合| 一级特黄录像免费播放全99| 日韩影片中文字幕| 亚洲精品综合久久中文字幕| 国产中文字字幕乱码无限| 国产成人免费网站| 狠狠精品干练久久久无码中文字幕| 成人精品国产| 精品国产一区二区三区四区在线观看 | 久久综合九色| 欧美国产一区二区在线| 一个人看的www视频在线免费观看| 精品成人一区二区三区| 男女免费视频网站| 成人激情av网| 波多野结衣乳巨码无在线| 精品深夜福利视频| 国产91精品久久久久久久| 性xxxx18| 在线精品观看国产| 精品伦精品一区二区三区视频密桃| 日韩主播视频在线| 五码日韩精品一区二区三区视频| 深夜视频一区二区| 日韩在线视频免费观看高清中文| 亚洲无码久久久久久久| 亚洲精品一二三| 精品国产乱码久久久久夜深人妻| 极品中文字幕一区| 久久亚洲国产精品日日av夜夜| 在线免费av资源| 亚洲性猛交xxxxwww| 国产一区二区女内射| 亚洲你懂的在线视频| 成熟妇人a片免费看网站| 国产精品日本| 先锋在线资源一区二区三区| 亚洲伊人伊成久久人综合网| 欧美另类第一页| 日本韩国精品一区二区| 欧美日韩成人一区| 亚洲国产精品午夜在线观看| 久久久久久久综合色一本| 亚洲天堂网一区| 综合久久十次| 国产免费一区二区三区| 欧美日韩五区| 欧美大片欧美激情性色a∨久久| 天天干在线观看| 欧美日韩国产三级| 日韩精品一卡二卡| 国产精品不卡在线| 久久福利小视频| 久久99国产精品免费网站| 成人免费观看在线| 成人影院在线| 精品国产91亚洲一区二区三区www| 精品无人乱码一区二区三区 | 国精品产品一区| 欧美精品www| 日本最新在线视频| 亚洲成人久久网| 国产精品系列视频| 日韩欧美高清在线视频| 欧美成人国产精品高潮| 久久久午夜精品理论片中文字幕| 特黄视频免费观看| 免费在线亚洲欧美| 成人黄色片免费| 成人三级视频| 久久国产精品 国产精品| 久久久久久久久久久久电影| 欧洲成人免费视频| 高清电影在线免费观看| 久久天堂电影网| 成av人电影在线观看| 亚洲国产精品成人一区二区| 91女人18毛片水多国产| 色偷偷88欧美精品久久久| 日韩av在线播放观看| 亚洲人xxxx| 中文字幕观看av| 国产精品午夜久久| 中文字幕5566| 99视频热这里只有精品免费| 激情图片中文字幕| 久久成人免费电影| 日本激情视频在线播放| 老司机午夜精品视频| 麻豆tv在线播放| 亚洲天堂黄色| 国产xxxx振车| 欧美激情综合色综合啪啪| 中文字幕免费高| 日韩免费看片| 亚洲欧美久久久久一区二区三区| 伊甸园亚洲一区| 永久免费无码av网站在线观看| 欧美 亚欧 日韩视频在线| 亚洲一区bb| 第四色成人网| 欧美日韩一区二区三| 久久免费视频66| 99久久国产免费免费| 久久九九精品视频| 91精品免费视频| 国产日韩欧美中文在线| 91人成网站www| 伊人久久大香伊蕉在人线观看热v 伊人久久大香线蕉综合影院首页 伊人久久大香 | 中文字幕第一区二区| 精品人妻无码一区二区三区换脸| 91在线观看视频| 日本高清www| 久久久欧美精品sm网站| 成人午夜剧场视频网站| 久久久久久久久久久黄色| 亚洲精品国产91| 国产精品久久久久永久免费观看 | 91久久精品国产91性色tv| 久久精品视频7| 欧美在线观看视频一区二区三区 | 精品日韩在线一区| 亚洲第一页综合| 亚洲国产美女精品久久久久∴| 无码国精品一区二区免费蜜桃| 亚洲精品一二区| 91网页在线观看| 伦伦影院午夜日韩欧美限制| 污污网站在线看| 136fldh精品导航福利| 久久爱91午夜羞羞| 国产欧美精品一区二区三区介绍| 999精品嫩草久久久久久99| 成人h视频在线观看| 精品中国亚洲| 日韩视频专区| 欧美激情在线| 无码人妻h动漫| 久久成人免费日本黄色| 亚洲熟妇一区二区| 久久综合久久鬼色中文字| 青青青视频在线免费观看| 亚洲精品乱码久久久久久久久| 日本在线观看中文字幕| 欧美综合一区二区| 精品国精品国产自在久不卡| 国产手机视频精品| 岛国中文字幕在线| 日本精品性网站在线观看| 免费一级欧美在线观看视频| 成人免费视频网站| 神马电影久久| 999一区二区三区| 免费成人av在线播放| 在线播放av网址| 国产欧美精品一区二区色综合| 久久精品黄色片| 在线亚洲免费视频| 免费国产黄色片| 深夜福利91大全| 精品捆绑调教一区二区三区| 成人动漫视频在线观看完整版| 超免费在线视频| 日韩美女激情视频| 日韩精品视频一区二区三区| 欧美精品欧美精品系列c| 欧美黄色一区| 免费看污污网站| 91在线观看高清| 人妻人人澡人人添人人爽| 日本精品一区二区三区高清| 国产91麻豆视频| www.午夜精品| 全球最大av网站久久| 久久99精品久久久久子伦 | 欧美视频免费看| 91久久国产自产拍夜夜嗨| 九九在线高清精品视频| 成人区一区二区| 精品综合免费视频观看| 国产sm调教视频| 婷婷六月综合网| 精品一区二区精品| 北条麻妃在线视频观看| 国产一区二区调教| 亚洲一级片在线播放| 精品成人av一区| 性一交一乱一精一晶| 久久久精品国产亚洲| www.成人在线视频| 欧美日韩精品一区| 国产日韩欧美| 美女黄色一级视频| 亚洲一区二区三区爽爽爽爽爽 | 欧美一区二区三区免费视频| yiren22亚洲综合伊人22| 日韩av免费在线播放| 亚洲精品无吗| 国产精品-区区久久久狼| 99精品国产一区二区三区不卡| 久久久久久天堂| 欧美成人三级在线| 男女在线观看视频| av一区二区三区免费| 欧美~级网站不卡| 成人做爰69片免费| 亚洲午夜国产一区99re久久| 亚洲国产精品欧美久久| 欧美韩国理论所午夜片917电影| 国产一区二区三区黄网站| 日韩精品久久一区二区| 粉嫩一区二区三区性色av| 18精品爽视频在线观看| 日韩女优av电影在线观看| 人妖欧美1区| 精品国产乱码久久久久久郑州公司| 在线不卡视频| 中文字幕一区二区三区人妻| 色悠悠久久综合| seseavlu视频在线| 国产区精品在线观看| 综合久久十次| 亚洲一级av无码毛片精品| 日韩欧美精品网址| 在线免费观看黄色网址| 91免费欧美精品| 99在线精品免费视频九九视| 天天插天天射天天干| 欧美在线一二三| 免费黄网站在线| 鬼打鬼之黄金道士1992林正英| 亚洲精品国产日韩| 鲁丝一区二区三区| 5月丁香婷婷综合| 91在线三级| 欧美一区亚洲二区| 精品一二三四在线| 午夜偷拍福利视频| 国产亚洲精品美女| 伊人亚洲精品| 无码中文字幕色专区| 国产蜜臀97一区二区三区| 国产精品视频一二区| 久久久久成人精品| 欧美日韩精品在线一区| 亚洲女人在线观看| 亚洲成av人片| 91精品国产91久久久久游泳池| 亚洲自拍偷拍网址| 性一交一乱一区二区洋洋av| 少妇视频一区二区| 日韩高清a**址| 四虎精品一区二区免费| 17c丨国产丨精品视频| 久久久久免费观看| 国产成人精品毛片| 国产成人a亚洲精品| 中文字幕人成人乱码| 中文字幕 自拍| 亚洲成人网在线| 欧洲午夜精品| 激情综合网婷婷| 亚洲成在人线免费| 亚洲免费视频一区二区三区| 久久riav二区三区| 国产成人aaa|