精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

破解「長程智能體」RL訓練難題,騰訊提出RLVMR框架,讓7B模型「思考」比肩GPT-4o

人工智能 新聞
智能體在探索中,只因最終能完成任務便獲得獎勵,而其間大量的冗余操作、無效探索,甚至錯誤的推理路徑,都被無意中 「強化」 和固化。

本論文的主要作者來自騰訊混元 AI 數字人團隊 (Tencent Hunyuan AI Digital Human)。該團隊致力于打造「有智商、有情商、有溫度的數字人」,旨在為用戶提供高度擬人、可信賴的數字伙伴,進而實現富有溫度與信任的情感交互。

自主智能體(Agents)正朝著能夠處理復雜長程任務(Long-Horizon Tasks)的通用智能(AGI)邁進,但許多研究者發(fā)現了一個尷尬的現實:很多智能體雖然能完成任務,卻像個「只會蒙答案的學生」,其成功往往依賴于運氣和低效的試錯,而非真正高效、可泛化的推理能力。一旦環(huán)境稍作改變,它們便漏洞百出。

這種「結果正確,但過程混亂」的現象,是當前長程智能體(Long-Horizon Agents)強化學習(RL)范式的一大瓶頸。智能體在探索中,只因最終能完成任務便獲得獎勵,而其間大量的冗余操作、無效探索,甚至錯誤的推理路徑,都被無意中 「強化」 和固化。這導致了兩個核心難題:

1.低效探索難題:智能體容易陷入「無效內卷」,反復嘗試無意義的動作,訓練成本高,推理效率低下。

2.泛化脆弱難題:靠「蒙對」學會的策略缺乏邏輯基礎,在新任務面前不堪一擊,難以實現真正的魯棒性。

如何讓智能體不僅「知其然」,更能「知其所以然」?

面對這些難題,騰訊混元 AI 數字人團隊提出了 RLVMR (Reinforcement Learning with Verifiable Meta-Reasoning Rewards) 框架。這項工作開創(chuàng)性地將認知科學中的「元認知」(即 「思考自己的思考」)理論引入 RL,通過獎勵「好的思考過程」而非僅僅獎勵「好的結果」,首次實現了對智能體推理過程的端到端強化學習,成功解決了長程任務中的低效探索與泛化難題。

圖片

  • 論文地址: [2507.22844] RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents
  • 項目代碼: digitalhuman/RLVMR at main?Tencent/digitalhuman?GitHub

RLVMR:如何教會智能體「思考」,而不僅是「做事」?

傳統(tǒng)方法要么依賴僵化的專家數據(SFT),要么依賴稀疏的結果獎勵(RL),都無法有效塑造智能體高質量的「思維習慣」。RLVMR 的破局點在于:為智能體的「思考過程」本身,設計一套可驗證、可優(yōu)化的獎勵機制。

圖片

1. 智能體學會「三思而后行」:引入元推理狀態(tài)

RLVMR 賦予智能體「自我意識」的能力。在行動前,智能體需要先思考并給自己貼上一個「元推理標簽」,明確自己當前處于哪個認知階段:

  • ?? 規(guī)劃(Planning): 我準備做什么?計劃是什么?
  • ?? 探索(Exploring):我正在執(zhí)行計劃,探索方案。
  • ?? 反思(Reflecting):計劃出錯了?我需要糾正什么?

這套機制讓智能體的「內心戲」變得明確、可追蹤,為獎勵其「優(yōu)質思考」提供了抓手。

2. 獎勵「好思路」,懲罰「壞習慣」:可驗證的過程獎勵

光有標簽還不夠,RLVMR 設計了一套輕量級的驗證規(guī)則,實時評估智能體的思考質量,并給予即時獎勵:

  • 獎勵高效思考:當智能體在「反思」后成功糾錯,或制定出有效「規(guī)劃」時,給予正向獎勵。
  • 懲罰低效行為:當智能體陷入無意義的動作循環(huán)或重復犯錯時,給予負向獎勵。

這種「過程獎勵」機制,像一位貼身教練,不斷引導智能體優(yōu)化其思考與決策路徑,從根本上杜絕「瞎蒙」行為。

3. 從「結果導向」到「過程與結果并重」

RLVMR 將「過程獎勵」與最終的「任務成功獎勵」相結合,通過策略梯度方法進行端到端優(yōu)化。這使得智能體在追求最終目標的同時,必須學會如何更聰明、更高效地達成目標。

核心實驗成果:7B 模型比肩「巨頭旗艦」

在極具挑戰(zhàn)性的 ALFWorld 和 ScienceWorld 兩大長程任務基準上,RLVMR 展現了統(tǒng)治級的性能。經過 RLVMR 訓練的 7B 模型,在難度最高、從未見過的任務(L2 泛化等級)上,成功率高達 83.6%,不僅遠超此前所有 SOTA 模型,更證明了其強大的泛化能力。

圖片

此外,我們的方法訓練出的智能體更「聰明」,解決任務的路徑更直接,在 ALFWorld 和 ScienceWorld 的 L2 復雜環(huán)境中,所需動作數最高減少 28.1%。此外,訓練過程本身也告別了「反復橫跳」式的低效學習,收斂速度更快、策略更穩(wěn)定,顯著緩解了無效探索問題。

圖片

圖片

超越分數:RLVMR 實驗中的深度洞察

洞察一:智能體學會「反思」,告別「無效內卷」

傳統(tǒng) RL 智能體像一個埋頭刷題但從不復盤的學生,容易在錯誤路徑上反復掙扎。RLVMR 的核心貢獻在于教會了智能體「反思」(Reflecting)。

圖片

實驗數據顯示,引入「反思」機制后,智能體在遇到困難時,不再是盲目重試,而是能夠主動識別問題、調整策略。這正是其重復動作率大幅降低、任務成功率飆升的根本原因。它揭示了一個關鍵點:對于復雜任務,教會智能體如何從失敗中學習,比單純「喂」給它成功的經驗更重要。

洞察二:好的推理習慣,是泛化能力的基石

為什么 RLVMR 在未見任務上表現如此出色?

圖片

我們發(fā)現,通過獎勵「好的思考過程」,RLVMR 幫助智能體建立了一套通用的、不依賴于特定任務的「元問題解決框架」(如何規(guī)劃、如何探索、如何反思)。當面對新環(huán)境(L2)時,智能體調用的不再是某個僵化的「解題模板」,而是這套靈活的「思維方法論」。

這證實了一個重要猜想:真正的泛化能力,源自于對問題解決過程的深刻理解,而非對問題答案的機械記憶。 RLVMR 正是通往這條道路的有效路徑。

洞察三:先 「冷啟動」 再 「強化」—— 智能體的成長階梯設計

RLVMR 采用了「冷啟動 SFT + 強化學習 RL」的兩階段訓練流程。這并非簡單的流程拼接,而是一種符合認知規(guī)律的「成長曲線」設計。

  • 冷啟動階段(SFT): 如同基礎教育,讓智能體先通過模仿學習,快速掌握「規(guī)劃」「反思」等元推理概念的基本表達方式。
  • 強化學習階段(RL): 如同進入社會實踐,讓智能體在真實環(huán)境中自由探索,通過「過程獎勵」的不斷反饋,將學到的概念內化為真正的能力。

圖片

這一策略啟示我們:在訓練高級智能體時,「先教會它如何思考,再放手讓它去犯錯成長」,可能是比單一訓練范式更高效的路徑。

總結與展望

RLVMR 的提出,為智能體訓練帶來了從「結果導向」到「過程導向」的范式革新。它證明了,通過對智能體「思考過程」的直接建模與獎勵,我們能夠有效破解長程任務中的「低效探索」與「泛化脆弱」兩大難題。

我們對 AGI 的終極期待,是一個能夠獨立思考、理性決策的伙伴,而不是一個只會尋找捷徑的「做題家」。RLVMR 的工作,正是鼓勵大模型從偶然涌現的能力,走向特定思維模式的強化,為構建更魯棒、更高效、更可解釋的通用智能體邁出了堅實的一步。

這項研究不僅為長程智能體訓練提供了新思路,也為我們探索能真正理解世界、應對未知的下一代 AI 帶來了新的曙光。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-09-24 08:53:10

2025-11-04 08:42:27

2025-07-14 09:00:00

2025-01-06 12:46:16

模型數據訓練

2025-04-16 09:15:00

AI模型數據

2025-06-10 09:07:00

2024-11-22 14:10:00

AI智能體

2025-10-24 12:07:12

2024-09-03 14:30:00

機器人模型

2025-06-06 14:17:11

模型訓練AI

2025-08-21 16:01:58

2025-10-14 09:06:00

2025-01-08 09:00:00

訓練數據研究

2025-08-20 00:00:00

X-Omni圖像生成模型GPT-4o

2024-06-11 14:30:18

2025-02-27 13:45:00

2024-07-18 12:53:13

2024-05-17 09:35:55

GPT-4o模型OpenAI

2025-04-24 09:35:00

2025-04-16 15:28:31

模型AI數據
點贊
收藏

51CTO技術棧公眾號

欧美三级日韩在线| 成人午夜激情片| 中文字幕日韩视频| 韩国一区二区在线播放| h片视频在线观看| 91蜜桃传媒精品久久久一区二区| 欧美在线中文字幕| 欧美视频一区二区在线| 一区二区三区四区高清视频 | jizz亚洲少妇| 欧美电影在线观看免费| 欧美色倩网站大全免费| 在线观看av的网址| 国产精品99999| 国产精品2024| 国产成人一区二区三区小说| 内射一区二区三区| 免费一区二区| 日韩精品一区二区三区三区免费| 黄色一级免费大片| 欧美videossex另类| 国产免费观看久久| 国产在线欧美日韩| 99热这里只有精| 日本不卡一区二区三区高清视频| 久久久久中文字幕| 91在线播放观看| 欧美日韩激情在线一区二区三区| 精品国产免费一区二区三区四区| 在线不卡一区二区三区| 88xx成人免费观看视频库 | 成人av在线资源| 91久久久久久久久| 欧美日韩a v| 99亚洲视频| 欧美福利小视频| 国产真实乱在线更新| 欧美肉体xxxx裸体137大胆| 亚洲国产成人爱av在线播放| 午夜影院免费版| 国产一区精品福利| 欧美熟乱第一页| 久久综合九色综合88i| 色爱综合区网| 一区二区成人在线| 免费的av在线| av中文字幕在线观看| 中文字幕亚洲区| 欧美一区二区三区电影在线观看| 日批免费在线观看| 99久久久久免费精品国产 | 污污的视频免费| 日韩和的一区二在线| 欧美视频在线观看免费| 成 年 人 黄 色 大 片大 全| 国产乱妇乱子在线播视频播放网站| 亚洲免费成人av| 91免费视频黄| 最新国产露脸在线观看| 亚洲人午夜精品天堂一二香蕉| 一卡二卡3卡四卡高清精品视频| 国产色在线 com| 欧美激情一区二区三区在线| 亚洲精品国产精品久久| 色综合久久影院| 亚洲欧洲精品一区二区精品久久久| 亚洲制服欧美久久| 操你啦视频在线| 一二三四社区欧美黄| 国产成人永久免费视频| jizzjizz中国精品麻豆| 五月综合激情日本mⅴ| 国产精品12345| 瑟瑟视频在线看| 色嗨嗨av一区二区三区| 在线看的黄色网址| 爱情电影网av一区二区| 日韩免费看网站| 国产视频久久久久久| 香蕉久久精品| 中文字幕国产日韩| 日韩在线观看视频一区二区| 欧美区日韩区| 欧美中文字幕在线| 国内av在线播放| 精品一区二区久久久| 97久久精品午夜一区二区| 神马一区二区三区| 国产欧美精品在线观看| 青青草免费在线视频观看| av资源中文在线天堂| 在线观看日产精品| 伊人成人免费视频| 天天躁日日躁成人字幕aⅴ| 中文欧美日本在线资源| 久久久久久久久97| 天堂在线亚洲视频| 91精品国产高清久久久久久91裸体| 天堂中文字幕av| 中文字幕不卡一区| a级免费在线观看| 欧美影视资讯| 精品99一区二区| 日本美女xxx| 红桃视频亚洲| 国产精品一区二区三区毛片淫片| 亚洲精品人妻无码| 国产精品午夜免费| 国产成人无码精品久久久性色| 四虎国产精品免费久久5151| 亚洲精品国精品久久99热一| 99久久婷婷国产综合| 亚洲永久免费| 91成人伦理在线电影| 成人免费在线视频网| 天天av天天翘天天综合网色鬼国产| 日韩在线一区视频| 亚洲v天堂v手机在线| 久久99国产精品自在自在app | 欧美精品乱码久久久久久| 午夜免费福利影院| 欧美fxxxxxx另类| 国产精品一久久香蕉国产线看观看| 日本黄色不卡视频| 亚洲精品菠萝久久久久久久| 美女网站色免费| 国产日产精品_国产精品毛片| 久久久亚洲网站| av在线资源观看| 中文字幕一区在线| 中文字幕视频在线免费观看| 一本色道久久综合狠狠躁的番外| 久久久久久91香蕉国产| a在线观看免费| 亚洲欧美韩国综合色| 污版视频在线观看| 日本久久黄色| 国产精品美女主播| 免费在线看v| 色婷婷av久久久久久久| 一区二区不卡免费视频| 亚洲欧美春色| 另类小说综合网| 蜜桃视频www网站在线观看| 亚洲福利视频久久| 久久9999久久免费精品国产| 国产成人综合网站| 国产青草视频在线观看| 无人区乱码一区二区三区| 久久久久999| 国产三级自拍视频| 中文字幕佐山爱一区二区免费| 三级av免费观看| 日韩中文在线电影| 国产日韩视频在线观看| 麻豆视频网站在线观看| 欧美日韩一级视频| 欧美三级黄色大片| 国产精品123| 91午夜在线观看| 成人av地址| 97久久精品国产| 五月天丁香视频| 色噜噜久久综合| 欧美极品jizzhd欧美18| 激情小说亚洲一区| 中文字幕在线中文| 国内精品偷拍| 欧美亚洲午夜视频在线观看| 九色视频在线播放| 欧美日韩国产欧美日美国产精品| 三级黄色在线观看| 国产91丝袜在线播放九色| 丰满少妇久久久| 国产精品欧美三级在线观看| 国产精品免费网站| 黄色精品免费看| 亚洲国产精品久久久久秋霞蜜臀| 亚洲av中文无码乱人伦在线视色| 国产欧美日韩卡一| 毛片毛片毛片毛片毛| 激情一区二区| 亚洲精品国产精品国自产| 国产一区二区三区免费在线 | 亚洲一区二区在线观| 国产精品亚洲欧美一级在线| 九色成人免费视频| 免费在线观看污视频| 欧美性一级生活| 亚洲国产成人精品综合99| av午夜一区麻豆| 一道本视频在线观看| 欧美日韩视频一区二区三区| 麻豆亚洲一区| 欧美午夜在线播放| 国产a∨精品一区二区三区不卡| 久草资源在线| 亚洲欧美日本精品| 国产成人久久精品77777综合| 狠狠躁夜夜躁人人爽天天天天97| 长河落日免费高清观看| 床上的激情91.| 午夜免费一区二区| 亚洲乱码视频| 日韩国产精品毛片| 久久99久久人婷婷精品综合 | 成人av无码一区二区三区| 91福利在线观看| 国产亚洲小视频| 亚洲欧洲成人av每日更新| 香蕉视频污视频| 国产在线播放一区| 中文字幕欧美人妻精品一区| 在线播放日韩| 穿情趣内衣被c到高潮视频| 国产亚洲欧美日韩在线观看一区二区 | 国产精品午夜电影| 国产偷人妻精品一区| 国产乱人伦偷精品视频免下载| 久久久精品在线视频| 亚洲视频久久| 大桥未久一区二区三区| 波多野结衣在线观看一区二区三区 | 日韩av三级在线| 欧美片第1页综合| 一区二区成人国产精品 | 欧美97人人模人人爽人人喊视频| 81精品国产乱码久久久久久| 青春草在线免费视频| 日韩一区二区av| 国产精品久久久久一区二区国产| 日韩精品欧美激情| 亚洲欧美自偷自拍| 亚洲成人激情在线观看| 国产情侣自拍小视频| 欧美日韩精品一区二区三区四区| 午夜久久久久久久久久影院| 欧美视频在线视频| 在线精品免费视| 欧美视频一区二区三区…| 中日韩精品视频在线观看| 亚洲一区二区三区免费视频| 欧美国产日韩在线观看成人| 亚洲男女毛片无遮挡| 国产一二三四区| 亚洲精品国产一区二区精华液 | 在线观看完整版免费| 亚洲片av在线| 加勒比一区二区三区在线| 亚洲欧美激情视频| 蜜桃视频在线免费| 国产亚洲人成a一在线v站| 成人18在线| 日韩一区二区在线视频| 成视频免费观看在线看| 九九热在线精品视频| 欧美男男video| 97香蕉超级碰碰久久免费软件 | 欧美视频在线免费| 亚洲熟女综合色一区二区三区| 色噜噜偷拍精品综合在线| 日韩国产成人在线| 欧美久久一二区| 999免费视频| 欧美精品一区二区不卡| 日本福利午夜视频在线| 亚洲天堂网站在线观看视频| 五月婷婷在线观看| 欧美成人免费视频| 九九色在线视频| 91精品国产网站| 欧洲av一区二区| 亚洲a级在线观看| japanese色系久久精品| 免费在线观看一区二区| 日本一区二区高清不卡| 成人污网站在线观看| 一区二区日本视频| av免费网站观看| 国产精品自拍毛片| 国产精品久久无码| 欧美激情一区在线| 国产精品99精品| 欧美性猛交xxxxxxxx| 国产成人精品无码高潮| 精品亚洲一区二区三区| 免费超碰在线| 国模吧一区二区三区| 国产精品久久亚洲不卡| 99久久精品久久久久久ai换脸| 免费成人av| 国产经典久久久| 性色一区二区| 日日夜夜精品视频免费观看| 久久夜色精品国产噜噜av| 国产真实乱在线更新| 欧美日韩国内自拍| 国产一区二区在线视频观看| 精品香蕉一区二区三区| 国产激情视频在线观看| 日本欧美精品在线| 一区中文字幕电影| 亚洲成人av动漫| 亚洲三级观看| 亚洲欧美日韩一二三区| 国产清纯美女被跳蛋高潮一区二区久久w| 青青青在线免费观看| 色久综合一二码| 风流老熟女一区二区三区| 综合国产在线观看| 92国产精品| 动漫3d精品一区二区三区| 日本一区二区在线看| 国产精品宾馆在线精品酒店| 国产麻豆视频一区二区| 婷婷色一区二区三区| 午夜亚洲国产au精品一区二区 | 亚洲精品国产精品国自产观看浪潮| 99re在线视频| 国产成人精品免高潮费视频| 国产精品调教视频| 日韩专区第三页| 国产一区二区三区视频在线播放| 国产综合精品在线| 精品人伦一区二区三区蜜桃网站| 精品国产18久久久久久| 久久精品中文字幕电影| 2019年精品视频自拍| 欧美精品七区| 亚洲综合激情| bl动漫在线观看| 亚洲第一在线综合网站| 性一交一乱一伧老太| 久热精品视频在线| **国产精品| 潘金莲一级淫片aaaaa免费看| 免费人成黄页网站在线一区二区| 国产特黄级aaaaa片免| 色域天天综合网| 日韩精品系列| 55夜色66夜色国产精品视频| 欧美天堂社区| 欧美日韩在线中文| 久久久99精品免费观看| 手机看片久久久| 亚洲人精选亚洲人成在线| 欧美gay囗交囗交| 日本成人黄色| 日韩av一二三| 国产精品18在线| 欧美日韩国产在线播放网站| 在线观看完整版免费| 91久久久久久久| 午夜久久一区| 黄色激情在线观看| 五月婷婷激情综合网| 四虎影视在线观看2413| 日本久久久久久久久久久| 欧美人与牛zoz0性行为| 午夜两性免费视频| 自拍偷自拍亚洲精品播放| 国产免费无遮挡| 久久69精品久久久久久久电影好| 国产精品毛片久久久| 国产性xxxx18免费观看视频| 国产亚洲一二三区| 亚洲无码精品在线播放| 久久视频在线视频| 91精品入口| 欧美韩国日本在线| 国产精品日日摸夜夜摸av| 一级黄色片在线播放| 欧美成人午夜激情在线| 欧美一性一交| 自拍偷拍一区二区三区四区| 综合欧美亚洲日本| 成人午夜精品福利免费| 国产成人一区二区三区电影| 欧美激情另类| 欧美做受高潮中文字幕| 日本韩国欧美一区| 精品黄色免费中文电影在线播放 | 99国产精品久久久久99打野战| 久久欧美在线电影| 成人精品电影| 人妻 丝袜美腿 中文字幕| 一本一本大道香蕉久在线精品 | 午夜精品在线播放| 欧美在线亚洲在线| 97精品中文字幕| 无码国产精品一区二区免费式直播 | www.日韩av| 91超薄丝袜肉丝一区二区| 久久久久久有精品国产| 日韩1区2区| 少妇一级淫免费观看 | 手机看片一区二区三区| 国产精品欧美日韩一区二区| 激情欧美国产欧美| 亚洲熟女少妇一区二区|