精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

RL 將如何提高具身大模型 VLA 泛化性?清華大學團隊NeurIPS 2025文章分析 RL 與 SFT 泛化性差異

人工智能 新聞
來自清華大學的研究團隊在 NeurIPS 2025 發表文章,首次系統性地揭示了強化學習(RL)在提升 VLA 泛化能力上的獨特優勢,并帶來了一套全面的評測基準和高效訓練方法。

在具身智能領域,視覺 - 語言 - 動作(VLA)大模型正展現出巨大潛力,但仍面臨一個關鍵挑戰:當前主流的有監督微調(SFT)訓練方式,往往讓模型在遇到新環境或任務時容易出錯,難以真正做到類人般的泛化。但在大語言模型(LLM/VLM)領域,強化學習(RL)已被證明能顯著提升模型的泛化能力。RL 究竟能為 VLA 帶來哪些獨特的泛化優勢?與 SFT 相比,它們的優劣勢分別體現在哪里?

來自清華大學的研究團隊在 NeurIPS 2025 發表文章,首次系統性地揭示了強化學習(RL)在提升 VLA 泛化能力上的獨特優勢,并帶來了一套全面的評測基準和高效訓練方法。通訊作者是清華大學教授汪玉和博士后于超。

  • 論文標題:What Can RL Bring to VLA Generalization? An Empirical Study
  • 項目網站和代碼:https://rlvla.github.io/
  • 論文地址:https://arxiv.org/abs/2505.19789

為了解決 VLA 模型泛化能力有限的問題,研究團隊構建了一個涵蓋多種視覺、語義和執行挑戰的全新評測基準,并系統性地對比了強化學習(RL)和傳統有監督微調(SFT)在提升模型泛化性上的表現。通過大量實驗發現:采用 PPO 等強化學習算法微調 VLA,不僅顯著提升了模型在語義理解和任務執行上的魯棒性,還能在視覺變化場景下保持與 SFT 相當的表現。同時提出了一套簡單高效的 PPO 訓練方案,使得強化學習在 VLA 領域的應用更加實用和高效。

具身基礎模型:開源 OpenVLA 大模型

研究團隊采用了目前 SoTA 之一的開源 OpenVLA 模型為基礎進行研究。OpenVLA 從 Llama2-7b 微調而來,在每一個時間步,接收一張 RGB 圖像和一條指令(即歷史長度 H=1),并輸出一系列離散的動作 token 控制機械臂行動。

問題 1:何種 RL 方法更好?

研究團隊測試了三種在大語言模型領域廣受認可的強化學習算法,包括 RLHF 中常用的 PPO(近端策略優化)和 DPO(直接偏好優化),以及在數學等推理任務中展現出色的 GRPO(組相對策略優化)。

實驗結果令人意外:在機器人控制這一多步決策任務中,經典的 PPO 算法展現出了顯著優勢,而專為語言模型設計的 DPO 和 GRPO 卻難以高效學習。研究團隊分析認為,這源于機器人任務的部分可觀測馬爾可夫決策過程(POMDP)特性 —— 每個動作都會改變環境狀態,這種非平穩性可能破壞了 GRPO 的優勢估計穩定性。而 DPO 面臨的挑戰則在于稀疏獎勵結構難以區分軌跡質量,以及離線數據與在線執行之間存在顯著的分布偏移。

問題 2:如何實現高效的 PPO 訓練?

為了讓 PPO 在 VLA 模型上高效運行,研究團隊提出了三個關鍵創新。

1. 共享 Actor-Critic 架構設計:讓 Actor 和 Critic 共享同一個主干網絡,僅在最后添加一個輕量級的 MLP 作為價值頭。這一設計將顯存占用減少了 45%,訓練速度提升 35%,還保持了相當的性能表現。

2. VLA 模型預熱策略:使用 140 條高質量軌跡對模型進行預熱,此步驟讓后續的強化學習收斂速度提升 50%,大幅減少了所需的環境交互次數。

3. 最小化 PPO 訓練輪次:傳統 PPO 通常會對每批數據進行多輪梯度更新,但研究發現在 VLA 場景下,將 PPO 訓練輪次(epoch)設為 1 就已足夠 —— 更多的更新輪次不僅無法提升性能,反而會增加訓練時間。通過這一優化,整個訓練過程在單張 A100 GPU 上僅需 42 小時即可收斂。

問題 3:SFT 和 RL 的對比

為了公平比較,研究團隊首先探究了 SFT 的數據規模上限。研究團隊使用動作規劃器(Motion Planner)采集了不同規模的 SFT 數據集,實驗顯示,當演示軌跡數量達到 16,000 條(約 126 萬個狀態 - 動作對)時,無論是訓練分布內、還是分布外新物體 / 桌面的 SFT 性能都趨于飽和。

然而對于 RL,雖然收斂時訓練分布內任務性能與 SFT 相當,但是在分布外任務上卻取得了 42.6% 的性能提升,這展現出 RL 具有更強的泛化性。

為了深入剖析泛化性差異,研究團隊基于 ManiSkill 仿真器構建了一個全面的評測基準,從視覺(如動態紋理、新桌面)、語義(如未見物體、指令變體)和執行(如物體位置變化、機器人初始姿態)三個維度系統地對泛化能力進行拆解。

實驗結果清晰地展現了 RL 的優勢:RL 在語義理解任務上表現出明顯優勢,特別是在處理未見物體的抓取任務時;在執行魯棒性方面更是大幅領先,無論是物體位置變化、機器人初始姿態偏移,還是任務執行中途的物體移位,RL 都展現出了顯著更強的適應能力;而在視覺泛化上,兩種方法表現相當。

通過對具體案例的可視化分析,研究團隊發現了更深層的差異。在強噪聲干擾下,SFT 策略會在抓取物體后反復掉落,而 RL 策略能夠穩定完成任務。面對未見物體時,SFT 容易陷入重復嘗試抓取已持有物體的死循環,RL 則能正確判斷并完成放置。最引人注目的是執行軌跡分布的差異:RL 探索了更廣闊的工作空間和更豐富的末端執行器姿態,而 SFT 的軌跡則緊密聚集在演示數據的運動規劃路徑周圍。這種更廣泛的覆蓋或許解釋了 RL 在執行任務上具有的優越泛化能力。

這項研究不僅為 VLA 模型的訓練提供了新的方向,更重要的是證明了強化學習在構建真正通用的具身智能體中的核心價值。隨著機器人應用場景日益復雜多變,這種能夠通過試錯學習、自主適應新環境的能力將變得愈發重要。

團隊致力于研究強化學習在 VLA 中的運用,開源了首個面向具身智能的 “渲訓推一體化” 大規模強化學習框架 RLinf(https://github.com/RLinf/RLinf),更多大規模的實驗結果參見網站。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-06 04:10:00

LLM人工標注RL

2025-09-09 09:13:00

AI模型數據

2024-07-19 10:39:38

2025-11-20 08:47:53

2025-02-10 09:35:00

2024-12-30 10:20:00

模型數據訓練

2025-10-21 09:04:00

2025-09-16 10:09:00

2025-10-10 02:15:00

2025-01-10 09:30:00

2025-10-29 16:11:39

AI模型工具

2025-10-13 08:58:00

2025-04-23 12:09:25

RL大模型進化

2025-07-28 09:12:00

2009-07-31 14:50:16

電纜回波損耗

2025-09-15 08:53:00

AI模型推理

2025-11-18 10:00:56

2024-12-27 12:00:48

2025-07-25 10:19:44

2024-11-01 20:25:28

點贊
收藏

51CTO技術棧公眾號

一级二级三级视频| 色一情一乱一乱一91av| 亚洲在线一区二区| 日韩免费视频线观看| 国产一区二区三区高清| 波多野结衣爱爱| 国产精品麻豆久久| 精品久久久久久无| 亚洲免费av一区二区三区| 国产在线观看a| 成人福利视频在线| 国产精品免费久久久久影院| 久草网视频在线观看| 国产欧美一区二区三区精品观看 | 久草福利资源在线观看| 精品在线播放| 亚洲成人免费在线视频| 九九精品久久久| 成人短视频app| 亚洲欧美另类久久久精品2019| 久久超碰亚洲| www.av网站| 免费成人美女在线观看.| 国内精品视频一区| 三级影片在线看| 精品久久久久久久| 亚洲精品久久久一区二区三区| 中文字幕丰满乱码| 欧美xoxoxo| 天天做天天摸天天爽国产一区| 亚洲欧洲精品一区二区| 黑人与亚洲人色ⅹvideos| 成人国产亚洲欧美成人综合网| 国产一区视频在线| 中文字幕 自拍偷拍| 亚洲中午字幕| 97视频在线播放| 久草免费新视频| 中文字幕午夜精品一区二区三区 | 色爱综合区网| 成人欧美一区二区三区在线播放| 欧美中文娱乐网| 午夜av免费在线观看| 国产大陆a不卡| 91沈先生作品| 国产伦精品一区二区三区视频痴汉| 日韩电影免费一区| 日本欧美国产在线| 麻豆成人免费视频| 性一交一乱一区二区洋洋av| 亚洲2020天天堂在线观看| 天堂视频免费看| av在线影院| 国产精品久久久久婷婷| 欧美视频1区| 日本一区视频| 久久影视一区二区| 美女被啪啪一区二区| 日韩亚洲视频在线| 亚洲国产精品二区| 国产成人小视频| 日韩精品一区二区三区中文 | 日本亚洲欧美| 亚洲激情国产| 久久全球大尺度高清视频| 欧美交换国产一区内射| 在线免费观看日本欧美爱情大片| 精品国产一区二区三区久久| 激情无码人妻又粗又大| 99久久99久久精品国产片桃花| 最近2019年日本中文免费字幕 | 成人动漫免费在线观看| 在线看国产精品| 国产美女高潮视频| 黄色成人av网站| 91干在线观看| 久久久久久久久久一级| 久久99国产乱子伦精品免费| 92看片淫黄大片欧美看国产片| 国产99999| 99精品久久免费看蜜臀剧情介绍| 日韩av一区二区三区美女毛片| 国产色一区二区三区| 日本在线观看视频| 亚洲伦理在线精品| 久久99久久99| 国产精品久久久久久超碰| 中文字幕一区二区人妻痴汉电车| 久久99精品久久久| 国产精品国产精品| 黄色国产在线| 亚洲精品日产精品乱码不卡| 久久久久久久久久网| 91成人抖音| 亚洲а∨天堂久久精品喷水| 久久久久久久毛片| 综合久久精品| 国产福利成人在线| 精品国产99久久久久久宅男i| av在线播放一区二区三区| 亚洲国产精品123| 欧美主播一区二区三区| 91社在线播放| 国产拍在线视频| 欧美日韩一区二区三区在线看| 成人高清在线观看视频| 在线日本制服中文欧美| 欧美剧在线观看| 国产精品一区无码| 国产超碰在线一区| 一本久道久久综合狠狠爱亚洲精品| eeuss鲁一区二区三区| 欧美色综合天天久久综合精品| 97精品人妻一区二区三区蜜桃| 成人影院在线| 亚洲承认在线| 天天干天天操天天操| 亚洲天堂免费| 日本乱人伦a精品| 亚洲国产日韩在线观看| 久久久久久久久久久久久夜| 欧美一级爱爱视频| 国产欧美自拍| 精品亚洲aⅴ在线观看| 欧美三级免费看| 麻豆精品一区二区av白丝在线| 精品一区二区国产| 日本三级在线观看网站 | 秋霞av一区二区三区| 国产成人av在线影院| 最新欧美日韩亚洲| 色综合一区二区日本韩国亚洲| 亚洲品质视频自拍网| 一区二区三区视频免费看| 国产乱码精品一区二区三区忘忧草 | 久草在线网址| 欧美日韩精品中文字幕| 无码人妻精品一区二区三| 亚洲不卡在线播放| 奇米888四色在线精品| 日韩一级二级三级| 久久久久天天天天| 91制片在线观看| 日韩精品一区二区三区四区| 亚洲波多野结衣| 久久99精品一区二区三区三区| 日韩精品久久久毛片一区二区| 亚洲v.com| 亚洲人成绝费网站色www| 日韩精品在线免费视频| 91美女片黄在线观看91美女| 亚洲欧洲日产国码无码久久99| 激情av综合| 97超级碰在线看视频免费在线看| 后入内射欧美99二区视频| 亚洲综合激情网| 男人的天堂影院| 一本色道久久综合一区| 久久一区二区三区欧美亚洲| 另类图片综合电影| 国产一区二区三区久久精品| 伊人网免费视频| 亚洲三级电影网站| 91人人澡人人爽| 国产日韩精品视频一区二区三区 | 亚洲综合在线观看视频| 台湾佬美性中文| 国产欧美综合一区二区三区| 欧美日韩国产高清视频| 日韩精品三区| 日韩视频在线免费| 亚洲精品国产精品乱码不卡| 婷婷六月综合亚洲| 在线观看日本中文字幕| 看国产成人h片视频| 亚洲精品偷拍视频| 中文字幕一区二区三区日韩精品| 57pao成人永久免费视频| 成年网站在线| 精品福利一二区| 久久夜色精品国产噜噜亚洲av| 中文字幕精品在线不卡| 国产又粗又猛又爽又黄| 国产农村妇女毛片精品久久莱园子| 日韩资源av在线| 国产精品成人3p一区二区三区| 国模视频一区二区三区| 福利视频在线播放| 精品久久久久久久久久久久包黑料| 中文字幕激情小说| 国产精品国产三级国产| 亚洲熟女一区二区| 久久精品国内一区二区三区| 丰满的少妇愉情hd高清果冻传媒| 精品久久久中文字幕| 操一操视频一区| 成人日韩精品| 欧美激情精品久久久久久大尺度| 国产高清免费在线播放| 精品国产乱码久久久久久影片| 懂色av蜜臀av粉嫩av喷吹| 艳妇臀荡乳欲伦亚洲一区| 成人做爰69片免网站| 国产成人精品综合在线观看| 亚洲77777| 亚洲视频播放| 91精品国产毛片武则天| jlzzjlzz亚洲女人| 精品在线不卡| 亚洲一区二区免费在线观看| 国产精自产拍久久久久久蜜| 欧美13videosex性极品| 欧美日韩不卡合集视频| 自拍视频在线| 亚洲摸下面视频| 免费观看黄色av| 日韩精品专区在线影院观看| 在线视频 中文字幕| 色哟哟欧美精品| 全部毛片永久免费看| 亚洲综合一区在线| 美女视频久久久| 欧美激情一区二区三区| 日本少妇色视频| 99在线精品观看| 精品伦一区二区三区| 国产一区二区日韩精品| 伊人网在线综合| 日本美女一区二区三区视频| 欧美a在线视频| 日韩天堂av| 免费在线观看视频a| 欧美日韩国产在线一区| 国产欧美自拍视频| 国产精品99在线观看| 亚洲五月六月| 色婷婷热久久| 一区二区精品国产| 999国产精品永久免费视频app| 日韩一区不卡| 日韩欧美中字| 伊人情人网综合| 欧美韩日高清| 二级片在线观看| 91精品综合| 少妇一晚三次一区二区三区| 欧美精品国产一区二区| 日韩人妻一区二区三区蜜桃视频| 亚欧美无遮挡hd高清在线视频| 伊人av成人| 国产精品久久久久久久免费观看| 中文字幕成人一区| 伊人久久大香线蕉综合四虎小说| 久久视频免费在线| 欧美色图首页| 成年人视频观看| 久久精品电影| 艹b视频在线观看| 精品中文字幕一区二区小辣椒| 福利片一区二区三区| 国产成人亚洲综合a∨婷婷| 欧美极品jizzhd欧美仙踪林| 99精品视频一区| 久久久久无码精品国产sm果冻| 国产精品的网站| 国产va在线播放| 欧美日韩性视频| 国产真人无遮挡作爱免费视频| 欧美少妇bbb| www.成人免费视频| 日韩av在线影院| 69视频在线| 欧美精品福利在线| 原纱央莉成人av片| 国产日本欧美在线观看| 国产成人一二| 欧美大陆一区二区| 日韩激情免费| 国产a级片网站| 免费av网站大全久久| 不卡中文字幕在线观看| 成人福利电影精品一区二区在线观看| 欧美日韩高清丝袜| 亚洲免费在线视频| 视频一区二区三区四区五区| 91精品国产综合久久小美女| 午夜小视频免费| 久久精品91久久久久久再现| 天堂在线中文网官网| 成人久久一区二区| 亚洲欧美tv| 黄黄视频在线观看| 免费久久99精品国产自在现线| 日韩欧美亚洲另类| 26uuu精品一区二区| 国产极品国产极品| 91福利在线免费观看| 性生活三级视频| 中文字幕欧美日韩va免费视频| 国产乱妇乱子在线播视频播放网站| 国产精品一区=区| 日韩aaa久久蜜桃av| 一二三四中文字幕| 麻豆专区一区二区三区四区五区| 国产免费一区二区三区最新6| 国产精品久久久久三级| 国产精品100| 欧美tickling挠脚心丨vk| 北岛玲一区二区三区| 91精品国产乱码久久久久久蜜臀| 国产日韩一区二区三免费高清| 欧洲精品在线一区| 99精品免费| 91精品人妻一区二区三区蜜桃2 | 国产中文字幕一区| 亚洲AV无码成人精品区明星换面| 亚洲va国产va欧美va观看| 国产喷水吹潮视频www| 中文字幕av一区二区| 欧美大片免费高清观看| 国产伦精品一区二区三| 午夜精品久久久久99热蜜桃导演| 美女少妇一区二区| 国产日产欧美一区二区三区| 91精品国产乱码久久久张津瑜| 日韩一区二区高清| 成人看av片| 成人免费视频在线观看超级碰| 不卡中文字幕| 欧美精品第三页| 91年精品国产| 久久久久久久久久久久久av| 日韩经典中文字幕| 蜜桃视频动漫在线播放| 国产一区二区三区免费不卡| 精品1区2区3区4区| 白嫩情侣偷拍呻吟刺激 | 中文字幕一区二区三区四区视频 | 日韩网站中文字幕| 欧美凹凸一区二区三区视频| 国产欧美高清| 疯狂揉花蒂控制高潮h| 精品久久久久久久久久| 少妇高潮久久久| 欧美一区二区三区精品电影| 女人丝袜激情亚洲| 国产真人无码作爱视频免费| 91免费观看国产| 秋霞av一区二区三区| 色一区av在线| 99综合99| 亚洲中文字幕无码一区二区三区| 国产成人久久精品77777最新版本| 妺妺窝人体色www聚色窝仙踪| 欧美mv日韩mv国产网站app| 波多野结衣在线观看| 久久99欧美| 日韩精品电影在线| 少妇视频一区二区| 日韩视频一区在线观看| av手机免费在线观看| 美女三级99| 蜜桃久久久久久久| 超碰在线国产97| 亚洲成人久久网| japanese23hdxxxx日韩| 一区二区三区三区在线| 国产成人精品免费一区二区| 日韩av一二三区| 国产手机视频精品| 四虎成人精品一区二区免费网站| 国风产精品一区二区| 99久久婷婷国产综合精品电影| 天天综合久久综合| 久久国产精彩视频| 久久丝袜视频| 国产精品1luya在线播放| 91黄色国产视频| 亚洲日本免费| www亚洲色图| 日韩一区二区在线观看视频播放| 成人超碰在线| 日韩欧美激情一区二区| 国产一区二区三区免费播放| 日韩xxxxxxxxx| 综合欧美国产视频二区| 综合久久成人| 欧洲熟妇精品视频| 亚洲免费在线播放| 久久久久久女乱国产| 91视频国产一区| 欧美中文日韩| 欧美精品一区二区成人| 亚洲日本成人网| 97久久综合精品久久久综合| 成年人小视频网站| 婷婷综合在线观看| 激情在线小视频| 欧美日韩一区二区视频在线| 国产成a人亚洲精品|