精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

缺數據也能拿SOTA?清華&上海AI Lab破解機器人RL兩大瓶頸

人工智能 新聞
研究團隊提出了SimpleVLA-RL。基于veRL框架,他們實現了針對VLA模型的交互式軌跡采樣與并行仿真渲染機制。

視覺-語言-動作模型是實現機器人在復雜環境中靈活操作的關鍵因素。

然而,現有訓練范式存在一些核心瓶頸,比如數據采集成本高、泛化能力不足等。

為此,研究團隊提出了SimpleVLA-RL。基于veRL框架,他們實現了針對VLA模型的交互式軌跡采樣與并行仿真渲染機制。

SimpleVLA-RL通過 “交互式軌跡采樣+結果獎勵+探索增強” 的設計,解決了VLA模型訓練的三大核心瓶頸:

  • 降低對大規模演示數據的依賴,提升數據效率;
  • 增強模型在分布偏移場景下的泛化能力;
  • 實現高效的Sim-to-Real遷移,提升真實世界任務性能。

實驗結果表明,該框架在LIBERO與RoboTwin等標準基準測試中均實現了SoTA的性能。更為關鍵的是,即便在有限數據的條件下,SimpleVLA-RL依然能夠訓練出表現優異的模型并具備極高的泛化能力。

在 “單軌跡 SFT”(每個任務僅1條演示數據)場景下,應用SimpleVLA-RL后,OpenVLA-OFT的LIBERO平均成功率從48.9%提升至96.9%,長時序任務LIBERO-Long從17.3%提升至91.7%。

此外,模型在訓練過程中還展現出自主探索能力,并涌現出新的操作策略,例如通過“推動”替代“抓取”的Pushcut現象。這些結果表明,SimpleVLA-RL為VLA模型的高效訓練與泛化能力提升開辟了新的研究路徑。

SimpleVLA-RL:端到端在線訓練方案

VLA模型作為機器人操控領域的重要研究范式,旨在融合視覺感知、語言理解與動作生成,從而在復雜物理環境中實現靈活的任務執行。

現階段的主流訓練流程通常遵循 “大規模預訓練+有監督微調” 的范式。然而,該方法在實際應用中面臨兩大核心瓶頸:

數據稀缺性

SFT依賴于大規模的高質量機器人操作軌跡,而此類數據的采集過程需要精心構建實驗場景、涵蓋多樣化的交互對象,并依賴專業操作人員完成。由此導致采集成本高昂、規模受限,從根本上制約了其可擴展性。

泛化能力不足

SFT的學習過程高度依賴于任務與場景特定的數據分布,因而在面對分布外任務(out-of-distribution tasks)、全新環境或未見過的對象時,模型性能會顯著下降,尤其在長時序依賴與組合型任務中尤為明顯。

與此同時,大規模推理模型(如DeepSeek-R1)的最新進展表明強化學習在僅依賴結果獎勵的情況下,也能顯著提升模型的逐步推理能力。

這引出了一個自然的問題:RL能否同樣有效地增強 VLA 模型在長時序任務中逐步規劃動作的能力?然而將RL直接應用于VLA訓練又面臨一些獨特挑戰:

1、傳統機器人RL往往依賴人工設計的過程獎勵,該方式難以擴展至復雜的開放環境;

2、VLA的訓練需要與物理或高保真模擬環境進行多輪交互,訓練效率低,成本遠高于基于文本的LLM推理優化。

基于上述問題,研究團隊出了SimpleVLA-RL,它是在veRL(LLM強化學習框架)上擴展的一套端到端在線訓練方案,專門針對VLA模型的特點做了優化。

整體設計主要包含四部分:

首先是交互式軌跡采樣。與LLM僅依賴文本token采樣不同,VLA必須在閉環中不斷更新視覺觀測和機器人狀態。

因此,SimpleVLA-RL讓模型直接輸出動作token的概率分布,用隨機采樣生成多樣軌跡。整個過程中,機器人執行動作后環境返回新狀態,再繼續生成,直到任務完成。

其次是結果獎勵建模。研究人員不再使用復雜的過程獎勵(如距離目標遠近),而是采取極簡的二元結果:

任務成功記為1,失敗記為0,并將這個獎勵均勻分攤到整個軌跡的動作token上。

這樣一來,不僅避免了過程獎勵在不同任務間的不可遷移性,也省去了針對任務調參的麻煩,更好地聚焦了訓練目標。

第三是探索增強。VLA模型很容易因為訓練數據過于單一而收斂到狹窄解法,從而導致rollout的軌跡高度同質化進而影響GRPO的優勢估計。

為了解決這個問題,SimpleVLA-RL在三個地方做了調整:

  • 動態采樣,只保留“部分成功、部分失敗”的軌跡組,確保優勢估計有效,避免梯度消失;
  • 擴大GRPO的裁剪區間,從[0.8, 1.2]放寬到[0.8, 1.28],讓低概率但可能有價值的動作更容易被保留;
  • rollout階段提高采樣溫度,從1.0提升到1.6,以此鼓勵更多樣化的探索。

最后是訓練目標?;谏鲜龅囊幌盗懈倪M,團隊進一步對GRPO做了簡化:移除了KL散度正則項,不再依賴參考模型,從而減少內存消耗,也讓新行為的探索不受束縛。

研究團隊的主要貢獻可以總結為如下幾點:

構建VLA專屬高效RL框架:基于veRL擴展,加入VLA交互式軌跡采樣、多環境并行渲染及 “訓練-推理-渲染” 一體化設計,解決VLA與環境交互慢、成本高的問題,支持規?;柧?。

最優性能:團隊引入了探索增強策略,使性能穩定提升10–15%。在LIBERO與RoboTwin 1.0 & 2.0等基準上,SimpleVLA-RL超越多個現有SoTA模型。

數據效率與泛化能力:僅需單個演示軌跡,RL即可將LIBERO-Long的成功率從17.1%提升至91.7%,并在空間、物體與任務泛化上顯著優于SFT。

真實世界可部署性:仿真環境中訓練的策略能夠有效遷移至真實機器人,實現強大的仿真到現實(sim-to-real)性能提升,無需額外的真實機器人數據。

發現 “Pushcut” 新現象:RL訓練使模型自主探索出人類演示之外的新策略。

基準測試性能:刷新SOTA

SimpleVLA-RL基于OpenVLA-OFT(autoregressive VLA模型)實現,在三大基準測試(LIBERO、RoboTwin1.0、RoboTwin2.0)及真實世界任務中驗證,核心結果如下:

LIBERO(單臂操控基準)

在Spatial、Object、Goal、Long四個任務集上,SimpleVLA-RL將OpenVLA-OFT 的平均成功率從91.0%提升至99.1%,其中長時序任務LIBERO-Long提升12.0個百分點(86.5%→98.5%),超越π?(85.2%)、UniVLA(92.0%)等SOTA模型。

RoboTwin1.0(雙臂操控基準)

四個任務平均成功率從39.8%提升至70.4%,其中 “Blocks Stack” 任務提升33.1個百分點(7.1%→40.2%)。

RoboTwin2.0(高多樣性雙臂基準)

覆蓋短/中/長/超長時序12個任務,平均成功率從38.3%提升至68.8%,超越π?(49.2%)和RDT(33.3%)。即使是需多輪交互的超長時序任務(如 “Put Bottles Dustbin”),也提升18.7個百分點。

在LIBERO的 “9個已見任務訓練+1個未見任務測試” 實驗中,SimpleVLA-RL與SF 表現出顯著差異:

SFT:在已見任務成功率達90%以上時,未見任務出現 “災難性遺忘”,部分任務成功率降至0%(如LIBERO-Goal的3個未見任務);

SimpleVLA-RL:所有未見任務成功率均提升,其中LIBERO-Object的 “Unseen Task 2” 提升36.5個百分點,LIBERO-Spatial 的 “Unseen Task 1” 從43.3%提升至71.8%,證明RL能學習通用技能而非過擬合特定數據。

僅使用仿真數據訓練(無真實數據),在AgileX Piper機械臂上測試4個真實任務:

OpenVLA-OFT 的平均成功率僅17.5%,“Pick Bottle” 任務完全失敗。

SimpleVLA-RL將平均成功率提升至38.5%,“Stack Bowls” 提升32個百分點(38.0%→70.0%),“Pick Bottle” 實現14%成功率,證明RL能增強仿真模型的真實環境適配性。

在RoboTwin 2.0的 “Move Can Pot” 與 “Place A2B Right” 兩個任務中,SFT模型僅能復現演示數據中顯式呈現的“抓取–移動–放置”操作序列。

相比之下,經過SimpleVLA-RL訓練的模型能夠自主探索并發現更高效的替代策略,例如直接通過“推”的方式將罐子移至目標位置。研究團隊將這種現象定義為 “Pushcut”,其特征是能夠突破人類演示模式限制,利用獎勵信號探索并采納演示外的路徑。

他們認為其本質在于結果獎勵并不約束具體動作模式,而是允許模型在滿足任務目標的前提下,自主選擇最優或更簡潔的行為路徑。

“Pushcut” 現象證明RL能讓VLA模型超越人類演示的局限并探索更優策略,為未來自主、自適應VLA模型的研發提供了新范式。

論文鏈接:https://arxiv.org/pdf/2509.09674

Github鏈接:https://github.com/PRIME-RL/SimpleVLA-RL

責任編輯:張燕妮 來源: 量子位
相關推薦

2020-08-13 10:00:56

AI 數據人工智能

2025-10-20 08:45:00

2025-02-17 09:33:00

AI算法模型

2025-02-28 08:30:00

2021-11-30 15:19:19

機器人人工智能技術

2023-11-29 07:17:51

微信機器人AI

2025-07-21 08:47:00

AI框架模型

2022-09-14 12:59:27

人工智能運動課程足球比賽

2024-07-22 15:34:21

2022-01-10 22:06:41

機器人AI人工智能

2024-07-16 13:15:23

2025-03-13 10:28:07

2025-09-15 08:53:00

AI模型推理

2021-10-31 15:51:30

機器人人工智能監控

2022-07-28 11:26:41

人工智能機器人

2018-08-14 17:41:54

人工智能機器人語音識別

2023-08-06 12:50:19

機器人AI

2024-01-05 13:27:00

AI訓練

2024-01-05 19:44:48

谷歌機器人憲法AI

2016-06-02 11:45:34

點贊
收藏

51CTO技術棧公眾號

第一福利永久视频精品| 成人av网在线| 欧美成人在线免费视频| 欧美激情 亚洲| 色婷婷综合久久久中字幕精品久久| 国产网红主播福利一区二区| 国产欧美精品日韩精品| 在线免费观看亚洲视频| 天堂网av成人| 欧美高清激情brazzers| 黄页网站大全在线观看| 欧美激情办公室videoshd| 国产·精品毛片| 国产成人免费av| 校园春色 亚洲| 波多野结衣在线观看一区二区三区 | 精品人妻一区二区三区蜜桃视频| 91麻豆精品| 欧美午夜xxx| 久久久久亚洲av无码专区喷水| 香蕉久久一区二区三区| 激情综合色综合久久综合| 国产91精品久久久久久| www欧美com| 精品久久久久久久久久久下田| 日韩三级免费观看| 亚洲黄色av网址| 国产精品迅雷| 香蕉久久一区二区不卡无毒影院| 在线播放 亚洲| 国产永久免费高清在线观看| 99久久99久久综合| 69174成人网| 国产美女无遮挡永久免费| 久久福利一区| 91av视频在线观看| 欧美性久久久久| 国产成人在线视频免费观看| 久久久亚洲精品一区二区三区| 99re在线观看| 国产三区在线播放| 看电视剧不卡顿的网站| 国产精品pans私拍| 一级片中文字幕| 在线播放日韩| 欧美精品电影在线| 欧美黑吊大战白妞| 忘忧草精品久久久久久久高清| 中文字幕久久久| av男人的天堂av| 欧美日韩xxxx| 国产亚洲成av人片在线观看桃| 一级欧美一级日韩片| ccyy激情综合| 精品国产sm最大网站免费看| 亚洲成人福利视频| 亚洲视频三区| 亚洲成色777777在线观看影院| 中文字幕一二三区| 中文字幕一区图| 欧美v日韩v国产v| 国产伦理在线观看| 亚洲网址在线观看| 亚洲国产另类久久精品| 中文字幕精品视频在线| 日本午夜精品| 国产亚洲一区二区精品| 性爱在线免费视频| 91精品国产乱码久久久久久久| 北条麻妃久久精品| 2021亚洲天堂| 国产九九精品| 国产精品免费电影| 国产视频一区二区三| 国产成人免费视| 国产精品一区二区欧美黑人喷潮水| 黑人精品一区二区三区| 91丨porny丨国产入口| 欧美精品在线一区| 98在线视频| 亚洲一区二区在线观看视频 | 亚洲日本国产| 热久久这里只有| 最新中文字幕第一页| 精品一区二区三区在线观看| 国产不卡一区二区在线观看 | 黄网站色视频免费观看| 老色鬼在线视频| 欧美影片第一页| 女王人厕视频2ⅴk| 偷拍一区二区| 久久韩剧网电视剧| 日韩精品久久久久久久酒店| 日本亚洲三级在线| 99re6在线| 国产三级视频在线播放线观看| 国产精品国产三级国产普通话99| 国产a级黄色大片| 超碰一区二区| 在线成人av网站| 在线免费播放av| 欧美电影免费播放| 992tv在线成人免费观看| 中文字幕日韩经典| 99久久er热在这里只有精品66| 亚洲国产精品综合| 国产ktv在线视频| 欧美精品视频www在线观看| 免费黄色三级网站| 99久久亚洲精品| 欧美在线欧美在线| 丰满肥臀噗嗤啊x99av| 国产欧美日韩综合| aa视频在线播放| 粉嫩一区二区三区在线观看| 亚洲人成电影网站色…| 久久久久亚洲av成人片| 日本中文在线一区| 久久亚洲国产精品日日av夜夜| 黄色小网站在线观看| 日韩欧美国产高清91| 国产chinesehd精品露脸| 欧美a级成人淫片免费看| 欧美中在线观看| 好吊色一区二区| 亚洲精品欧美激情| gogogo高清免费观看在线视频| 欧美三级自拍| 国产69精品久久久久9| 国产免费久久久| 国产精品久久三区| 无码日韩人妻精品久久蜜桃| 私拍精品福利视频在线一区| 欧美精品videos另类日本| 国产成人三级一区二区在线观看一| 亚洲国产精品av| 欧美黄色免费影院| 欧美美女啪啪| 97久久精品人搡人人玩| 亚洲乱码在线观看| 亚洲日本青草视频在线怡红院 | 国产精品亚洲成人| 中文字幕精品—区二区日日骚| 韩国女主播一区二区| 亚洲色图35p| 91午夜精品亚洲一区二区三区| 26uuu精品一区二区| 国产69精品久久久久999小说| 亚洲高清999| 欧美成人性色生活仑片| 精品人妻一区二区三区日产乱码| 亚洲欧美另类在线| 亚洲精品一区二区18漫画 | 久久视频免费在线播放| 国产精品无码久久av| 日韩美女久久久| 交换做爰国语对白| 欧美日本二区| 国产一区在线免费| 亚洲性受xxx喷奶水| 亚洲精品资源美女情侣酒店| 无码视频在线观看| 国产日韩欧美高清在线| 我看黄色一级片| 我不卡神马影院| 国产99在线免费| 在线观看网站免费入口在线观看国内| 日韩风俗一区 二区| 国产精品suv一区| 国产免费观看久久| 日韩精品aaa| 精品91在线| 快播日韩欧美| 美女色狠狠久久| 久久亚洲电影天堂| 欧美视频xxx| 日本道色综合久久| 免费在线观看黄色小视频| 国产激情91久久精品导航| 性一交一乱一伧国产女士spa| 亚洲制服欧美另类| 国产精品视频专区| 色爱综合区网| 亚洲欧美福利视频| 国产一区二区视频免费观看 | 日本a级c片免费看三区| 国产精品麻豆久久久| 久久综合桃花网| 国产日韩亚洲欧美精品| 日韩在线第一区| 精品一区二区三区中文字幕视频 | 亚洲 国产 日韩 综合一区| 国产欧美88| 国产91精品久久久| sm国产在线调教视频| 日韩av在线直播| 国产精品无码白浆高潮| 岛国av一区二区三区| www.97视频| 久久久久国产成人精品亚洲午夜 | 91麻豆免费看| 伊人五月天婷婷| 久久久久久久高潮| 免费超爽大片黄| 婷婷伊人综合| 色涩成人影视在线播放| 琪琪久久久久日韩精品| 91九色国产社区在线观看| 一二三四视频在线中文| 欧美韩国理论所午夜片917电影| 精品久久久久一区二区三区| 欧美mv和日韩mv的网站| 中文字幕丰满人伦在线| 五月综合激情网| avove在线播放| 国产精品剧情在线亚洲| 蜜桃传媒一区二区亚洲| eeuss国产一区二区三区| 久久久九九九热| 另类人妖一区二区av| 欧美日韩一区二区在线免费观看| 亚洲黄页一区| 日韩亚洲欧美一区二区| 99久久综合| 日韩欧美在线电影| 一区二区三区视频免费观看| 国产精品久久久久久久天堂第1集 国产精品久久久久久久免费大片 国产精品久久久久久久久婷婷 | 免费成人深夜天涯网站| 99国产麻豆精品| 超碰人人cao| 国产成人在线看| 色综合五月婷婷| 精品亚洲成a人在线观看| 亚洲一级免费在线观看| 日韩综合一区二区| 92看片淫黄大片一级| 一区二区福利| 日本丰满少妇xxxx| 99热在线精品观看| 青青青免费在线| 一区二区91| 欧美日韩亚洲第一| 日日夜夜免费精品| 自拍偷拍 国产| 秋霞影院一区二区| 一道本视频在线观看| 蜜桃视频在线一区| 国产一伦一伦一伦| 国内精品在线播放| 精品国产午夜福利在线观看| 国产91色综合久久免费分享| 日韩高清一二三区| www.亚洲免费av| 噜噜噜在线视频| 久久久久久久久一| 少妇一级黄色片| 亚洲婷婷在线视频| 欧美日韩国产精品综合| 亚洲va韩国va欧美va| 免费在线不卡视频| 色88888久久久久久影院按摩| 日本精品入口免费视频| 欧美三级欧美一级| 国产精品视频第一页| 日韩三级在线观看| 天天操天天干天天爱| 国产午夜精品免费一区二区三区| 尤物网址在线观看| 久久精品一本久久99精品| 久久久123| 国产精品777| 高清久久一区| 精品无码久久久久国产| 日韩国产欧美一区二区| 国产欧美自拍视频| 亚洲美女少妇无套啪啪呻吟| 欧美两根一起进3p做受视频| 国内精品伊人久久久久av一坑| 日本黄色大片在线观看| 久久久亚洲精品石原莉奈| 久操视频在线观看免费| 一区二区三区四区亚洲| av黄色在线看| 欧美精品视频www在线观看| 国精产品一品二品国精品69xx| 亚洲人成绝费网站色www| 美女黄视频在线观看| 国内精品视频一区| av成人免费| 国产欧美韩日| 久久福利影院| 少妇无码av无码专区在线观看| 日本成人在线一区| 动漫美女无遮挡免费| 国产精品天美传媒| 国产精品第九页| 欧美日韩国产a| 欧美色18zzzzxxxxx| 久久躁狠狠躁夜夜爽| 日韩电影网站| 国产精品一区二区三区在线| 成人精品影院| 啊啊啊一区二区| 国产伦精品一区二区三区视频青涩| 超碰97人人干| 亚洲在线观看免费| 国产精品久久久久久久久久久久久久久久| 亚洲国产精品久久| 中文字幕中文字幕在线十八区| 日韩av免费看网站| 成人av综合网| 少妇高潮流白浆| 免费不卡在线视频| 免费一级做a爰片久久毛片潮| 亚洲一级二级三级| 国产精品久久久久毛片| 亚洲午夜av电影| 最近在线中文字幕| 国产精品视频免费观看| 亚洲精品成人无限看| 中文字幕在线综合| 国产三级久久久| 欧美性猛交bbbbb精品| 亚洲激情自拍图| av手机在线观看| 国产精品免费一区二区三区| 亚洲最新色图| 中文字幕 欧美日韩| 国产精品你懂的在线| 久久久精品视频网站| 亚洲免费视频一区二区| 日韩伦理福利| 国产视色精品亚洲一区二区| 黄色亚洲大片免费在线观看| 亚洲在线观看网站| 亚洲欧美另类小说| 国产亲伦免费视频播放| 色多多国产成人永久免费网站| se01亚洲视频| 日韩精彩视频| 日本不卡在线视频| 精品成人无码一区二区三区| 在线观看免费视频综合| 国产三级视频在线看| 国产精品久久久久av| 日韩黄色大片| 中文字幕视频三区| 亚洲男人的天堂在线aⅴ视频 | 久久精品国产99国产| 大吊一区二区三区| 欧美另类一区二区三区| 欧美成人三区| 91超碰在线电影| 日韩天堂av| 男女做爰猛烈刺激| 91成人国产精品| 在线观看免费网站黄| 91丝袜美腿美女视频网站| 午夜亚洲福利| 亚洲熟女一区二区| 日韩欧美在线网址| 99视频在线观看地址| 91久久久一线二线三线品牌| 影音先锋中文字幕一区| a级在线观看视频| 欧美在线观看视频一区二区三区| 老司机在线看片网av| 国产精品三区在线| 日韩精品免费专区| 国产精品免费在线视频| 精品国产99国产精品| www.日韩| 中国 免费 av| 99久久精品国产麻豆演员表| 精品人妻一区二区三区潮喷在线 | 国产中文在线播放| 日本精品一区二区| 国产一区二区伦理| 日韩三级小视频| 日韩在线视频二区| 第四色中文综合网| 一区二区三区视频在线观看免费| 一区二区三区四区亚洲| 国产在线一二三| 亚洲伊人成综合成人网| 亚洲视频1区| 熟女av一区二区| 亚洲国产美女久久久久| 免费成人黄色网| 男人插女人视频在线观看| 国产欧美一区二区精品忘忧草 | 亚洲欧美在线人成swag| 国产不卡一区二区视频| 中文字幕乱码日本亚洲一区二区| wwwav网站| 国产精品一区二区久久| 亚洲人www| 麻豆明星ai换脸视频| 亚洲天堂影视av| 精品福利网址导航|