精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

<small id="myi2k"></small><strike id="myi2k"><menu id="myi2k"></menu></strike>

<strike id="myi2k"><menu id="myi2k"></menu></strike>

<fieldset id="myi2k"></fieldset>

<ul id="myi2k"></ul>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

缺數據也能拿SOTA？清華&上海AI Lab破解機器人RL兩大瓶頸

2025-09-26 10:59:55

人工智能新聞

研究團隊提出了SimpleVLA-RL。基于veRL框架，他們實現了針對VLA模型的交互式軌跡采樣與并行仿真渲染機制。

視覺-語言-動作模型是實現機器人在復雜環境中靈活操作的關鍵因素。

然而，現有訓練范式存在一些核心瓶頸，比如數據采集成本高、泛化能力不足等。

為此，研究團隊提出了SimpleVLA-RL。基于veRL框架，他們實現了針對VLA模型的交互式軌跡采樣與并行仿真渲染機制。

SimpleVLA-RL通過 “交互式軌跡采樣+結果獎勵+探索增強” 的設計，解決了VLA模型訓練的三大核心瓶頸：

降低對大規模演示數據的依賴，提升數據效率；
增強模型在分布偏移場景下的泛化能力；
實現高效的Sim-to-Real遷移，提升真實世界任務性能。

實驗結果表明，該框架在LIBERO與RoboTwin等標準基準測試中均實現了SoTA的性能。更為關鍵的是，即便在有限數據的條件下，SimpleVLA-RL依然能夠訓練出表現優異的模型并具備極高的泛化能力。

在 “單軌跡 SFT”（每個任務僅1條演示數據）場景下，應用SimpleVLA-RL后，OpenVLA-OFT的LIBERO平均成功率從48.9%提升至96.9%，長時序任務LIBERO-Long從17.3%提升至91.7%。

此外，模型在訓練過程中還展現出自主探索能力，并涌現出新的操作策略，例如通過“推動”替代“抓取”的Pushcut現象。這些結果表明，SimpleVLA-RL為VLA模型的高效訓練與泛化能力提升開辟了新的研究路徑。

SimpleVLA-RL：端到端在線訓練方案

VLA模型作為機器人操控領域的重要研究范式，旨在融合視覺感知、語言理解與動作生成，從而在復雜物理環境中實現靈活的任務執行。

現階段的主流訓練流程通常遵循 “大規模預訓練+有監督微調” 的范式。然而，該方法在實際應用中面臨兩大核心瓶頸：

數據稀缺性

SFT依賴于大規模的高質量機器人操作軌跡，而此類數據的采集過程需要精心構建實驗場景、涵蓋多樣化的交互對象，并依賴專業操作人員完成。由此導致采集成本高昂、規模受限，從根本上制約了其可擴展性。

泛化能力不足

SFT的學習過程高度依賴于任務與場景特定的數據分布，因而在面對分布外任務（out-of-distribution tasks）、全新環境或未見過的對象時，模型性能會顯著下降，尤其在長時序依賴與組合型任務中尤為明顯。

與此同時，大規模推理模型（如DeepSeek-R1）的最新進展表明強化學習在僅依賴結果獎勵的情況下，也能顯著提升模型的逐步推理能力。

這引出了一個自然的問題：RL能否同樣有效地增強 VLA 模型在長時序任務中逐步規劃動作的能力？然而將RL直接應用于VLA訓練又面臨一些獨特挑戰：

1、傳統機器人RL往往依賴人工設計的過程獎勵，該方式難以擴展至復雜的開放環境；

2、VLA的訓練需要與物理或高保真模擬環境進行多輪交互，訓練效率低，成本遠高于基于文本的LLM推理優化。

基于上述問題，研究團隊出了SimpleVLA-RL，它是在veRL（LLM強化學習框架）上擴展的一套端到端在線訓練方案，專門針對VLA模型的特點做了優化。

整體設計主要包含四部分：

首先是交互式軌跡采樣。與LLM僅依賴文本token采樣不同，VLA必須在閉環中不斷更新視覺觀測和機器人狀態。

因此，SimpleVLA-RL讓模型直接輸出動作token的概率分布，用隨機采樣生成多樣軌跡。整個過程中，機器人執行動作后環境返回新狀態，再繼續生成，直到任務完成。

其次是結果獎勵建模。研究人員不再使用復雜的過程獎勵（如距離目標遠近），而是采取極簡的二元結果：

任務成功記為1，失敗記為0，并將這個獎勵均勻分攤到整個軌跡的動作token上。

這樣一來，不僅避免了過程獎勵在不同任務間的不可遷移性，也省去了針對任務調參的麻煩，更好地聚焦了訓練目標。

第三是探索增強。VLA模型很容易因為訓練數據過于單一而收斂到狹窄解法，從而導致rollout的軌跡高度同質化進而影響GRPO的優勢估計。

為了解決這個問題，SimpleVLA-RL在三個地方做了調整：

動態采樣，只保留“部分成功、部分失敗”的軌跡組，確保優勢估計有效，避免梯度消失；
擴大GRPO的裁剪區間，從[0.8, 1.2]放寬到[0.8, 1.28]，讓低概率但可能有價值的動作更容易被保留；
rollout階段提高采樣溫度，從1.0提升到1.6，以此鼓勵更多樣化的探索。

最后是訓練目標?；谏鲜龅囊幌盗懈倪M，團隊進一步對GRPO做了簡化：移除了KL散度正則項，不再依賴參考模型，從而減少內存消耗，也讓新行為的探索不受束縛。

研究團隊的主要貢獻可以總結為如下幾點：

構建VLA專屬高效RL框架：基于veRL擴展，加入VLA交互式軌跡采樣、多環境并行渲染及 “訓練-推理-渲染” 一體化設計，解決VLA與環境交互慢、成本高的問題，支持規?；柧?。

最優性能：團隊引入了探索增強策略，使性能穩定提升10–15%。在LIBERO與RoboTwin 1.0 & 2.0等基準上，SimpleVLA-RL超越多個現有SoTA模型。

數據效率與泛化能力：僅需單個演示軌跡，RL即可將LIBERO-Long的成功率從17.1%提升至91.7%，并在空間、物體與任務泛化上顯著優于SFT。

真實世界可部署性：仿真環境中訓練的策略能夠有效遷移至真實機器人，實現強大的仿真到現實（sim-to-real）性能提升，無需額外的真實機器人數據。

發現 “Pushcut” 新現象：RL訓練使模型自主探索出人類演示之外的新策略。

基準測試性能：刷新SOTA

SimpleVLA-RL基于OpenVLA-OFT（autoregressive VLA模型）實現，在三大基準測試（LIBERO、RoboTwin1.0、RoboTwin2.0）及真實世界任務中驗證，核心結果如下：

LIBERO（單臂操控基準）

在Spatial、Object、Goal、Long四個任務集上，SimpleVLA-RL將OpenVLA-OFT 的平均成功率從91.0%提升至99.1%，其中長時序任務LIBERO-Long提升12.0個百分點（86.5%→98.5%），超越π?（85.2%）、UniVLA（92.0%）等SOTA模型。

RoboTwin1.0（雙臂操控基準）

四個任務平均成功率從39.8%提升至70.4%，其中 “Blocks Stack” 任務提升33.1個百分點（7.1%→40.2%）。

RoboTwin2.0（高多樣性雙臂基準）

覆蓋短/中/長/超長時序12個任務，平均成功率從38.3%提升至68.8%，超越π?（49.2%）和RDT（33.3%）。即使是需多輪交互的超長時序任務（如 “Put Bottles Dustbin”），也提升18.7個百分點。

在LIBERO的 “9個已見任務訓練+1個未見任務測試” 實驗中，SimpleVLA-RL與SF 表現出顯著差異：

SFT：在已見任務成功率達90%以上時，未見任務出現 “災難性遺忘”，部分任務成功率降至0%（如LIBERO-Goal的3個未見任務）；

SimpleVLA-RL：所有未見任務成功率均提升，其中LIBERO-Object的 “Unseen Task 2” 提升36.5個百分點，LIBERO-Spatial 的 “Unseen Task 1” 從43.3%提升至71.8%，證明RL能學習通用技能而非過擬合特定數據。

僅使用仿真數據訓練（無真實數據），在AgileX Piper機械臂上測試4個真實任務：

OpenVLA-OFT 的平均成功率僅17.5%，“Pick Bottle” 任務完全失敗。

SimpleVLA-RL將平均成功率提升至38.5%，“Stack Bowls” 提升32個百分點（38.0%→70.0%），“Pick Bottle” 實現14%成功率，證明RL能增強仿真模型的真實環境適配性。

在RoboTwin 2.0的 “Move Can Pot” 與 “Place A2B Right” 兩個任務中，SFT模型僅能復現演示數據中顯式呈現的“抓取–移動–放置”操作序列。

相比之下，經過SimpleVLA-RL訓練的模型能夠自主探索并發現更高效的替代策略，例如直接通過“推”的方式將罐子移至目標位置。研究團隊將這種現象定義為 “Pushcut”，其特征是能夠突破人類演示模式限制，利用獎勵信號探索并采納演示外的路徑。

他們認為其本質在于結果獎勵并不約束具體動作模式，而是允許模型在滿足任務目標的前提下，自主選擇最優或更簡潔的行為路徑。

“Pushcut” 現象證明RL能讓VLA模型超越人類演示的局限并探索更優策略，為未來自主、自適應VLA模型的研發提供了新范式。

論文鏈接：https://arxiv.org/pdf/2509.09674

Github鏈接：https://github.com/PRIME-RL/SimpleVLA-RL

責任編輯：張燕妮來源：量子位

AI 模型數據

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

第一福利永久视频精品| 成人av网在线| 欧美成人在线免费视频| 欧美激情亚洲| 色婷婷综合久久久中字幕精品久久| 国产网红主播福利一区二区| 国产欧美精品日韩精品| 在线免费观看亚洲视频| 天堂网av成人| 欧美高清激情brazzers| 黄页网站大全在线观看| 欧美激情办公室videoshd| 国产·精品毛片| 国产成人免费av| 校园春色亚洲| 波多野结衣在线观看一区二区三区 | 精品人妻一区二区三区蜜桃视频| 91麻豆精品| 欧美午夜xxx| 久久久久亚洲av无码专区喷水| 香蕉久久一区二区三区| 激情综合色综合久久综合| 国产91精品久久久久久| www欧美com| 精品久久久久久久久久久下田| 日韩三级免费观看| 亚洲黄色av网址| 国产精品迅雷| 香蕉久久一区二区不卡无毒影院| 在线播放亚洲| 国产永久免费高清在线观看| 99久久99久久综合| 69174成人网| 国产美女无遮挡永久免费| 久久福利一区| 91av视频在线观看| 欧美性久久久久| 国产成人在线视频免费观看| 久久久亚洲精品一区二区三区| 99re在线观看| 国产三区在线播放| 看电视剧不卡顿的网站| 国产精品pans私拍| 一级片中文字幕| 在线播放日韩| 欧美精品电影在线| 欧美黑吊大战白妞| 忘忧草精品久久久久久久高清| 中文字幕久久久| av男人的天堂av| 欧美日韩xxxx| 国产亚洲成av人片在线观看桃| 一级欧美一级日韩片| ccyy激情综合| 精品国产sm最大网站免费看| 亚洲成人福利视频| 亚洲视频三区| 亚洲成色777777在线观看影院| 中文字幕一二三区| 中文字幕一区图| 欧美v日韩v国产v| 国产伦理在线观看| 亚洲网址在线观看| 亚洲国产另类久久精品| 中文字幕精品视频在线| 日本午夜精品| 国产亚洲一区二区精品| 性爱在线免费视频| 91精品国产乱码久久久久久久| 北条麻妃久久精品| 2021亚洲天堂| 国产九九精品| 国产精品免费电影| 国产视频一区二区三| 国产成人免费视| 国产精品一区二区欧美黑人喷潮水| 黑人精品一区二区三区| 91丨porny丨国产入口| 欧美精品在线一区| 98在线视频| 亚洲一区二区在线观看视频 | 亚洲日本国产| 热久久这里只有| 最新中文字幕第一页| 精品一区二区三区在线观看| 国产不卡一区二区在线观看 | 黄网站色视频免费观看| 老色鬼在线视频| 欧美影片第一页| 女王人厕视频2ⅴk| 偷拍一区二区| 久久韩剧网电视剧| 日韩精品久久久久久久酒店| 日本亚洲三级在线| 99re6在线| 国产三级视频在线播放线观看| 国产精品国产三级国产普通话99| 国产a级黄色大片| 超碰一区二区| 在线成人av网站| 在线免费播放av| 欧美电影免费播放| 992tv在线成人免费观看| 中文字幕日韩经典| 99久久er热在这里只有精品66| 亚洲国产精品综合| 国产ktv在线视频| 欧美精品视频www在线观看| 免费黄色三级网站| 99久久亚洲精品| 欧美在线欧美在线| 丰满肥臀噗嗤啊x99av| 国产欧美日韩综合| aa视频在线播放| 粉嫩一区二区三区在线观看| 亚洲人成电影网站色…| 久久久久亚洲av成人片| 日本中文在线一区| 久久亚洲国产精品日日av夜夜| 黄色小网站在线观看| 日韩欧美国产高清91| 国产chinesehd精品露脸| 欧美a级成人淫片免费看| 欧美中在线观看| 好吊色一区二区| 亚洲精品欧美激情| gogogo高清免费观看在线视频| 欧美三级自拍| 国产69精品久久久久9| 国产免费久久久| 国产精品久久三区| 无码日韩人妻精品久久蜜桃| 私拍精品福利视频在线一区| 欧美精品videos另类日本| 国产成人三级一区二区在线观看一| 亚洲国产精品av| 欧美黄色免费影院| 欧美美女啪啪| 97久久精品人搡人人玩| 亚洲乱码在线观看| 亚洲日本青草视频在线怡红院 | 国产精品亚洲成人| 中文字幕精品—区二区日日骚| 韩国女主播一区二区| 亚洲色图35p| 91午夜精品亚洲一区二区三区| 26uuu精品一区二区| 国产69精品久久久久999小说| 亚洲高清999| 欧美成人性色生活仑片| 精品人妻一区二区三区日产乱码| 亚洲欧美另类在线| 亚洲精品一区二区18漫画 | 久久视频免费在线播放| 国产精品无码久久av| 日韩美女久久久| 交换做爰国语对白| 欧美日本二区| 国产一区在线免费| 亚洲性受xxx喷奶水| 亚洲精品资源美女情侣酒店| 无码视频在线观看| 国产日韩欧美高清在线| 我看黄色一级片| 我不卡神马影院| 国产99在线免费| 在线观看网站免费入口在线观看国内| 日韩风俗一区二区| 国产精品suv一区| 国产免费观看久久| 日韩精品aaa| 精品91在线| 快播日韩欧美| 美女色狠狠久久| 久久亚洲电影天堂| 欧美视频xxx| 日本道色综合久久| 免费在线观看黄色小视频| 国产激情91久久精品导航| 性一交一乱一伧国产女士spa| 亚洲制服欧美另类| 国产精品视频专区| 色爱综合区网| 亚洲欧美福利视频| 国产一区二区视频免费观看 | 日本a级c片免费看三区| 国产精品麻豆久久久| 久久综合桃花网| 国产日韩亚洲欧美精品| 日韩在线第一区| 精品一区二区三区中文字幕视频 | 亚洲国产日韩综合一区| 国产欧美88| 国产91精品久久久| sm国产在线调教视频| 日韩av在线直播| 国产精品无码白浆高潮| 岛国av一区二区三区| www.97视频| 久久久久国产成人精品亚洲午夜 | 91麻豆免费看| 伊人五月天婷婷| 久久久久久久高潮| 免费超爽大片黄| 婷婷伊人综合| 色涩成人影视在线播放| 琪琪久久久久日韩精品| 91九色国产社区在线观看| 一二三四视频在线中文| 欧美韩国理论所午夜片917电影| 精品久久久久一区二区三区| 欧美mv和日韩mv的网站| 中文字幕丰满人伦在线| 五月综合激情网| avove在线播放| 国产精品剧情在线亚洲| 蜜桃传媒一区二区亚洲| eeuss国产一区二区三区| 久久久九九九热| 另类人妖一区二区av| 欧美日韩一区二区在线免费观看| 亚洲黄页一区| 日韩亚洲欧美一区二区| 99久久综合| 日韩欧美在线电影| 一区二区三区视频免费观看| 国产精品久久久久久久天堂第1集国产精品久久久久久久免费大片国产精品久久久久久久久婷婷 | 免费成人深夜天涯网站| 99国产麻豆精品| 超碰人人cao| 国产成人在线看| 色综合五月婷婷| 精品亚洲成a人在线观看| 亚洲一级免费在线观看| 日韩综合一区二区| 92看片淫黄大片一级| 一区二区福利| 日本丰满少妇xxxx| 99热在线精品观看| 青青青免费在线| 一区二区91| 欧美日韩亚洲第一| 日日夜夜免费精品| 自拍偷拍国产| 秋霞影院一区二区| 一道本视频在线观看| 蜜桃视频在线一区| 国产一伦一伦一伦| 国内精品在线播放| 精品国产午夜福利在线观看| 国产91色综合久久免费分享| 日韩高清一二三区| www.亚洲免费av| 噜噜噜在线视频| 久久久久久久久一| 少妇一级黄色片| 亚洲婷婷在线视频| 欧美日韩国产精品综合| 亚洲va韩国va欧美va| 免费在线不卡视频| 色88888久久久久久影院按摩| 日本精品入口免费视频| 欧美三级欧美一级| 国产精品视频第一页| 日韩三级在线观看| 天天操天天干天天爱| 国产午夜精品免费一区二区三区| 尤物网址在线观看| 久久精品一本久久99精品| 久久久123| 国产精品777| 高清久久一区| 精品无码久久久久国产| 日韩国产欧美一区二区| 国产欧美自拍视频| 亚洲美女少妇无套啪啪呻吟| 欧美两根一起进3p做受视频| 国内精品伊人久久久久av一坑| 日本黄色大片在线观看| 久久久亚洲精品石原莉奈| 久操视频在线观看免费| 一区二区三区四区亚洲| av黄色在线看| 欧美精品视频www在线观看| 国精产品一品二品国精品69xx| 亚洲人成绝费网站色www| 美女黄视频在线观看| 国内精品视频一区| av成人免费| 国产欧美韩日| 久久福利影院| 少妇无码av无码专区在线观看| 日本成人在线一区| 动漫美女无遮挡免费| 国产精品天美传媒| 国产精品第九页| 欧美日韩国产a| 欧美色18zzzzxxxxx| 久久躁狠狠躁夜夜爽| 日韩电影网站| 国产精品一区二区三区在线| 成人精品影院| 啊啊啊一区二区| 国产伦精品一区二区三区视频青涩| 超碰97人人干| 亚洲在线观看免费| 国产精品久久久久久久久久久久久久久久| 亚洲国产精品久久| 中文字幕中文字幕在线十八区| 日韩av免费看网站| 成人av综合网| 少妇高潮流白浆| 免费不卡在线视频| 免费一级做a爰片久久毛片潮| 亚洲一级二级三级| 国产精品久久久久毛片| 亚洲午夜av电影| 最近在线中文字幕| 国产精品视频免费观看| 亚洲精品成人无限看| 中文字幕在线综合| 国产三级久久久| 欧美性猛交bbbbb精品| 亚洲激情自拍图| av手机在线观看| 国产精品免费一区二区三区| 亚洲最新色图| 中文字幕欧美日韩| 国产精品你懂的在线| 久久久精品视频网站| 亚洲免费视频一区二区| 日韩伦理福利| 国产视色精品亚洲一区二区| 黄色亚洲大片免费在线观看| 亚洲在线观看网站| 亚洲欧美另类小说| 国产亲伦免费视频播放| 色多多国产成人永久免费网站| se01亚洲视频| 日韩精彩视频| 日本不卡在线视频| 精品成人无码一区二区三区| 在线观看免费视频综合| 国产三级视频在线看| 国产精品久久久久av| 日韩黄色大片| 中文字幕视频三区| 亚洲男人的天堂在线aⅴ视频 | 久久精品国产99国产| 大吊一区二区三区| 欧美另类一区二区三区| 欧美成人三区| 91超碰在线电影| 日韩天堂av| 男女做爰猛烈刺激| 91成人国产精品| 在线观看免费网站黄| 91丝袜美腿美女视频网站| 午夜亚洲福利| 亚洲熟女一区二区| 日韩欧美在线网址| 99视频在线观看地址| 91久久久一线二线三线品牌| 影音先锋中文字幕一区| a级在线观看视频| 欧美在线观看视频一区二区三区| 老司机在线看片网av| 国产精品三区在线| 日韩精品免费专区| 国产精品免费在线视频| 精品国产99国产精品| www.日韩| 中国免费 av| 99久久精品国产麻豆演员表| 精品人妻一区二区三区潮喷在线 | 国产中文在线播放| 日本精品一区二区| 国产一区二区伦理| 日韩三级小视频| 日韩在线视频二区| 第四色中文综合网| 一区二区三区视频在线观看免费| 一区二区三区四区亚洲| 国产在线一二三| 亚洲伊人成综合成人网| 亚洲视频1区| 熟女av一区二区| 亚洲国产美女久久久久| 免费成人黄色网| 男人插女人视频在线观看| 国产欧美一区二区精品忘忧草 | 亚洲欧美在线人成swag| 国产不卡一区二区视频| 中文字幕乱码日本亚洲一区二区| wwwav网站| 国产精品一区二区久久| 亚洲人www| 麻豆明星ai换脸视频| 亚洲天堂影视av| 精品福利网址导航|

<fieldset id="0wm0k"></fieldset>

<blockquote id="0wm0k"><dfn id="0wm0k"></dfn></blockquote>

<tfoot id="0wm0k"><input id="0wm0k"></input></tfoot>

<tfoot id="0wm0k"></tfoot>