缺數據也能拿SOTA?清華&上海AI Lab破解機器人RL兩大瓶頸
視覺-語言-動作模型是實現機器人在復雜環境中靈活操作的關鍵因素。
然而,現有訓練范式存在一些核心瓶頸,比如數據采集成本高、泛化能力不足等。
為此,研究團隊提出了SimpleVLA-RL。基于veRL框架,他們實現了針對VLA模型的交互式軌跡采樣與并行仿真渲染機制。

SimpleVLA-RL通過 “交互式軌跡采樣+結果獎勵+探索增強” 的設計,解決了VLA模型訓練的三大核心瓶頸:
- 降低對大規模演示數據的依賴,提升數據效率;
- 增強模型在分布偏移場景下的泛化能力;
- 實現高效的Sim-to-Real遷移,提升真實世界任務性能。
實驗結果表明,該框架在LIBERO與RoboTwin等標準基準測試中均實現了SoTA的性能。更為關鍵的是,即便在有限數據的條件下,SimpleVLA-RL依然能夠訓練出表現優異的模型并具備極高的泛化能力。
在 “單軌跡 SFT”(每個任務僅1條演示數據)場景下,應用SimpleVLA-RL后,OpenVLA-OFT的LIBERO平均成功率從48.9%提升至96.9%,長時序任務LIBERO-Long從17.3%提升至91.7%。

此外,模型在訓練過程中還展現出自主探索能力,并涌現出新的操作策略,例如通過“推動”替代“抓取”的Pushcut現象。這些結果表明,SimpleVLA-RL為VLA模型的高效訓練與泛化能力提升開辟了新的研究路徑。
SimpleVLA-RL:端到端在線訓練方案
VLA模型作為機器人操控領域的重要研究范式,旨在融合視覺感知、語言理解與動作生成,從而在復雜物理環境中實現靈活的任務執行。
現階段的主流訓練流程通常遵循 “大規模預訓練+有監督微調” 的范式。然而,該方法在實際應用中面臨兩大核心瓶頸:
數據稀缺性
SFT依賴于大規模的高質量機器人操作軌跡,而此類數據的采集過程需要精心構建實驗場景、涵蓋多樣化的交互對象,并依賴專業操作人員完成。由此導致采集成本高昂、規模受限,從根本上制約了其可擴展性。
泛化能力不足
SFT的學習過程高度依賴于任務與場景特定的數據分布,因而在面對分布外任務(out-of-distribution tasks)、全新環境或未見過的對象時,模型性能會顯著下降,尤其在長時序依賴與組合型任務中尤為明顯。
與此同時,大規模推理模型(如DeepSeek-R1)的最新進展表明強化學習在僅依賴結果獎勵的情況下,也能顯著提升模型的逐步推理能力。
這引出了一個自然的問題:RL能否同樣有效地增強 VLA 模型在長時序任務中逐步規劃動作的能力?然而將RL直接應用于VLA訓練又面臨一些獨特挑戰:
1、傳統機器人RL往往依賴人工設計的過程獎勵,該方式難以擴展至復雜的開放環境;
2、VLA的訓練需要與物理或高保真模擬環境進行多輪交互,訓練效率低,成本遠高于基于文本的LLM推理優化。

基于上述問題,研究團隊出了SimpleVLA-RL,它是在veRL(LLM強化學習框架)上擴展的一套端到端在線訓練方案,專門針對VLA模型的特點做了優化。
整體設計主要包含四部分:
首先是交互式軌跡采樣。與LLM僅依賴文本token采樣不同,VLA必須在閉環中不斷更新視覺觀測和機器人狀態。
因此,SimpleVLA-RL讓模型直接輸出動作token的概率分布,用隨機采樣生成多樣軌跡。整個過程中,機器人執行動作后環境返回新狀態,再繼續生成,直到任務完成。
其次是結果獎勵建模。研究人員不再使用復雜的過程獎勵(如距離目標遠近),而是采取極簡的二元結果:
任務成功記為1,失敗記為0,并將這個獎勵均勻分攤到整個軌跡的動作token上。
這樣一來,不僅避免了過程獎勵在不同任務間的不可遷移性,也省去了針對任務調參的麻煩,更好地聚焦了訓練目標。
第三是探索增強。VLA模型很容易因為訓練數據過于單一而收斂到狹窄解法,從而導致rollout的軌跡高度同質化進而影響GRPO的優勢估計。
為了解決這個問題,SimpleVLA-RL在三個地方做了調整:
- 動態采樣,只保留“部分成功、部分失敗”的軌跡組,確保優勢估計有效,避免梯度消失;
- 擴大GRPO的裁剪區間,從[0.8, 1.2]放寬到[0.8, 1.28],讓低概率但可能有價值的動作更容易被保留;
- rollout階段提高采樣溫度,從1.0提升到1.6,以此鼓勵更多樣化的探索。
最后是訓練目標?;谏鲜龅囊幌盗懈倪M,團隊進一步對GRPO做了簡化:移除了KL散度正則項,不再依賴參考模型,從而減少內存消耗,也讓新行為的探索不受束縛。

研究團隊的主要貢獻可以總結為如下幾點:
構建VLA專屬高效RL框架:基于veRL擴展,加入VLA交互式軌跡采樣、多環境并行渲染及 “訓練-推理-渲染” 一體化設計,解決VLA與環境交互慢、成本高的問題,支持規?;柧?。
最優性能:團隊引入了探索增強策略,使性能穩定提升10–15%。在LIBERO與RoboTwin 1.0 & 2.0等基準上,SimpleVLA-RL超越多個現有SoTA模型。
數據效率與泛化能力:僅需單個演示軌跡,RL即可將LIBERO-Long的成功率從17.1%提升至91.7%,并在空間、物體與任務泛化上顯著優于SFT。
真實世界可部署性:仿真環境中訓練的策略能夠有效遷移至真實機器人,實現強大的仿真到現實(sim-to-real)性能提升,無需額外的真實機器人數據。
發現 “Pushcut” 新現象:RL訓練使模型自主探索出人類演示之外的新策略。
基準測試性能:刷新SOTA
SimpleVLA-RL基于OpenVLA-OFT(autoregressive VLA模型)實現,在三大基準測試(LIBERO、RoboTwin1.0、RoboTwin2.0)及真實世界任務中驗證,核心結果如下:
LIBERO(單臂操控基準)
在Spatial、Object、Goal、Long四個任務集上,SimpleVLA-RL將OpenVLA-OFT 的平均成功率從91.0%提升至99.1%,其中長時序任務LIBERO-Long提升12.0個百分點(86.5%→98.5%),超越π?(85.2%)、UniVLA(92.0%)等SOTA模型。

RoboTwin1.0(雙臂操控基準)
四個任務平均成功率從39.8%提升至70.4%,其中 “Blocks Stack” 任務提升33.1個百分點(7.1%→40.2%)。

RoboTwin2.0(高多樣性雙臂基準)
覆蓋短/中/長/超長時序12個任務,平均成功率從38.3%提升至68.8%,超越π?(49.2%)和RDT(33.3%)。即使是需多輪交互的超長時序任務(如 “Put Bottles Dustbin”),也提升18.7個百分點。

在LIBERO的 “9個已見任務訓練+1個未見任務測試” 實驗中,SimpleVLA-RL與SF 表現出顯著差異:
SFT:在已見任務成功率達90%以上時,未見任務出現 “災難性遺忘”,部分任務成功率降至0%(如LIBERO-Goal的3個未見任務);
SimpleVLA-RL:所有未見任務成功率均提升,其中LIBERO-Object的 “Unseen Task 2” 提升36.5個百分點,LIBERO-Spatial 的 “Unseen Task 1” 從43.3%提升至71.8%,證明RL能學習通用技能而非過擬合特定數據。

僅使用仿真數據訓練(無真實數據),在AgileX Piper機械臂上測試4個真實任務:
OpenVLA-OFT 的平均成功率僅17.5%,“Pick Bottle” 任務完全失敗。
SimpleVLA-RL將平均成功率提升至38.5%,“Stack Bowls” 提升32個百分點(38.0%→70.0%),“Pick Bottle” 實現14%成功率,證明RL能增強仿真模型的真實環境適配性。

在RoboTwin 2.0的 “Move Can Pot” 與 “Place A2B Right” 兩個任務中,SFT模型僅能復現演示數據中顯式呈現的“抓取–移動–放置”操作序列。
相比之下,經過SimpleVLA-RL訓練的模型能夠自主探索并發現更高效的替代策略,例如直接通過“推”的方式將罐子移至目標位置。研究團隊將這種現象定義為 “Pushcut”,其特征是能夠突破人類演示模式限制,利用獎勵信號探索并采納演示外的路徑。
他們認為其本質在于結果獎勵并不約束具體動作模式,而是允許模型在滿足任務目標的前提下,自主選擇最優或更簡潔的行為路徑。
“Pushcut” 現象證明RL能讓VLA模型超越人類演示的局限并探索更優策略,為未來自主、自適應VLA模型的研發提供了新范式。

論文鏈接:https://arxiv.org/pdf/2509.09674
Github鏈接:https://github.com/PRIME-RL/SimpleVLA-RL
































