精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

SS 2025|ConRFT:真實環境下基于強化學習的VLA模型微調方法

人工智能 新聞
本文提出了一種兩階段方法 ConRFT,用于在真實環境下的機器人應用中強化微調 VLA 模型。

本文第一作者為陳宇輝,中科院自動化所直博三年級;通訊作者為李浩然,中科院自動化所副研;研究方向為強化學習、機器人學習、具身智能。

視覺-語言-動作模型在真實世界的機器人操作任務中顯示出巨大的潛力,但是其性能依賴于大量的高質量人類演示數據。

由于人類演示十分稀缺且展現出行為的不一致性,通過監督學習的方式對 VLA 模型在下游任務上進行微調難以實現較高的性能,尤其是面向要求精細控制的任務。

為此,中科院自動化所深度強化學習團隊提出了一種面向 VLA 模型后訓練的強化微調方法 ConRFT(Consistency-based Reinforced Fine-tuning)。其由離線和在線微調兩階段組成,并具有統一的基于一致性策略的訓練目標。這項工作凸顯了使用強化學習進行后訓練以增強視覺-語言-動作模型在真實世界機器人應用中的潛力。

目前,該論文已被機器人領域頂級會議 Robotics: Science and Systems XXI(RSS 2025)接收。

圖片

  • 論文標題:ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy
  • 論文地址:https://arxiv.org/abs/2502.05450
  • 項目主頁:https://cccedric.github.io/conrft/
  • 開源代碼:https://github.com/cccedric/conrft

研究背景

視覺-語言-動作模型(Vision-Language-Action, VLA)在訓練通用機器人策略方面取得的最新進展表明機器人數據集上進行大規模預訓練后 [1,2],其擁有在理解和執行各種操作任務方面的卓越能力。

雖然預訓練的通用策略能夠捕捉泛化性的表征,但其仍然難以在真實機器人和任務上做到零樣本泛化 [3],因此使用任務專用的數據進行后訓練微調對于優化模型在下游任務中的性能來說非常重要。

目前廣泛使用的方法是使用人類遙操作收集的數據對 VLA 模型進行監督微調(Supervised Fine-tuning, SFT)。然而,模型的性能嚴重依賴于數據集的質量和數量。由于人類收集數據的次優性和策略不一致性等固有問題,這些數據很難提供最優軌跡 [4],導致微調后的模型效果不佳。

與此同時,大語言模型(Large Language Model, LLM)和視覺-語言模型(Vision-Language Model, VLM)的最新進展凸顯了強化學習在對齊模型策略與人類偏好之間差距 [5] 或改進模型推理 [6] 方面的價值,證明了部署使用任務專用的獎勵函數的強化學習(Reinforcement Learning, RL)來從在線交互中機性能策略更新具有巨大的潛力。

然而,與 LLM/VLM 不同,VLA 模型需要機器人與真實世界進行物理交互,因而將 RL 擴展到 VLA 模型面臨著巨大的挑戰。尤其是在要求精細控制的操作任務上,交互安全性和成本限制要求 RL 算法具有探索的安全保障和很高的樣本效率。

ConRFT:基于強化學習的 VLA 模型微調方法

為了充分利用 RL 技術的優勢,利用在線交互數據高效微調 VLA 模型,我們提出了一種強化微調(Reinforced Fine-tuning, RFT)方法,包含離線和在線兩個階段,并采用統一的訓練目標。

基于我們之前的工作 CPQL [7],本文方法將 SFT 與 Q-learning 相結合,并利用一致性策略微調 VLA 模型。離線微調過程中利用人類收集的專家數據,在模型與真實環境交互之前提取有效的策略和穩定的價值函數。

隨后的在線微調階段通過人在回路(Human-in-the-Loop Learning, HIL)進行干預,并使用獎勵驅動的策略學習,從而解決了在真實環境下進行 RL 的安全要求和樣本效率兩個挑戰。該方法示意圖如下:

圖片

本文方法采用一致性策略(Consistency Policy)作為動作單元(Action Head),對 VLA 模型進行微調,解決了兩個關鍵問題:

1)它有助于利用預收集的數據中經常出現的策略不一致和次優演示問題;

2)與基于擴散模型(Diffusion Model)的動作單元相比,其在計算上保持輕量,可以實現高效推理。

一致性策略是一種基于概率流常微分方程(Probability Flow Ordinary Differential Equation)的策略,它學習從高斯分布中采樣的隨機動作映射到基于當前狀態的專家動作分布,從而生成目標動作用于決策任務。

階段I:離線微調(Cal-ConRFT)

由于預訓練的 VLA 模型通常缺乏對未見過場景的零樣本泛化能力,因此離線階段專注于使用預先收集的小型離線數據集(大約 20-30 次演示)訓練策略,然后再過渡到在線微調階段,從而減少整體在線訓練時間和探索過程帶來的安全風險。

為了能夠有效利用離線數據,離線階段選擇(Cal-QL)[8] 作為價值函數更新方法,以提高 Q 函數對分布外(Out of Distribution, OOD)動作的魯棒性。使用 Cal-QL 進行價值函數更新的訓練目標如下:

圖片

盡管通常情況下,Cal-QL 能夠高效地利用離線數據集,但在只有少量演示(例如 20-30 個)可用時,其依然很難訓練出有效的策略。因為有限的狀態-動作覆蓋會導致 Q 值估計不準,從而使策略難以推廣到未見過的狀態。相比傳統的離線強化學習方法,其數據集通常由多種行為策略收集而成,可以提供廣泛的狀態-動作覆蓋范圍以減少分布偏移。

為了解決這個問題,離線階段加入了 BC(Behavior Cloning)損失。BC 損失直接最小化策略生成的動作與演示中的動作之間的差異,通過鼓勵模型模仿演示中的行為,在離線階段提供額外的監督信號。這有助于 VLA 模型學習更有效的策略,并初始化穩定的 Q 函數。

具體而言,使用一致性策略動作單元的 VLA 模型更新訓練目標如下:

圖片

階段II:在線微調(HIL-ConRFT)

雖然離線階段可以從少量演示數據中提供初始策略,但其性能受限于預先收集的演示數據的范圍和質量。因此,本文方法引入在線階段,即 VLA 模型通過與真實環境交互并進行在線微調。

在階段 II 的強化微調過程中,離線階段的演示緩沖區圖片依然保持用于存儲演示數據,同時還有一個重放緩沖區圖片來存儲在線數據,并使用平均采樣來形成單個批次(Batch)用于模型訓練。

由于 VLA 模型會根據其當前策略不斷收集新的數據,數據分布會自然地隨著策略而演變,這種持續的交互減少了離線階段面臨的分布偏移問題。因此,在線微調階段直接使用標準 Q 損失進行價值函數更新:

圖片

對于 VLA 模型,在線微調階段使用與離線階段結構統一的訓練目標,因此 VLA 模型可以快速適應并實現策略性能提升:

圖片

可以注意到,在線階段仍然保留了 BC 損失。主要有兩個原因:

1)它確保策略與演示數據一致,防止出現可能導致性能崩潰的劇烈偏差;

2)由于強化學習本質上涉及探索,因此它在高維狀態-動作空間中可能變得不穩定,而 BC 損失可以防止策略與離線基線方法偏差過大,從而降低低效或不安全行為的風險。這在真實機器人的訓練中和要求精細控制的操作任務中非常重要,尤其是在不安全動作可能導致物體損壞或其他危險的物理環境中。

此外,在線階段通過人在回路學習將人工干預融入學習過程。具體而言,其允許人類操作員及時干預并從 VLA 模型接管機器人的控制權,從而在探索過程中提供糾正措施。

當機器人出現破壞性行為(例如碰撞障礙物、施加過大的力量或破壞環境)時,人工干預至關重要。這些人工糾正措施會被添加到演示緩沖區圖片中,以提供高層次的指導,引導策略探索朝著更安全、高效的方向演變。

除了確保安全的探索之外,人工干預還可以加速策略收斂。因為當策略導致機器人陷入不可恢復狀態或不良狀態(如機械臂將被操作物體扔出桌面或與桌面撞擊),或者機器人陷入局部最優解(如果沒有外部幫助,則需要花費大量時間和步驟才能克服)時,人類操作員可以介入糾正機器人的行為,并引導其朝著更安全、有效的方向演變。

實驗結果與分析

為了評估本文方法在真實環境中強化微調 VLA 模型的有效性,我們在八個不同的操作任務上進行了實驗,并選擇 Franka Emika 機械臂作為實驗平臺,如下圖所示。

圖片

這些任務旨在反映各種操作任務挑戰,包括物體放置任務(例如將面包放入烤面包機)、要求精確控制的任務(例如將輪子對準并插入椅子底座)以及柔性物體處理的任務(例如懸掛中國結)。

在八個真實環境任務上的實驗測試證明了 ConRFT 性能超越最先進(SOTA)方法的能力。VLA 模型在本文提出的框架下經過 45-90 分鐘的在線微調后,平均任務成功率達到 96.3%,展現了極高的策略性能和樣本效率。

此外,它的性能優于基于人類收集數據或強化學習策略數據訓練的 SFT 方法,平均成功率提高了 144%,且平均軌跡長度縮短了 1.9 倍,這些結果凸顯了使用獎勵驅動的強化微調方法在提升 VLA 模型在下游任務上性能的巨大潛力。

策略測試

通過獎勵驅動的強化微調,VLA 模型表現出對外部人為干擾的極強魯棒性,確保更可靠地完成任務。包含外部人為干擾的策略效果可以參考 Pick Banana 和 Hang Chinese Knot 任務。

Pick Banana(含外部人為干擾)

Put Spoon

Open Drawer

Pick Bread

Open Toaster

Put Bread

Insert Wheel

Hang Chinese Knot(含外部人為干擾)

在精細操作任務上的展示

為了進一步展示本文方法在 VLA 模型微調方面的能力,我們進行了穿針任務實驗。經過 40 分鐘的在線微調,微調后的 VLA 模型取得了 70% 的成功率。

總結與展望

本文提出了一種兩階段方法 ConRFT,用于在真實環境下的機器人應用中強化微調 VLA 模型。

首先,利用少量演示進行離線微調(Cal-ConRFT),并通過一個統一的訓練目標初始化一個可靠的策略和價值函數,該目標將 Q 損失和 BC 損失整合到一個基于一致性策略的框架中。然后,在線微調階段(HIL-ConRFT)利用任務專用的獎勵和人工干預對 VLA 模型進行微調。

在八個不同的真實環境操作任務上實驗結果表明,本文方法在成功率、平均軌跡長度和樣本效率方面均優于 SOTA 方法??偠灾?,這項工作展示了一種利用強化學習進行安全且高效的 VLA 模型微調的方法。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-23 09:09:00

2025-11-07 08:51:41

2023-01-04 10:02:53

強化學習自動駕駛

2023-07-20 15:18:42

2025-03-05 10:21:04

DeepSeekLVLM

2025-05-26 17:16:51

2022-08-26 14:44:32

強化學習AI

2024-01-26 08:31:49

2023-08-05 13:08:54

2025-06-03 06:12:03

2023-08-28 06:52:29

2024-12-18 07:20:00

2024-04-12 08:59:02

強化學習系統人工智能擴散模型

2025-02-17 10:40:20

2023-04-06 16:29:18

模型AI

2022-09-04 14:38:00

世界模型建模IRIS

2017-08-17 09:15:23

強化學習KerasOpenAI

2017-07-14 16:24:48

TensorFlow框架開發

2020-08-10 06:36:21

強化學習代碼深度學習

2023-03-09 08:00:00

強化學習機器學習圍棋
點贊
收藏

51CTO技術棧公眾號

久久视频在线| 综合在线影院| 不卡视频一二三| 欧美亚洲另类制服自拍| 欧美福利第一页| 96视频在线观看欧美| 偷窥国产亚洲免费视频| 日韩性感在线| 国产成人三级在线观看视频| 美女国产精品| 欧美福利视频网站| 黄色国产在线播放| 国产精品久久久久久久久久白浆| 91黄色小视频| 精品少妇人欧美激情在线观看| 福利视频在线播放| 国产乱子轮精品视频| 日韩av电影在线免费播放| 精品无码久久久久成人漫画| 亚洲人成精品久久久| 日韩精品一区二区三区视频播放| av五月天在线| 97人人爽人人澡人人精品| 欧美激情一区二区三区蜜桃视频| 国产乱码精品一区二区三区卡| 少妇又紧又色又爽又刺激视频| 99国产精品99久久久久久粉嫩| zzijzzij亚洲日本成熟少妇| 久久久视频6r| 妖精视频一区二区三区免费观看| 日韩欧美一区中文| xxxx在线免费观看| 国产综合av| 狠狠色狠色综合曰曰| 成人免费观看在线| а√资源新版在线天堂| 国产精品久久久久9999吃药| 欧美二区在线| 色天堂在线视频| 高清在线成人网| 亚洲直播在线一区| 夜夜躁狠狠躁日日躁av| 日韩电影一区二区三区| 欧美一级片在线播放| 日韩字幕在线观看| 国产精品www994| 美女久久久久久久久久久| 少妇愉情理伦三级| 欧美自拍偷拍| 一个人www欧美| 久久国产柳州莫菁门| 夜夜春成人影院| 亚洲欧美www| 久久精品成人av| 神马影视一区二区| 亚洲欧洲一区二区三区久久| 素人fc2av清纯18岁| 亚洲婷婷影院| 一区二区三区精品99久久| 国产美女免费网站| 成人激情诱惑| 久久精品99久久久香蕉| avtt天堂在线| 亚洲国产精品第一区二区| 欧美精品videossex性护士| 欧美黑人猛猛猛| 亚洲一级电影| 欧美在线免费观看| wwwwww在线观看| 久久99精品久久久久久动态图 | 亚洲欧美日韩中文在线| 久久久亚洲av波多野结衣| 国产一区二区观看| 中文字幕久久久| 在线看的片片片免费| 欧美日本三区| 奇米四色中文综合久久| 亚洲免费视频二区| 国产在线国偷精品免费看| 3d动漫啪啪精品一区二区免费| 国产高清在线观看视频| av一二三不卡影片| 欧美日韩在线一二三| 91社区在线| 亚洲香肠在线观看| 国产日韩成人内射视频| 91精品国产色综合久久不卡粉嫩| 日韩精品中文字幕在线不卡尤物| 国产老熟女伦老熟妇露脸| 最新精品国偷自产在线| 日韩一级裸体免费视频| 国产在线观看免费av| 久久婷婷亚洲| 91欧美日韩一区| 外国精品视频在线观看 | 久久99热狠狠色一区二区| 久久久天堂av| 亚洲美女喷白浆| 日本激情视频一区二区三区| 欧美午夜不卡| 国产精品福利网站| 亚洲乱色熟女一区二区三区| 久久久久久亚洲综合影院红桃 | 免费黄色a级片| 精品久久影院| 久久久天堂国产精品女人| 中文字幕人成人乱码亚洲电影| 国产不卡高清在线观看视频| 区一区二区三区中文字幕| 97超碰资源站在线观看| 色天天综合久久久久综合片| 欧美污在线观看| 国产一区二区三区电影在线观看| 欧美黑人xxx| 亚洲天堂狠狠干| 91麻豆福利精品推荐| 无码人妻精品一区二区蜜桃百度| 日本欧美一区| 亚洲精品久久久久久久久久久久久| 精品视频第一页| 美女国产一区| 精品网站在线看| 国产第一页在线视频| 欧美精品亚洲一区二区在线播放| 日韩中文字幕电影| 在线国产日韩| 97中文在线| 黄色免费在线网站| 欧美性大战久久久| 男生草女生视频| 亚洲精品日韩久久| 波多野结衣成人在线| 蜜桃视频在线观看免费视频网站www| 欧美性感美女h网站在线观看免费| 伊人久久久久久久久| 久久久久久久久国产一区| 国产精品久久久久久久久| 免费在线黄色网址| 欧美日韩美女在线观看| 天天躁日日躁狠狠躁免费麻豆| 亚洲人成免费网站| 成人免费观看网址| 日本中文字幕在线观看| 欧美揉bbbbb揉bbbbb| 中文字幕 自拍| 日韩国产欧美一区二区三区| 欧美日韩一区二区三| 中文在线8资源库| 亚洲欧美精品suv| 人人草在线观看| 国产亚洲va综合人人澡精品| www.日本xxxx| 91欧美在线| 91久久国产精品91久久性色| 国产视频中文字幕在线观看| 制服丝袜亚洲播放| www青青草原| 成人免费毛片嘿嘿连载视频| 成人免费性视频| 麻豆精品少妇| 日韩美女免费视频| 北岛玲一区二区三区| 在线亚洲精品福利网址导航| 国产精品久久免费观看| 久久成人精品无人区| 国产91porn| 久久资源综合| 国产97人人超碰caoprom| 国产一区精品| 7777精品伊人久久久大香线蕉| 精品自拍偷拍视频| 成人丝袜18视频在线观看| 欧美 日韩 国产在线观看| 免费不卡中文字幕在线| 91精品国产综合久久香蕉| av观看在线| 亚洲精品久久久久中文字幕欢迎你 | 另类小说第一页| 99精品全国免费观看视频软件| 95av在线视频| 日本蜜桃在线观看视频| 在线观看精品自拍私拍| 99在线观看免费| 岛国av一区二区| 美国精品一区二区| 国产精品一区二区不卡| 六月丁香激情网| 色偷偷综合网| 精品91免费| 国产91在线精品| 久久露脸国产精品| 番号在线播放| 精品国产污网站| 中文永久免费观看| 亚洲不卡在线观看| 麻豆一区在线观看| jlzzjlzz国产精品久久| 亚洲欧洲日本精品| 亚洲国产精品一区| 亚洲综合网中心| 清纯唯美亚洲经典中文字幕| 国产九九精品视频| 国产精品25p| 久久亚洲精品毛片| 国产在线视频网站| 精品国产乱码久久久久久闺蜜| 中文字幕制服诱惑| 天天色 色综合| 青娱乐国产精品| 欧美国产精品v| 欲求不满的岳中文字幕| 国产麻豆成人传媒免费观看| 能在线观看的av网站| 亚洲国产高清视频| 91成人在线视频观看| 精品高清在线| 精品视频一区在线| 亚洲精品不卡在线观看| 国产免费一区二区三区香蕉精| 牛牛精品一区二区| 久久理论片午夜琪琪电影网| 91中文在线| 久久精品国产亚洲精品| 成人动漫在线免费观看| 亚洲国产精品一区二区久| 国产成人三级一区二区在线观看一| 欧美性高清videossexo| 国语对白永久免费| 欧美日韩国产区| 中文字幕第28页| 一区二区三区在线观看网站| 后入内射无码人妻一区| 欧美高清在线一区| 成人性生交大免费看| 91麻豆免费在线观看| 中文字幕在线永久| 成人午夜激情片| 在线观看免费视频黄| 国产91精品免费| 国产精品无码自拍| 国产传媒欧美日韩成人| 青娱乐国产精品视频| 国产一区二区三区av电影| 亚洲成人福利在线| 美女视频黄a大片欧美| 天天综合网日韩| 蜜桃视频第一区免费观看| 欧美激情精品久久久久久小说| 午夜在线播放视频欧美| 国产亚洲综合视频| 午夜在线精品| 日本黄色三级大片| 丝袜诱惑制服诱惑色一区在线观看| 国产精品自拍片| 亚洲一区黄色| 免费黄色特级片| 日韩国产高清在线| 亚洲综合婷婷久久| 久久91精品国产91久久小草| 五月天开心婷婷| 国产剧情在线观看一区二区| 精品国产aⅴ一区二区三区东京热 久久久久99人妻一区二区三区 | 久久综合久久八八| 2021国产在线| 91国产精品91| 97久久网站| 91在线观看免费| av成人资源网| 欧美日韩精品久久久免费观看| 欧洲激情综合| 色婷婷777777仙踪林| 亚洲韩日在线| 国产v亚洲v天堂无码久久久| 蜜桃视频免费观看一区| 爱情岛论坛亚洲自拍| 99热这里都是精品| 欧美黄色高清视频| 亚洲老妇xxxxxx| www.伊人久久| 欧美高清视频在线高清观看mv色露露十八| av无码精品一区二区三区宅噜噜| 亚洲高清福利视频| 国产在线自天天| 欧美大片在线免费观看| 九色porny丨首页入口在线| 国产精品久久久久免费a∨| 国产一区二区三区国产精品| 国产专区一区二区| 日韩成人激情| 九九热只有这里有精品| 日本不卡视频在线| 少妇高潮一69aⅹ| 国产女人18水真多18精品一级做 | 荫蒂被男人添免费视频| 欧美国产日韩亚洲一区| 欧美日韩偷拍视频| 在线免费观看视频一区| www.成人免费视频| 伊人久久综合97精品| a天堂资源在线| 国产日韩欧美视频在线| 婷婷五月色综合香五月| 日韩成人午夜影院| 青娱乐精品在线视频| 亚洲最大的黄色网| 亚洲欧美在线观看| 无码无套少妇毛多18pxxxx| 日韩午夜电影在线观看| www 日韩| 日产精品99久久久久久| 91蜜桃臀久久一区二区| 正在播放亚洲| 老司机免费视频久久| 国产精品手机在线观看| 亚洲免费视频中文字幕| 国产情侣免费视频| 日韩国产精品亚洲а∨天堂免| 亚洲卡一卡二| 成人黄色在线观看| 日韩av片子| 欧美日韩亚洲一二三| 91丝袜美腿高跟国产极品老师| 日韩视频中文字幕在线观看| 欧美在线色视频| 欧美大片aaa| 欧美亚洲一区在线| 国产精品久久久久久久久久白浆| 九九久久九九久久| 国产一区二区女| 91狠狠综合久久久| 欧美性欧美巨大黑白大战| 黄视频在线观看免费| 日本国产高清不卡| 香蕉视频一区二区三区| 鲁一鲁一鲁一鲁一色| 国产1区2区3区精品美女| 免费视频一二三区| 日韩一级片网站| 成人av福利| 91精品啪aⅴ在线观看国产| 日韩精品欧美| 欧美wwwwwww| 亚洲欧洲av另类| 国产人妻精品一区二区三| 日韩网站免费观看高清| av一级久久| 91精品国产吴梦梦| 国产精品一区二区果冻传媒| 劲爆欧美第一页| 精品久久久久久久久久久久久久久久久| av毛片在线播放| 国产精品久久一区二区三区| 一区二区视频欧美| 91玉足脚交白嫩脚丫| 色天天综合色天天久久| 黄色的视频在线免费观看| 国产99久久精品一区二区 夜夜躁日日躁 | 亚洲综合99| 国产熟女一区二区| 欧美日韩国产免费| 91亚洲天堂| 久久av免费观看| 日本成人中文字幕在线视频| 色婷婷粉嫩av| 精品国产免费视频| 妞干网免费在线视频| 日本亚洲欧洲精品| 九一九一国产精品| 久久久综合久久久| 日韩久久精品成人| 欧美亚洲二区| av在线播放天堂| 国产欧美一区二区精品秋霞影院| 影音先锋国产资源| 欧美黑人国产人伦爽爽爽| 香蕉人人精品| 午夜激情影院在线观看| 天天亚洲美女在线视频| www.在线视频.com| 91超碰rencao97精品| 亚洲免费黄色| 毛片视频免费播放| 欧美不卡一区二区三区| 我爱我色成人网| 国产精品久久成人免费观看| 99久久99久久综合| 中国一级片黄色一级片黄| 欧美日韩福利在线观看| 网红女主播少妇精品视频| 中文字幕22页| 精品久久久久久久中文字幕| 日本在线免费中文字幕| 国产综合欧美在线看| 毛片不卡一区二区| 91久久国产视频| 日韩在线观看免费高清| 日韩高清在线免费观看| 久久精品视频在线观看免费| 欧美性少妇18aaaa视频| 中文在线观看免费|