精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

用動作分塊突破RL極限,伯克利引入模仿學習,超越離線/在線SOTA

人工智能 新聞
近日,加州大學伯克利分校的研究者提出了一種名為?Q-chunking?的方法,該方法將動作分塊(action chunking)—— 一種在模仿學習中取得成功的技術 —— 引入到基于時序差分(Temporal Difference, TD)的強化學習中。

如今,強化學習(Reinforcement Learning,RL)在多個領域已取得顯著成果。

在實際應用中,具有長時間跨度和稀疏獎勵特征的任務非常常見,而強化學習方法在這類任務中的表現仍難令人滿意。

傳統強化學習方法在此類任務中的探索能力常常不足,因為只有在執行一系列較長的動作序列后才能獲得獎勵,這導致合理時間內找到有效策略變得極其困難。

假如將模仿學習(Imitation Learning, IL)的思路引入強化學習方法,能否改善這一情況呢?

模仿學習通過觀察專家的行為并模仿其策略來學習,通常用于強化學習的早期階段,尤其是在狀態空間和動作空間巨大且難以設計獎勵函數的場景。

近年來,模仿學習不僅在傳統的強化學習中取得了進展,也開始對大語言模型(LLM)產生一定影響。近日,加州大學伯克利分校的研究者提出了一種名為 Q-chunking 的方法,該方法將動作分塊(action chunking)—— 一種在模仿學習中取得成功的技術 —— 引入到基于時序差分(Temporal Difference, TD)的強化學習中。

該方法主要解決兩個核心問題:一是通過時間上連貫的動作序列提升探索效率;二是在避免傳統 n 步回報引入偏差的前提下,實現更快速的值傳播。

image.png

  • 論文標題:Reinforcement Learning with Action Chunking
  • 論文地址:https://www.alphaxiv.org/overview/2507.07969v1
  • 代碼地址:https://github.com/ColinQiyangLi/qc

如下圖 1 左所示,Q-chunking(1)使用動作分塊來實現快速的價值回傳,(2)通過時間連貫的動作進行有效探索。圖 1 右中,本文方法首先在離線數據集上進行 100 萬步的預訓練(灰色部分),然后使用在線數據更新,再進行另外 100 萬步的訓練(白色部分)。

image.png

問題表述與研究動機

Q-chunking 旨在解決標準強化學習方法在復雜操作任務中存在的關鍵局限性。

在傳統強化學習中,智能體在每一個時間步上逐一選擇動作,這常常導致探索策略效率低下,表現為抖動、時間不連貫的動作序列。這一問題在稀疏獎勵環境中尤為嚴重 —— 在此類環境中,智能體必須執行較長的、協調一致的動作序列才能獲得有效反饋。

研究者提出了一個關鍵見解:盡管馬爾可夫決策過程中的最優策略本質上是馬爾可夫性的,但探索過程卻可以從非馬爾可夫性、時間上擴展的動作中顯著受益。這一觀察促使他們將「動作分塊」這一原本主要用于模仿學習的策略引入到時序差分學習中。

該方法特別面向離線到在線的強化學習場景(offline-to-online RL),即智能體先從預先收集的數據集中進行學習,再通過在線交互進行微調。這一設定在機器人應用中尤為重要,因為在線數據采集成本高且可能存在安全風險。

方法概覽

Q-chunking 將標準的 Q-learning 擴展至時間擴展的動作空間,使策略不再僅預測單一步驟的動作,而是預測連續 h 步的動作序列。該方法主要包含兩個核心組成部分:

擴展動作空間學習

傳統方法學習的是針對單步動作的策略 π(a? | s?) 和 Q 函數 Q (s?, a?),而 Q-chunking 學習的是:

* 塊狀策略(Chunked Policy):π_ψ(a?:??? | s?)

* 塊狀 Q 函數(Chunked Q-function):Q_θ(s?, a?:???)

核心創新體現在時間差分損失(TD loss)的構造上。塊狀 Q 函數的更新方式如下:

image.png

該形式實現了無偏的 h 步的值傳播,因為 Q 函數以整個動作序列作為輸入,從而消除了傳統 n 步回報中存在的離策略偏差(off-policy bias)。

行為約束

為了保證時間上的連貫性探索,并有效利用離線數據,Q-chunking 在擴展動作空間中對學習到的策略施加了行為約束,使其保持接近離線數據分布。該約束表達如下:

image.png

其中,D 表示一種距離度量方法,π_β 是來自離線數據集的行為策略。

算法實現

研究者展示了Q-chunking框架的兩種實現方式:

QC(帶有隱式 KL 約束的 Q-chunking)

該分支通過「從 N 個中選擇最優」(best-of-N)的采樣策略,隱式地施加 KL 散度約束。其方法如下:

1. 在離線數據上訓練一個流匹配行為策略 f_ξ(?|s)

2. 對于每個狀態,從該策略中采樣 N 個動作序列(action chunks)

3. 選擇具有最大 Q 值的動作序列:a* = arg max_i Q (s, a_i)

4. 使用該動作序列進行環境交互與 TD 更新

QC-FQL(帶有 2-Wasserstein 距離約束的 Q-chunking)

該實現基于 FQL(Flow Q-learning)框架:

1. 保持一個獨立的噪聲條件策略 μ_ψ(s, z)

2. 訓練該策略以最大化 Q 值,并通過正則項使其靠近行為策略

3. 使用一種蒸餾損失函數,對平方的 2-Wasserstein 距離進行上界估計

4. 引入正則化參數 α 來控制約束強度

實驗設置及結果

關于實驗環境和數據集,研究者首先考慮 6 個稀疏獎勵的機器人操作任務域,任務難度各不相同,包括如下:

來自 OGBench 基準的 5 個任務域:scene-sparse、puzzle-3x3-sparse,以及 cube-double、cube-triple 和 cube-quadruple,每個任務域包含 5 個任務;來自 robomimic 基準中的 3 個任務。

對于 OGBench,研究者使用默認的「play-style」數據集,唯獨在 cube-quadruple 任務中,使用了一個規模為 1 億大小的數據集。

關于基線方法比較,研究者主要使用了以加速「價值回傳」為目標的已有方法,以及此前表現最好的「離線到在線」強化學習方法,包括 BFN(best-of-N)、FQL、BFN-n / FQL-n 以及 LPD、RLPD-AC。

下圖 3 中展示了 Q-chunking 與基線方法在 5 個 OGBench 任務域上的整體性能表現,下圖 4 中展示了在 3 個 robomimic 任務上的單獨性能表現。其中在離線階段(圖中為灰色),QC 表現出具有競爭力的性能,通常可以比肩甚至有時超越了以往最優方法。而在在線階段(圖中為白色),QC 表現出極高的樣本效率,尤其是在 2 個最難的 OGBench 任務域(cube-triple 和 quadruple)中,其性能遠超以往所有方法(特別是 cube-quadruple 任務)。

image.png

image.png

下圖 5 為消融實驗,比較了 QC 與其變體 QC-FQL、以及 2 種 n 步回報的基線方法(BFN-n 和 FQL-n)。這些 n 步回報基線方法沒有利用時間擴展的 critic 或 policy,因此其性能顯著低于 QC 和 QC-FQL。實際上,它們的表現甚至常常不如 1 步回報的基線方法 BFN 和 FQL,這進一步突顯了在時間擴展動作空間中進行學習的重要性。

image.png

接下來探討的問題是:為什么動作分塊有助于探索?研究者在前文提出了一個假設:動作分塊策略能夠生成在時間上更連貫的動作,從而帶來更好的狀態覆蓋和探索效果。

為了進行實證,他們首先可視化了訓練早期 QC 與 BFN 的末端執行器運動軌跡,具體如下圖 7 所示。可以看到,BFN 的軌跡中存在大量停頓(在圖像中心區域形成了一個大而密集的簇),特別是在末端執行器下壓準備抓取方塊時。而 QC 的軌跡中則明顯停頓較少(形成的簇更少且更淺),并且其在末端執行器空間中的狀態覆蓋更加多樣化。

為了對動作的時間連貫性進行定量評估,研究者在訓練過程中每 5 個時間步記錄一次 3D 末端執行器位置,并計算相鄰兩次位置差向量的平均 L2 范數。如果存在較多停頓或抖動動作,該平均范數會變得較小,因此可以作為衡量動作時間連貫性的有效指標。

正如圖 7(右)所示,在整個訓練過程中,QC 的動作時間連貫性明顯高于 BFN。這一發現表明,QC 能夠提高動作的時間連貫性,從而解釋了其更高的樣本效率。

image.png

更多細節內容請參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2018-10-09 14:00:41

SQL深度學習神經網絡

2025-05-06 15:31:55

智能模型AI

2025-07-07 13:50:56

AI編程算法

2025-01-22 15:21:00

2024-03-26 15:43:00

訓練數據機器人

2024-01-29 13:03:00

框架3DHM視頻

2024-08-19 14:05:00

2025-07-02 08:40:00

智能體AI模型

2021-11-29 16:12:38

AI數據強化學習

2023-08-15 14:18:19

智能研究

2022-03-28 13:25:42

AI扶貧機器之心

2023-06-21 13:20:14

系統模型

2025-08-19 02:00:00

AI講師教育

2025-02-17 09:33:00

AI算法模型

2024-09-25 09:37:16

2024-11-29 09:18:01

2017-04-25 10:44:02

網利寶

2023-09-25 12:42:00

AI數據

2025-09-02 10:14:35

2021-01-04 09:18:36

機器人人工智能系統
點贊
收藏

51CTO技術棧公眾號

欧美精品少妇一区二区三区| 久久久久99精品国产片| 欧美大荫蒂xxx| 久久一区二区电影| 成人全视频免费观看在线看| 一区二区三区资源| 日韩av免费电影| 超碰在线人人干| 美女国产精品| 欧美xxxx做受欧美.88| 污污污www精品国产网站| 国产精品字幕| 亚洲动漫第一页| 亚洲免费精品视频| 天天摸天天碰天天爽天天弄| 美女一区二区久久| 97在线视频免费看| 成人免费毛片xxx| 欧美电影在线观看免费| 91麻豆精品国产自产在线观看一区 | 免费欧美一级视频| 米奇精品一区二区三区| 91丨九色丨蝌蚪富婆spa| 成人a免费视频| 免费黄色av片| 日韩午夜在线| 欧美黑人巨大精品一区二区| 精品伦精品一区二区三区视频密桃 | 偷拍夫妻性生活| 2023国产精华国产精品| 欧美人动与zoxxxx乱| 亚洲熟妇av一区二区三区| 国语对白在线刺激| 亚洲猫色日本管| 一区二区三区观看| 波多野结衣在线影院| 2020国产成人综合网| 国产精品三区在线| 亚洲国产精品久久久久久久| 黄页视频在线91| 国产精品久久久久久亚洲影视| 成人精品免费在线观看| 亚洲激情二区| 欧美激情三级免费| 黄色录像二级片| 91影院成人| 中文字幕日韩电影| 99国产精品免费| 国产成人av| 亚洲天堂男人天堂女人天堂| 亚洲欧美色图视频| 免费成人结看片| 亚洲男人第一网站| 中文字幕在线观看的网站| 久久久伦理片| 日韩精品极品毛片系列视频| a视频免费观看| 羞羞色国产精品网站| 亚洲美女精品久久| 亚洲激情视频小说| 深爱激情久久| 中文字幕成人精品久久不卡| 69xxx免费| 国产精品99在线观看| www国产91| 欧美成人一区二区三区高清| 欧美三区美女| 亚洲2020天天堂在线观看| 97人人澡人人爽人人模亚洲| 亚洲日产国产精品| 日本午夜精品理论片a级appf发布| 欧美精品一二三四区| 久久一区亚洲| 国产在线观看一区二区三区| 99国产精品一区二区三区| 国产成人在线观看| 精品久久久久久一区二区里番| 日本成人一区| 中文字幕中文在线不卡住| 性生活免费观看视频| 久久香蕉一区| 在线视频观看一区| 天堂在线中文在线| 好吊妞视频这里有精品 | av网站免费在线播放| 国产日产一区| 久久天天躁狠狠躁老女人| 久久久久亚洲av片无码下载蜜桃| 免费看的黄色欧美网站| 国产美女91呻吟求| 好男人www在线视频| www精品美女久久久tv| 一本久道久久综合| av影院在线| 欧美性色黄大片手机版| 18禁一区二区三区| 奇米亚洲欧美| 欧美精品成人91久久久久久久| 国产成人无码av| 国产精品自拍av| 久久精品美女| 一区二区三区伦理| 欧美中文一区二区三区| 9.1在线观看免费| 久久蜜桃av| 欧美一级片一区| 国产女人爽到高潮a毛片| 久久久另类综合| 男女激情免费视频| 色综合视频一区二区三区44| 亚洲久久久久久久久久| 久草免费在线视频观看| 天堂精品中文字幕在线| 国产精品日本一区二区| 看黄网站在线观看| 在线看国产日韩| 欧类av怡春院| 欧美深夜福利| 成人免费在线视频网址| lutube成人福利在线观看| 亚洲国产精品久久久久秋霞影院| 中文字幕 日韩 欧美| 亚洲永久精品唐人导航网址| 欧美精品videos| 国产又黄又大又爽| 日本一区二区视频在线| 男人天堂999| 国产精品xxxav免费视频| 中文国产成人精品| 亚洲综合久久网| 99久久精品国产一区二区三区 | 中文字幕在线1| 中文在线一区| 国产日产精品一区二区三区四区| 深夜国产在线播放| 91麻豆精品国产91久久久久久久久| 1024手机在线观看你懂的| 亚洲欧美日韩国产综合精品二区 | 精品成人影院| 日本人成精品视频在线| 你懂的视频在线播放| 精品久久久视频| 久久久久久久久免费看无码| 伊人影院久久| 国产一区二区三区奇米久涩| 爱福利在线视频| 亚洲成人黄色网| 国产成人无码精品亚洲| 91丨九色丨尤物| 欧美污视频网站| 免费看av成人| 国产精品高潮视频| 2017亚洲天堂1024| 3atv一区二区三区| 欧美日韩三级在线观看| 成人午夜在线视频| 国产视频九色蝌蚪| 色88888久久久久久影院| 91po在线观看91精品国产性色| 香港一级纯黄大片| 色婷婷久久久综合中文字幕| 亚洲精品国产一区黑色丝袜| 日本欧美韩国一区三区| 致1999电视剧免费观看策驰影院| 国产高清日韩| 久久久久久91香蕉国产| 天堂在线中文| 欧美色综合网站| 国内偷拍精品视频| www.亚洲激情.com| 无码人妻丰满熟妇区五十路百度| 成人av国产| 亚洲综合在线做性| 天堂中文在线播放| 国产一区二区三区免费视频| 国产一区二区在线不卡| 亚洲一区二区三区小说| 亚洲激情视频小说| 国产一区二区在线观看视频| 99热亚洲精品| 成人区精品一区二区婷婷| 91在线观看免费高清| 成人免费观看在线观看| 色婷婷综合成人av| 蜜臀av中文字幕| 在线观看视频欧美| 欧美黄色免费在线观看| 91女人视频在线观看| 亚洲欧美aaa| 一本综合久久| 欧美 另类 交| 西野翔中文久久精品国产| 91精品久久久久久久久青青| 国产乱码在线| 中文字幕av日韩| 神马午夜一区二区| 欧美日韩国产成人在线免费| 久久高清免费视频| 国产精品福利av| 一级国产黄色片| 国产最新精品精品你懂的| 欧美女人性生活视频| 中国成人一区| 天堂精品一区二区三区| 久久久精品国产**网站| 91丨九色丨国产在线| 奇米777日韩| 国模视频一区二区| 国产激情小视频在线| 亚洲一区999| 人人妻人人澡人人爽精品日本| 欧美日韩国产综合一区二区三区| 中文字幕一区二区三区精品 | 中文字幕中文字幕在线中心一区| 久久精品色播| 亚洲永久免费观看| 国产成人免费精品| 欧美做受高潮电影o| 污网站在线免费看| 久久精品小视频| av黄色在线观看| 亚洲片国产一区一级在线观看| 亚洲黄色片视频| 日韩视频一区二区三区| 中文字幕一区二区免费| 色天天综合色天天久久| 成人在线免费看视频| 亚洲一二三专区| 欧美爱爱免费视频| 亚洲欧美一区二区三区久本道91| 成人性生交大片免费看无遮挡aⅴ| 99国产精品视频免费观看| 久草免费资源站| 国产成a人亚洲精品| 红桃视频一区二区三区免费| 久久er99精品| 毛片毛片毛片毛| 久久黄色级2电影| 国产高清视频网站| 男女激情视频一区| 乌克兰美女av| 日韩电影在线一区二区三区| 黑鬼大战白妞高潮喷白浆| 国产日韩亚洲| 凹凸国产熟女精品视频| 国产日韩欧美一区在线| 可以在线看的av网站| 夜夜嗨一区二区三区| 国产精品后入内射日本在线观看| 日韩午夜黄色| 妺妺窝人体色www在线小说| 国产欧美大片| 日本在线视频www| 免费在线看成人av| 亚洲久久中文字幕| 狠狠色2019综合网| 欧美日韩一区二区区| 国产成人99久久亚洲综合精品| 一级全黄裸体片| 成人免费av在线| 大黑人交xxx极品hd| 国产亚洲精久久久久久| 亚洲天堂精品一区| 亚洲欧美区自拍先锋| 久久久久久久久久久网| 精品免费在线视频| 久久久久久亚洲av无码专区| 欧美日韩精品福利| www.午夜激情| 日韩激情在线视频| 丁香在线视频| 欧美另类极品videosbest最新版本 | 狠狠躁夜夜躁av无码中文幕| 亚洲国产成人久久综合一区| 国产在线小视频| 日韩中文字幕视频在线| 美女精品导航| 国产成人精品久久二区二区| 亚洲伊人精品酒店| 国产精品手机在线| 禁断一区二区三区在线| 2021狠狠干| 欧美中文字幕| 国产欧美精品一二三| av男人天堂一区| 欧美色图17p| 午夜日韩在线电影| 亚洲一区在线观| 日韩电影网在线| 在线中文字幕电影| 日本久久久久久久久久久| www.久久爱.com| 日本一区二区三区视频在线播放 | 国产精品白丝av嫩草影院| 午夜欧美一区二区三区免费观看| 欧美全黄视频| 亚洲最大成人在线观看| 成人美女视频在线观看18| 久久久国产一级片| 偷窥国产亚洲免费视频| 97人人爽人人爽人人爽| 亚洲欧美日本另类| 日本aa在线| 91免费国产网站| 九九久久精品| 人妻av中文系列| 国产乱码精品1区2区3区| 精品无码国产污污污免费网站| 亚洲最新在线观看| 国产精品人妻一区二区三区| 亚洲欧美一区二区三区四区 | 日韩精品视频无播放器在线看 | 成人综合在线观看| 日本裸体美女视频| 色猫猫国产区一区二在线视频| 成人毛片在线精品国产| 日韩亚洲第一页| 台湾成人免费视频| 久久涩涩网站| 亚洲精品女人| 一级全黄裸体片| 亚洲欧美日韩成人高清在线一区| 中文字幕在线观看你懂的| 亚洲欧美日韩国产中文专区| 1区2区3区在线| 产国精品偷在线| 欧美女激情福利| 亚洲综合中文网| 一区二区三区在线视频播放| 国产麻豆免费视频| 色婷婷久久一区二区| www.26天天久久天堂| 欧美在线一区二区三区四区| 一本综合精品| 800av在线播放| 午夜激情一区二区| 日本黄色一区二区三区| 国语自产偷拍精品视频偷| 91午夜精品| 成人在线国产视频| 成人aa视频在线观看| www.天天色| 亚洲精品黄网在线观看| 麻豆免费在线| 久久av一区二区三区漫画| 国产一区白浆| 精品少妇人妻一区二区黑料社区| 狠狠干狠狠久久| 欧美zozo| 国产精品日韩电影| 99re66热这里只有精品8| 日韩欧美亚洲另类| 亚洲精品写真福利| 午夜精品久久久久久久99老熟妇| 色综合91久久精品中文字幕 | 极品少妇一区二区三区精品视频| 免费看的黄色录像| 欧美疯狂做受xxxx富婆| 91国内在线| 国产一区在线观| 久久精品盗摄| 人妻互换一区二区激情偷拍| 91精品一区二区三区久久久久久| av网站免费在线观看| 国产精品伊人日日| 亚洲欧美高清| 亚洲天堂最新地址| 欧美一级二级在线观看| av日韩中文| 色综合666| 国产一区二区剧情av在线| 99免费在线观看| 亚洲欧美日韩国产成人| а天堂中文最新一区二区三区| 国产91视频一区| 91色乱码一区二区三区| 中文字幕丰满人伦在线| 欧美成在线视频| 亚洲香蕉视频| 国内精品国产三级国产aⅴ久| 午夜精品久久久| 在线日本视频| 国产日韩欧美亚洲一区| 日韩av在线播放中文字幕| 中文字幕手机在线观看| 国产视频精品免费播放| 只有精品亚洲| 日本成年人网址| 中文字幕亚洲区| 婷婷伊人综合中文字幕| 国产精品免费网站| 怡红院精品视频在线观看极品| 欧美激情视频二区| 亚洲第一福利网| 九九久久国产| 国模无码视频一区二区三区| 综合久久久久综合| 欧美午夜黄色| 91沈先生播放一区二区| 日韩av中文字幕一区二区|