用動作分塊突破RL極限，伯克利引入模仿學習，超越離線/在線SOTA

2025-07-14 13:47:29

近日，加州大學伯克利分校的研究者提出了一種名為?Q-chunking?的方法，該方法將動作分塊（action chunking）—— 一種在模仿學習中取得成功的技術 —— 引入到基于時序差分（Temporal Difference, TD）的強化學習中。

如今，強化學習（Reinforcement Learning，RL）在多個領域已取得顯著成果。

在實際應用中，具有長時間跨度和稀疏獎勵特征的任務非常常見，而強化學習方法在這類任務中的表現仍難令人滿意。

傳統強化學習方法在此類任務中的探索能力常常不足，因為只有在執行一系列較長的動作序列后才能獲得獎勵，這導致合理時間內找到有效策略變得極其困難。

假如將模仿學習（Imitation Learning, IL）的思路引入強化學習方法，能否改善這一情況呢？

模仿學習通過觀察專家的行為并模仿其策略來學習，通常用于強化學習的早期階段，尤其是在狀態空間和動作空間巨大且難以設計獎勵函數的場景。

近年來，模仿學習不僅在傳統的強化學習中取得了進展，也開始對大語言模型（LLM）產生一定影響。近日，加州大學伯克利分校的研究者提出了一種名為 Q-chunking 的方法，該方法將動作分塊（action chunking）—— 一種在模仿學習中取得成功的技術 —— 引入到基于時序差分（Temporal Difference, TD）的強化學習中。

該方法主要解決兩個核心問題：一是通過時間上連貫的動作序列提升探索效率；二是在避免傳統 n 步回報引入偏差的前提下，實現更快速的值傳播。

論文標題：Reinforcement Learning with Action Chunking
論文地址：https://www.alphaxiv.org/overview/2507.07969v1
代碼地址：https://github.com/ColinQiyangLi/qc

如下圖 1 左所示，Q-chunking（1）使用動作分塊來實現快速的價值回傳，（2）通過時間連貫的動作進行有效探索。圖 1 右中，本文方法首先在離線數據集上進行 100 萬步的預訓練（灰色部分），然后使用在線數據更新，再進行另外 100 萬步的訓練（白色部分）。

問題表述與研究動機

Q-chunking 旨在解決標準強化學習方法在復雜操作任務中存在的關鍵局限性。

在傳統強化學習中，智能體在每一個時間步上逐一選擇動作，這常常導致探索策略效率低下，表現為抖動、時間不連貫的動作序列。這一問題在稀疏獎勵環境中尤為嚴重 —— 在此類環境中，智能體必須執行較長的、協調一致的動作序列才能獲得有效反饋。

研究者提出了一個關鍵見解：盡管馬爾可夫決策過程中的最優策略本質上是馬爾可夫性的，但探索過程卻可以從非馬爾可夫性、時間上擴展的動作中顯著受益。這一觀察促使他們將「動作分塊」這一原本主要用于模仿學習的策略引入到時序差分學習中。

該方法特別面向離線到在線的強化學習場景（offline-to-online RL），即智能體先從預先收集的數據集中進行學習，再通過在線交互進行微調。這一設定在機器人應用中尤為重要，因為在線數據采集成本高且可能存在安全風險。

方法概覽

Q-chunking 將標準的 Q-learning 擴展至時間擴展的動作空間，使策略不再僅預測單一步驟的動作，而是預測連續 h 步的動作序列。該方法主要包含兩個核心組成部分：

擴展動作空間學習

傳統方法學習的是針對單步動作的策略 π(a? | s?) 和 Q 函數 Q (s?, a?)，而 Q-chunking 學習的是：

* 塊狀策略（Chunked Policy）：π_ψ(a?:??? | s?)

* 塊狀 Q 函數（Chunked Q-function）：Q_θ(s?, a?:???)

核心創新體現在時間差分損失（TD loss）的構造上。塊狀 Q 函數的更新方式如下：

該形式實現了無偏的 h 步的值傳播，因為 Q 函數以整個動作序列作為輸入，從而消除了傳統 n 步回報中存在的離策略偏差（off-policy bias）。

行為約束

為了保證時間上的連貫性探索，并有效利用離線數據，Q-chunking 在擴展動作空間中對學習到的策略施加了行為約束，使其保持接近離線數據分布。該約束表達如下：

其中，D 表示一種距離度量方法，π_β 是來自離線數據集的行為策略。

算法實現

研究者展示了Q-chunking框架的兩種實現方式：

QC（帶有隱式 KL 約束的 Q-chunking）

該分支通過「從 N 個中選擇最優」（best-of-N）的采樣策略，隱式地施加 KL 散度約束。其方法如下：

1. 在離線數據上訓練一個流匹配行為策略 f_ξ(?|s)

2. 對于每個狀態，從該策略中采樣 N 個動作序列（action chunks）

3. 選擇具有最大 Q 值的動作序列：a* = arg max_i Q (s, a_i)

4. 使用該動作序列進行環境交互與 TD 更新

QC-FQL（帶有 2-Wasserstein 距離約束的 Q-chunking）

該實現基于 FQL（Flow Q-learning）框架：

1. 保持一個獨立的噪聲條件策略 μ_ψ(s, z)

2. 訓練該策略以最大化 Q 值，并通過正則項使其靠近行為策略

3. 使用一種蒸餾損失函數，對平方的 2-Wasserstein 距離進行上界估計

4. 引入正則化參數 α 來控制約束強度

實驗設置及結果

關于實驗環境和數據集，研究者首先考慮 6 個稀疏獎勵的機器人操作任務域，任務難度各不相同，包括如下：

來自 OGBench 基準的 5 個任務域：scene-sparse、puzzle-3x3-sparse，以及 cube-double、cube-triple 和 cube-quadruple，每個任務域包含 5 個任務；來自 robomimic 基準中的 3 個任務。

對于 OGBench，研究者使用默認的「play-style」數據集，唯獨在 cube-quadruple 任務中，使用了一個規模為 1 億大小的數據集。

關于基線方法比較，研究者主要使用了以加速「價值回傳」為目標的已有方法，以及此前表現最好的「離線到在線」強化學習方法，包括 BFN（best-of-N）、FQL、BFN-n / FQL-n 以及 LPD、RLPD-AC。

下圖 3 中展示了 Q-chunking 與基線方法在 5 個 OGBench 任務域上的整體性能表現，下圖 4 中展示了在 3 個 robomimic 任務上的單獨性能表現。其中在離線階段（圖中為灰色），QC 表現出具有競爭力的性能，通常可以比肩甚至有時超越了以往最優方法。而在在線階段（圖中為白色），QC 表現出極高的樣本效率，尤其是在 2 個最難的 OGBench 任務域（cube-triple 和 quadruple）中，其性能遠超以往所有方法（特別是 cube-quadruple 任務）。

下圖 5 為消融實驗，比較了 QC 與其變體 QC-FQL、以及 2 種 n 步回報的基線方法（BFN-n 和 FQL-n）。這些 n 步回報基線方法沒有利用時間擴展的 critic 或 policy，因此其性能顯著低于 QC 和 QC-FQL。實際上，它們的表現甚至常常不如 1 步回報的基線方法 BFN 和 FQL，這進一步突顯了在時間擴展動作空間中進行學習的重要性。

接下來探討的問題是：為什么動作分塊有助于探索？研究者在前文提出了一個假設：動作分塊策略能夠生成在時間上更連貫的動作，從而帶來更好的狀態覆蓋和探索效果。

為了進行實證，他們首先可視化了訓練早期 QC 與 BFN 的末端執行器運動軌跡，具體如下圖 7 所示。可以看到，BFN 的軌跡中存在大量停頓（在圖像中心區域形成了一個大而密集的簇），特別是在末端執行器下壓準備抓取方塊時。而 QC 的軌跡中則明顯停頓較少（形成的簇更少且更淺），并且其在末端執行器空間中的狀態覆蓋更加多樣化。

為了對動作的時間連貫性進行定量評估，研究者在訓練過程中每 5 個時間步記錄一次 3D 末端執行器位置，并計算相鄰兩次位置差向量的平均 L2 范數。如果存在較多停頓或抖動動作，該平均范數會變得較小，因此可以作為衡量動作時間連貫性的有效指標。

正如圖 7（右）所示，在整個訓練過程中，QC 的動作時間連貫性明顯高于 BFN。這一發現表明，QC 能夠提高動作的時間連貫性，從而解釋了其更高的樣本效率。

更多細節內容請參考原論文。

責任編輯：張燕妮來源：機器之心

AI 研究模型