用動作分塊突破RL極限,伯克利引入模仿學習,超越離線/在線SOTA
如今,強化學習(Reinforcement Learning,RL)在多個領域已取得顯著成果。
在實際應用中,具有長時間跨度和稀疏獎勵特征的任務非常常見,而強化學習方法在這類任務中的表現仍難令人滿意。
傳統強化學習方法在此類任務中的探索能力常常不足,因為只有在執行一系列較長的動作序列后才能獲得獎勵,這導致合理時間內找到有效策略變得極其困難。
假如將模仿學習(Imitation Learning, IL)的思路引入強化學習方法,能否改善這一情況呢?
模仿學習通過觀察專家的行為并模仿其策略來學習,通常用于強化學習的早期階段,尤其是在狀態空間和動作空間巨大且難以設計獎勵函數的場景。
近年來,模仿學習不僅在傳統的強化學習中取得了進展,也開始對大語言模型(LLM)產生一定影響。近日,加州大學伯克利分校的研究者提出了一種名為 Q-chunking 的方法,該方法將動作分塊(action chunking)—— 一種在模仿學習中取得成功的技術 —— 引入到基于時序差分(Temporal Difference, TD)的強化學習中。
該方法主要解決兩個核心問題:一是通過時間上連貫的動作序列提升探索效率;二是在避免傳統 n 步回報引入偏差的前提下,實現更快速的值傳播。

- 論文標題:Reinforcement Learning with Action Chunking
- 論文地址:https://www.alphaxiv.org/overview/2507.07969v1
- 代碼地址:https://github.com/ColinQiyangLi/qc
如下圖 1 左所示,Q-chunking(1)使用動作分塊來實現快速的價值回傳,(2)通過時間連貫的動作進行有效探索。圖 1 右中,本文方法首先在離線數據集上進行 100 萬步的預訓練(灰色部分),然后使用在線數據更新,再進行另外 100 萬步的訓練(白色部分)。

問題表述與研究動機
Q-chunking 旨在解決標準強化學習方法在復雜操作任務中存在的關鍵局限性。
在傳統強化學習中,智能體在每一個時間步上逐一選擇動作,這常常導致探索策略效率低下,表現為抖動、時間不連貫的動作序列。這一問題在稀疏獎勵環境中尤為嚴重 —— 在此類環境中,智能體必須執行較長的、協調一致的動作序列才能獲得有效反饋。
研究者提出了一個關鍵見解:盡管馬爾可夫決策過程中的最優策略本質上是馬爾可夫性的,但探索過程卻可以從非馬爾可夫性、時間上擴展的動作中顯著受益。這一觀察促使他們將「動作分塊」這一原本主要用于模仿學習的策略引入到時序差分學習中。
該方法特別面向離線到在線的強化學習場景(offline-to-online RL),即智能體先從預先收集的數據集中進行學習,再通過在線交互進行微調。這一設定在機器人應用中尤為重要,因為在線數據采集成本高且可能存在安全風險。
方法概覽
Q-chunking 將標準的 Q-learning 擴展至時間擴展的動作空間,使策略不再僅預測單一步驟的動作,而是預測連續 h 步的動作序列。該方法主要包含兩個核心組成部分:
擴展動作空間學習
傳統方法學習的是針對單步動作的策略 π(a? | s?) 和 Q 函數 Q (s?, a?),而 Q-chunking 學習的是:
* 塊狀策略(Chunked Policy):π_ψ(a?:??? | s?)
* 塊狀 Q 函數(Chunked Q-function):Q_θ(s?, a?:???)
核心創新體現在時間差分損失(TD loss)的構造上。塊狀 Q 函數的更新方式如下:

該形式實現了無偏的 h 步的值傳播,因為 Q 函數以整個動作序列作為輸入,從而消除了傳統 n 步回報中存在的離策略偏差(off-policy bias)。
行為約束
為了保證時間上的連貫性探索,并有效利用離線數據,Q-chunking 在擴展動作空間中對學習到的策略施加了行為約束,使其保持接近離線數據分布。該約束表達如下:

其中,D 表示一種距離度量方法,π_β 是來自離線數據集的行為策略。
算法實現
研究者展示了Q-chunking框架的兩種實現方式:
QC(帶有隱式 KL 約束的 Q-chunking)
該分支通過「從 N 個中選擇最優」(best-of-N)的采樣策略,隱式地施加 KL 散度約束。其方法如下:
1. 在離線數據上訓練一個流匹配行為策略 f_ξ(?|s)
2. 對于每個狀態,從該策略中采樣 N 個動作序列(action chunks)
3. 選擇具有最大 Q 值的動作序列:a* = arg max_i Q (s, a_i)
4. 使用該動作序列進行環境交互與 TD 更新
QC-FQL(帶有 2-Wasserstein 距離約束的 Q-chunking)
該實現基于 FQL(Flow Q-learning)框架:
1. 保持一個獨立的噪聲條件策略 μ_ψ(s, z)
2. 訓練該策略以最大化 Q 值,并通過正則項使其靠近行為策略
3. 使用一種蒸餾損失函數,對平方的 2-Wasserstein 距離進行上界估計
4. 引入正則化參數 α 來控制約束強度
實驗設置及結果
關于實驗環境和數據集,研究者首先考慮 6 個稀疏獎勵的機器人操作任務域,任務難度各不相同,包括如下:
來自 OGBench 基準的 5 個任務域:scene-sparse、puzzle-3x3-sparse,以及 cube-double、cube-triple 和 cube-quadruple,每個任務域包含 5 個任務;來自 robomimic 基準中的 3 個任務。
對于 OGBench,研究者使用默認的「play-style」數據集,唯獨在 cube-quadruple 任務中,使用了一個規模為 1 億大小的數據集。
關于基線方法比較,研究者主要使用了以加速「價值回傳」為目標的已有方法,以及此前表現最好的「離線到在線」強化學習方法,包括 BFN(best-of-N)、FQL、BFN-n / FQL-n 以及 LPD、RLPD-AC。
下圖 3 中展示了 Q-chunking 與基線方法在 5 個 OGBench 任務域上的整體性能表現,下圖 4 中展示了在 3 個 robomimic 任務上的單獨性能表現。其中在離線階段(圖中為灰色),QC 表現出具有競爭力的性能,通常可以比肩甚至有時超越了以往最優方法。而在在線階段(圖中為白色),QC 表現出極高的樣本效率,尤其是在 2 個最難的 OGBench 任務域(cube-triple 和 quadruple)中,其性能遠超以往所有方法(特別是 cube-quadruple 任務)。


下圖 5 為消融實驗,比較了 QC 與其變體 QC-FQL、以及 2 種 n 步回報的基線方法(BFN-n 和 FQL-n)。這些 n 步回報基線方法沒有利用時間擴展的 critic 或 policy,因此其性能顯著低于 QC 和 QC-FQL。實際上,它們的表現甚至常常不如 1 步回報的基線方法 BFN 和 FQL,這進一步突顯了在時間擴展動作空間中進行學習的重要性。

接下來探討的問題是:為什么動作分塊有助于探索?研究者在前文提出了一個假設:動作分塊策略能夠生成在時間上更連貫的動作,從而帶來更好的狀態覆蓋和探索效果。
為了進行實證,他們首先可視化了訓練早期 QC 與 BFN 的末端執行器運動軌跡,具體如下圖 7 所示。可以看到,BFN 的軌跡中存在大量停頓(在圖像中心區域形成了一個大而密集的簇),特別是在末端執行器下壓準備抓取方塊時。而 QC 的軌跡中則明顯停頓較少(形成的簇更少且更淺),并且其在末端執行器空間中的狀態覆蓋更加多樣化。
為了對動作的時間連貫性進行定量評估,研究者在訓練過程中每 5 個時間步記錄一次 3D 末端執行器位置,并計算相鄰兩次位置差向量的平均 L2 范數。如果存在較多停頓或抖動動作,該平均范數會變得較小,因此可以作為衡量動作時間連貫性的有效指標。
正如圖 7(右)所示,在整個訓練過程中,QC 的動作時間連貫性明顯高于 BFN。這一發現表明,QC 能夠提高動作的時間連貫性,從而解釋了其更高的樣本效率。

更多細節內容請參考原論文。



































