精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

穩定訓練、數據高效,清華大學提出「流策略」強化學習新方法SAC Flow

人工智能 新聞
SAC Flow 的關鍵詞只有三個:序列化 、穩定訓練、數據高效。把流策略視作序列模型,進而能夠用 GRU / Transformer 的成熟經驗穩定梯度回傳。

本文介紹了一種用高數據效率強化學習算法 SAC 訓練流策略的新方案,可以端到端優化真實的流策略,而無需采用替代目標或者策略蒸餾。SAC FLow 的核心思想是把流策略視作一個 residual RNN,再用 GRU  門控和 Transformer Decoder 兩套速度參數化。SAC FLow 在 MuJoCo、OGBench、Robomimic 上達到了極高的數據效率和顯著 SOTA 的性能。

作者來自于清華大學和 CMU,通訊作者為清華大學教授丁文伯和于超,致力于強化學習算法和具身智能研究。

研究背景

流策略(Flow-based policy)最近在機器人學習領域十分熱門:它具有建模多峰動作分布的表達能力,且比擴散策略更簡潔好用,因此被廣泛應用于先進的 VLA 模型,例如 π_0、GR00T 等。想要跳出數據集的約束,進一步提高流策略的性能,強化學習是一條有效的路,已經有不少工作嘗試用 on-policy 的 RL 算法訓練流策略,例如 ReinFlow [1]、 Flow GRPO [2] 等。但當我們使用數據高效的 off-policy RL(例如 SAC )訓練流策略時總會出現崩潰,因為流策略的動作經歷「K 步采樣」推理,因此反向傳播的「深度」等于采樣步數 K。這與訓練經典 RNN 時遇到的梯度爆炸或梯度消失是相同的。

不少已有的類似工作都選擇繞開了這個問題:要么用替代目標避免對流策略多步采樣的過程求梯度 (如 FlowRL [3]),要么把流匹配模型蒸餾成單步模型,再用標準 off-policy 目標訓練 (如 QC-FQL [4])。這樣做是穩定了訓練,但也拋棄了原本表達更強的流策略本體,并沒有真正在訓練一個流策略。而我們的思路是:發現流策略多部采樣本質就是 sequential model ,進而用先進的 sequential model 結構來穩住訓練,直接在 off-policy 框架內端到端優化真實的流策略。

使用 off policy RL 算法訓練流策略會出現梯度爆炸。本文提出,我們不妨換一個視角來看,訓練流策略等效于在訓練一個 RNN 網絡(循環計算 K 次),因此我們可以用更高效現代的循環結構(例如 GRU,Transformer)。

  • 論文鏈接:https://arxiv.org/abs/2509.25756
  • 項目網站:https://sac-flow.github.io/
  • 代碼倉庫:https://github.com/Elessar123/SAC-FLOW

核心思想:Flow rollout ≈ Residual RNN

把每一步的中間動作  作為隱狀態, 作為輸入,那么 Euler 積分  就等價于一個 residual RNN 的單步前向。于是對流策略的 K 步采樣過程進行反傳就,等價于對一個 RNN 網絡反傳!這也難怪以往的 off-policy 訓練會遇到不穩定的問題。既然如此,就把流策略中的速度網絡  換成為循環而生的現代的穩定結構:

  • Flow-G(GRU,gated velocity) :給速度網絡加上 GRU  風格的門控結構 ,自適應決定「保留當前動作」還是「寫入新動作」,抑制梯度放大。
  • Flow-T(Transformer, decoded velocity) :用 Transformer decoder 對「動作 - 時間 token」做 state-only cross-attention + 預歸一殘差 FFN ,每一步都在全局 state 語境下穩態細化;保持 Markov 性,不做時間位點之間的自回歸混合。

流策略的速度網絡參數化方式,從 sequential model 的視角進行展示。

對應的速度網絡參數化

  • Flow-G:  用門控  去調和「保留 」 和「寫入候選」: 這與 GRU 的更新過程一一對應。
  • Flow-T:  給「動作 - 時間 token」與「全局 state token」分別編碼,然后在 decoder  里做 state-only cross-attention (自注意僅作對角 / 逐位置變換,不跨時間混合,為了保留 flow 模型的 Markov 性質),再用 pre-norm 和殘差 FFN 構成的多層 Decoder Layer ,最后線性投影到速度 

我們的方法:SAC Flow

1.讓 SAC 真正能訓練流策略:noise-augmented 對數似然

在直接訓練 SAC Flow 之前,還有一個關于 SAC 的小問題需要解決。SAC  需要  做熵正則化,但確定性的 K 步采樣沒法直接給出可積的密度。因此,SAC Flow 在每步 rollout 里加高斯噪聲 + 配套漂移修正 ,保證末端動作分布不變,同時把路徑密度分解為單步高斯似然的連乘,從而得到可計算、可微的  。這樣,SAC 的 actor/critic loss  都可以直接用流策略多步采樣的對數似然來表示。

2.兩種訓練范式都能用

  • From-scratch :對于 dense-reward 任務,SAC flow 可以 from scratch 直接訓練。
  • Offline-to-online :對于 sparse-reward 且有示例數據的任務,SAC flow 支持先在數據集上預訓練,再進行在線微調。微調時,需要在 SAC actor 里加一個正則項目  。

訓練偽代碼如下:

實驗結果:穩定、快速、樣本效率高!

在 From-scratch 條件下,我們主要測試了 Mujoco 的環境上的表現。Flow-G 和 Flow-T 達到了 SOTA 的性能水平。同時可以發現,在稀疏獎勵任務中,from-scratch 是不夠的,需要使用 offline pretrain。

Offline-to-online 訓練結果。其中灰色背景下的前 1e6 step 是 offline 訓練,后 1e6 steps 是 online 微調。

From-scratch

  • SAC Flow-T / Flow-G  在 Hopper、Walker2D、HalfCheetah、Ant、Humanoid、HumanoidStandup  上穩定更快收斂 ,最終回報更高。   
  • 相比擴散策略基線(如 DIME 、QSM ),Flow -based 方法普遍收斂更快。在此基礎上,SAC Flow 進一步超過 FlowRL (因為 FlowRL 使用 Wasserstein 約束限制了性能)。 
  • 在最難的 sparse-reward 任務中(如 Robomimic-Can、OGBench-Cube-Double),從零探索仍然很難,這也說明了 offline-to-online 訓練的必要性。

Offline-to-online

  • 在 OGBench 的 Cube-Triple / Quadruple 等高難度任務中,SAC Flow-T 收斂更快,整體成功率領先或持平現有 off-policy 基線(FQL、QC-FQL )。   
  • 在 Robomimic benchmark 中,我們使用了較大的正則化約束限制,因此 SAC Flow 的表達能力受到限制,表現與 QC-FQL 接近。但在同等在線數據量下,我們的表現依然優于 on-policy 的基線算法 ReinFlow。

消融實驗:

1.穩定梯度,防止梯度爆炸

我們直接用 SAC 微調流策略(Naive SAC Flow),其梯度范數在反傳路徑上呈現爆炸趨勢 (綠色)。而 Flow-G / Flow-T  的梯度范數保持平穩(橙色、紫色)。對應地,SAC Flow-T 和 Flow-G 的性能顯著更優。   

(a)不同采樣步上的梯度范數。(b) from-scratch 訓練中, Ant 環境下如果直接用 SAC 訓練流策略,會導致訓練崩潰。(c) 在 offline-to-online 訓練中,直接 SAC 訓練流策略依然效率較低,不夠穩定。    

2.對采樣步數魯棒

SAC Flow 對 K (采樣步數)是魯棒的:在 K=4/7/10 條件下都能穩定訓練。其中 Flow-T 對采樣深度的魯棒性尤其強。

與類似工作的核心區別

  • FlowRL 使用 Wasserstein-2 約束的替代目標。與之相比,SAC Flow 則直接端到端優化標準 SAC loss,避免「目標 - 模型錯位」。   
  • DIME / QSM 等擴散策略方法同樣使用了替代目標。 
  • FQL / QC-FQL 則把流策略首先蒸餾單步模型,然后再做 off-policy RL。相比之下,SAC Flow 不需要蒸餾為單步模型,保留了流模型的建模能力。

什么時候用 Flow-G?什么時候用 Flow-T?

  • Flow-G :參數量更小、結構更簡潔,在需要快速收斂或計算預算有限的場景。   
  • Flow-T :當環境更復雜、需要更強的條件建模和深度時,Flow-T 的穩定性和上限更好。

結語

SAC Flow 的關鍵詞只有三個:序列化 、穩定訓練、數據高效。把流策略視作序列模型,進而能夠用 GRU / Transformer 的成熟經驗穩定梯度回傳。加上一些輔助技巧,我們可以直接使用 off-policy RL 的代表算法 SAC 來訓練流策略,從而實現數據高效、更快、更穩的收斂。后續,我們將繼續推動 SAC-flow 在真實機器人上的效果驗證,提升 sim-to-real 的魯棒性。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2017-06-10 16:19:22

人工智能智能體強化學習

2025-04-25 09:12:00

2022-11-03 14:13:52

強化學習方法

2025-03-07 09:24:00

2025-01-06 12:46:16

模型數據訓練

2023-04-28 15:24:06

模型研究

2025-02-10 08:40:00

訓練數據模型

2025-01-17 13:41:24

2025-10-21 09:04:00

2025-06-12 08:46:00

2025-04-01 09:00:00

模型訓練開源

2021-08-31 09:45:15

神經網絡數據語音

2025-04-24 09:38:00

3D模型AI

2025-08-11 09:18:00

2024-12-27 12:00:48

2025-10-28 15:42:32

AlphaGo強化學習算法

2025-05-14 09:15:00

2021-11-26 18:37:39

技術人工智能計算機

2025-10-08 10:26:04

2025-04-24 09:16:00

點贊
收藏

51CTO技術棧公眾號

四虎精品永久在线| 偷拍女澡堂一区二区三区| 激情在线小视频| 国产成人aaa| 国产成人精品久久亚洲高清不卡| 中文字幕一区二区在线观看视频| 国产高清免费av在线| 国产专区欧美精品| 欧美一级淫片aaaaaaa视频| aaa黄色大片| 成人性生交大片免费看网站| 久久久国产精品不卡| 亚洲一区国产精品| 少妇高潮av久久久久久| 欧美韩国一区| 亚洲欧美日韩精品久久亚洲区 | 黄色电影免费在线看| 亚洲欧美日韩国产| 欧美成人黑人xx视频免费观看| mm131亚洲精品| 国内精彩免费自拍视频在线观看网址| youjizz国产精品| 国产精品久久久久久亚洲调教 | 欧美精品在线网站| 国产又粗又猛又爽又黄| 日韩中文在线播放| 婷婷综合另类小说色区| 日韩国产在线一区| 午夜免费福利视频| 精品一区二区三区欧美| 欧美另类第一页| 国产精品一区二区亚洲| 日韩三级久久| 欧美片网站yy| 91制片厂毛片| 成人看片网站| 色婷婷激情综合| 国产综合av在线| 欧美人体视频xxxxx| 国产日韩欧美电影| 免费成人在线观看av| 亚洲国产精品二区| 国产福利91精品一区二区三区| 亚洲97在线观看| 国产一级二级毛片| 国产精品地址| 欧美黄色性视频| 欧美成人三级视频| 亚洲午夜精品久久久久久app| 亚洲人成免费电影| 深夜做爰性大片蜜桃| 欧美国产日韩电影| 欧美日韩一区二区三区在线| 中文字幕国内自拍| 成人国产一区| 调教+趴+乳夹+国产+精品| 大西瓜av在线| 女同一区二区免费aⅴ| 亚洲曰韩产成在线| 亚洲国内在线| 四虎影院在线播放| 久久久久久久久久久99999| 久久精品久久精品国产大片| 欧美美女色图| 国产日韩v精品一区二区| 日本不卡一区二区三区视频| 成人av电影观看| 亚洲欧洲av在线| 欧美日韩一区二区视频在线观看| 国产夫妻性生活视频| 成人免费视频免费观看| 激情伦成人综合小说| 国产999久久久| 不卡视频一二三四| 麻豆91蜜桃| 国产高清一级毛片在线不卡| 99久久精品免费| 欧美一区二区三区电影在线观看| 免费a视频在线观看| 91在线视频官网| 亚洲欧美国产不卡| 综合久久2019| 欧美日韩国产限制| 亚洲一区二区三区观看| 成人精品动漫一区二区三区| 亚洲丝袜av一区| 老司机成人免费视频| 日韩精品免费| 在线看欧美日韩| 一级特级黄色片| 日韩久久一区| 亚洲国产日韩欧美在线99| av黄色在线免费观看| 亚洲国产老妈| 免费不卡欧美自拍视频| 69视频免费在线观看| 九一九一国产精品| 久久一区二区精品| 嫩草香蕉在线91一二三区| 亚洲成av人影院在线观看网| 中文字幕第38页| 国产精品白丝av嫩草影院| 中文字幕免费精品一区高清| 五月天婷婷丁香| 精品在线播放午夜| 欧美性xxxx69| 成人免费高清在线播放| 中文字幕免费观看一区| 精品丰满人妻无套内射| 久久青草视频| 亚洲精品日韩欧美| 久久久久成人网站| 国产视频一区在线观看一区免费| 欧美亚洲另类视频| 亚洲av少妇一区二区在线观看| 国产成人免费网站| 国产一区二区三区免费不卡| 麻豆影视在线观看_| 一区二区三区国产精品| 国产av人人夜夜澡人人爽| 精品国产一区二区三区成人影院| 国产午夜精品理论片a级探花| 国产一二三四五区| 亚洲免费播放| 岛国视频一区免费观看| 免费不卡视频| 欧美日韩另类一区| 无码人妻一区二区三区在线视频| julia中文字幕一区二区99在线| 精品sm在线观看| www.xxxx日本| 一区在线免费观看| 97se国产在线视频| 九色porny在线| 欧美最猛黑人xxxxx猛交| 网站免费在线观看| 国产一级一区二区| 国产麻豆乱码精品一区二区三区| 久草福利在线| 欧美色图在线视频| 毛茸茸多毛bbb毛多视频| 好吊日精品视频| 国产精品毛片va一区二区三区| 欧洲免费在线视频| 日韩欧美成人精品| 六月婷婷七月丁香| 欧美精品91| 97视频资源在线观看| 激情图片在线观看高清国产| 精品欧美一区二区久久| 国产在线成人精品午夜| 成人免费毛片app| 亚洲不卡中文字幕无码| 亚洲丁香日韩| 国产精品成人观看视频国产奇米| 午夜精品久久久久久久第一页按摩| 久久久久国色av免费看影院| 99久久国产宗和精品1上映| 国产精品欧美三级在线观看| 国产精品久久久久久婷婷天堂| 天天爱天天干天天操| 午夜天堂影视香蕉久久| 久久偷拍免费视频| 奇米精品一区二区三区在线观看| 黄色国产精品一区二区三区| 日本片在线观看| 亚洲精品久久久久久久久久久| 人妻少妇精品一区二区三区| 国产精品中文字幕一区二区三区| 亚洲国产精品毛片| 国产精品日韩精品在线播放 | 亚洲电影激情视频网站| 欧美无人区码suv| 国产精品vip| 久久久福利视频| 播放一区二区| 久久大大胆人体| 女人18毛片水真多18精品| 一区二区三区中文在线| 在线免费看污网站| 国内精品99| 日本一区二区三区四区高清视频| 国产精品迅雷| 久久精品久久久久久国产 免费| 无码人妻丰满熟妇区五十路| 国产成人av电影免费在线观看| 黄色一级视频播放| 久久悠悠精品综合网| 97国产成人精品视频| 草碰在线视频| 欧美日韩国产不卡| 黄色一级片免费看| 国产精品久久久久久久久图文区| 亚洲欧美久久久久| 日韩一区二区久久| 亚洲综合视频一区| 欧美日韩破处| 91亚洲va在线va天堂va国| 在线观看爽视频| 欧美激情久久久| 91精彩视频在线观看| 亚洲精品在线三区| 91成品人影院| 色视频一区二区| 日本少妇性生活| 亚洲日本欧美天堂| 激情综合激情五月| 六月婷婷色综合| 看全色黄大色大片| 成人精品视频| 久久综合久久综合这里只有精品| 日韩毛片免费观看| 久久久久久一区二区三区 | 超级碰碰久久| 久久久久久久久久久人体| 在线播放日本| 国产亚洲精品美女| 99热这里只有精品1| 在线观看视频欧美| 精品成人av一区二区在线播放| 国产视频一区在线观看| 国内av一区二区| 91久久亚洲| 日本免费成人网| 一精品久久久| 亚洲欧美一二三| 99久久婷婷| 亚洲国产精品久久久久婷婷老年| 亚洲精品v亚洲精品v日韩精品| 97国产成人精品视频| 好看的中文字幕在线播放| 欧美成人第一页| 蜜桃av在线免费观看| 国产一区二区三区高清在线观看| 国产普通话bbwbbwbbw| 精品视频1区2区3区| 黄色av网站免费| 一区二区三区在线影院| 天堂久久久久久| 99久久精品国产网站| 午夜一区二区视频| 蜜桃久久精品一区二区| 国产免费又粗又猛又爽| 久久精品99久久久| 无码人妻丰满熟妇区96| av不卡在线| 成年人视频网站免费观看| 先锋亚洲精品| 国产xxxxx视频| 国产日韩视频| 欧美牲交a欧美牲交aⅴ免费下载| 亚洲二区三区不卡| 日韩一级特黄毛片| 亚洲黄网站黄| 黄色a级片免费| 日韩成人免费在线| 在线观看国产一级片| 国产专区综合网| 校园春色 亚洲色图| 久久精品国产久精国产| 在线a免费观看| 成人动漫精品一区二区| 免费无码一区二区三区| 欧美国产成人精品| 波多野结衣a v在线| 国产精品网曝门| 91嫩草|国产丨精品入口| 亚洲视频免费观看| 久久精品人妻一区二区三区| 粉嫩av一区二区三区免费野| 国产嫩bbwbbw高潮| 欧美日韩国产另类不卡| 丰满人妻一区二区三区免费| 亚洲欧美日韩精品久久| 四虎精品成人影院观看地址| 欧美变态口味重另类| 婷婷五月综合激情| 亚洲二区在线播放视频| 九一在线视频| 欧美成人免费网| 色网在线免费观看| 国产综合在线观看视频| 欧美wwwsss9999| 在线观看日韩羞羞视频| 亚洲精品影院在线观看| 邪恶网站在线观看| 丁香五精品蜜臀久久久久99网站| wwwxxxx在线观看| 久久久久99精品一区| 30一40一50老女人毛片| 亚洲欧美区自拍先锋| 一级片中文字幕| 狠狠色狠色综合曰曰| 91tv国产成人福利| 亚洲欧洲成视频免费观看| 3d玉蒲团在线观看| 国产91色在线|免| 日韩成人av电影| 国产精自产拍久久久久久蜜| 国产精品高潮呻吟久久久久| 亚洲激情图片| 久久不射网站| 国产性猛交96| **性色生活片久久毛片| 国产成人精品777777| 亚洲精品在线免费观看视频| 肉丝一区二区| 欧美黑人狂野猛交老妇| 成人51免费| 国产精品久久久久免费| 日韩理论电影中文字幕| av日韩在线看| 激情文学综合插| 神马久久久久久久久久久| 婷婷亚洲久悠悠色悠在线播放 | 欧美一区二区三区婷婷月色| 欧美视频免费一区二区三区| 欧美激情第6页| 国产麻豆精品| 中文字幕一区二区三区乱码| 日韩va欧美va亚洲va久久| 蜜桃精品成人影片| 欧美日韩国产综合视频在线观看中文| 乱子伦一区二区三区| 日韩精品高清在线观看| 91精品国产黑色瑜伽裤| 97视频资源在线观看| 综合国产在线| 天天av天天操| 国产精品不卡一区二区三区| 久草视频手机在线观看| 7777精品伊人久久久大香线蕉 | 成人一二三区视频| 欧美日韩在线观看成人| 欧美一区二区视频网站| 免费av在线网站| 成人日韩在线电影| 偷拍欧美精品| 乱妇乱女熟妇熟女网站| 99国产精品一区| 久草手机在线观看| 日韩精品久久久久| 精品国产第一福利网站| 日本在线观看一区二区| 天堂蜜桃一区二区三区 | 日韩精品一区二区不卡| 欧美精品一区二区久久婷婷| 超碰在线97国产| 久久99精品国产99久久| 亚洲最新色图| 香蕉视频xxxx| 亚洲一区二区黄色| 亚洲 精品 综合 精品 自拍| 2019中文字幕在线| 激情婷婷综合| 日韩小视频在线播放| 91色在线porny| 国产无遮挡又黄又爽又色| 亚洲精品成人久久| 亚洲一区二区三区四区| 在线观看一区二区三区三州| 国产一区中文字幕| 日本在线免费观看| 亚洲欧美日韩爽爽影院| 另类一区二区| 草草草视频在线观看| 91美女片黄在线| 中文字幕人妻一区二区在线视频| 亚洲美女视频网| 国产精品xxx| 欧美黄网在线观看| 国产一区二区三区综合| 精品无码人妻一区二区三区| 亚洲日本中文字幕| 国产一区一区| 国产青青在线视频| 国产精品沙发午睡系列990531| 日韩精品一区二区亚洲av观看| 亚洲精品一区二区三区影院 | 国产福利影院在线观看| 91免费观看在线| 一本久道久久综合无码中文| 精品国偷自产在线视频99| 成人爽a毛片| 91插插插插插插插插| 亚洲一二三四区| 国产黄在线观看| 国产福利久久精品| 日韩一区二区久久| 黑人狂躁日本娇小| 日韩高清欧美高清| 国产一区精品二区| 日本新janpanese乱熟| 亚洲资源中文字幕| 97超碰人人在线| 久久99精品久久久久久秒播放器 | 九九九在线观看视频| 亚洲制服丝袜一区| 免费成人黄色| 日韩福利视频|