精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

從Transformer到擴散模型,一文了解基于序列建模的強化學習方法

人工智能 新聞
本文將簡單談談基于序列建模的強化學習方法。

大規模生成模型在近兩年為自然語言處理甚至計算機視覺帶來的巨大的突破。最近這股風潮也影響到了強化學習,尤其是離線強化學習(offline RL),諸如 Decision Transformer (DT)[1], Trajectory Transformer(TT)[2], Gato[3], Diffuser[4]這樣的方法,將強化學習的數據(包括狀態,動作,獎勵和 return-to-go)當成了一串去結構化的序列數據,并將建模這些序列數據作為學習的核心任務。這些模型都可以用監督或自監督學習的方法來訓練,避免了傳統強化學習中比較不穩定的梯度信號。即便使用復雜的策略提升 (policy improvement) 和估值 (value estimation) 方法,它們在離線強化學習中都展現了非常好的表現。

本篇將簡單談談這些基于序列建模的強化學習方法,下篇筆者將介紹我們新提出的,Trajectory Autoencoding Planner(TAP),一種用 Vector Quantised Variational AutoEncoder (VQ-VAE)進行序列建模并進行高效的隱動作空間(latent action space)內規劃的方法。

Transformer 與強化學習

Transformer 架構 [5] 于 2017 年提出之后慢慢引發了自然語言處理的革命,后續的 BERT 和 GPT-3 逐漸將自監督 + Transformer 這個組合不斷推向新的高度,在自然語言處理領域不斷涌現出少樣本 (few-shot) 學習等性質的同時,也開始向諸如計算機視覺的領域不斷擴散[6][7]。

然而對于強化學習來說,這個進程似乎在 2021 年之前都不是特別明顯。在 2018 年,多頭注意力機制也被引入強化學習 [8],這類工作基本都是應用在類似半符號化(sub-symbolic) 的領域嘗試解決強化學習泛化的問題。之后這類嘗試就一直處于一種不溫不火的狀態。根據筆者個人的體驗,實際上 Transformer 在強化學習上也并沒有展現出穩定的壓倒性的優勢,而且還很難訓練。在 20 年我們的一個用 Relational GCN 做強化學習的工作中 [9],我們其實也在背后試過 Transformer,但是基本比傳統結構(類似 CNN)差得多,很難穩定訓練得到一個能用的 policy。為什么 Transformer 和傳統在線強化學習(online RL)的相性比較差還是個開放問題,比如 Melo[10] 解釋說是因為傳統的 Transformer 的參數初始化不適合強化學習,在此我就不多做討論了。

2021 年年中,Decision Transformer (DT)和 Trajectory Transformer(TT)的發表掀起了 Transformer 在 RL 上應用的新大潮。這兩個工作的思路其實很直接:如果 Transformer 和在線強化學習的算法不是很搭,那要不干脆把強化學習當成一個自監督學習的任務?趁著離線強化學習這個概念也很火熱,這兩個工作都將自己的主要目標任務鎖定為建模離線數據集(offline dataset),然后再將這個序列模型用作控制和決策。

對于強化學習來說,所謂序列就是由狀態(state) s ,動作(action)圖片 ,獎勵(reward) r 和價值(value) v 構成的軌跡(trajectory) 圖片。其中價值目前一般是被用 return-to-go 來替代,可以被看成是一種蒙特卡洛估計(Monte Carlo estimation)。離線數據集就由這一條條軌跡構成。軌跡的產生和環境的動力學模型(dynamics)以及行為策略(behaviour policy)圖片有關。而所謂序列建模,就是要建模產生產生這個序列的概率分布(distribution),或者嚴格上說是其中的一些條件概率。

圖片

Decision Transformer

DT 的做法是建模一個從過往數據和價值到動作的映射 (return-conditioned policy),也就是建模了一個動作的條件概率的數學期望圖片 。這種思路很類似于 Upside Down RL[11],不過很有可能背后的直接動機是模仿 GPT2/3 那種根據提示詞(prompt) 完成下游任務的做法。這種做法的一個問題是要決定什么是最好的目標價值圖片沒有一個比較系統化的方法。然而 DT 的作者們發現哪怕將目標價值設為整個數據集中的最高 return,最后 DT 的表現也可以很不錯。

圖片

Decision Transformer, Figure 1

對于有強化學習背景的人來說,DT 這樣的方法能取得很強的表現是非常反直覺的。如果說 DQN,策略梯度(Policy Gradient)這類方法還可以只把神經網絡當成一個能做插值泛化的擬合函數,強化學習中的策略提升、估值仍然是構造策略的核心的話。DT 就完全可以說是以神經網絡為核心的了,背后它如何把一個可能不切實際的高目標價值聯系到一個合適的動作的整個過程都完全是黑箱。DT 的成功可以說從強化學習的角度來看有些沒有道理,不過我覺得這也正是這種實證研究的魅力所在。筆者認為神經網絡,或者說 Transformer 的泛化能力可能超乎整個 RL 社群之前的預期。

DT 在所有序列建模方法中也是非常簡單的,幾乎所有強化學習的核心問題都在 Transformer 內部被解決了。這種簡單性是它目前最受青睞的原因之一。不過它黑盒的性質也導致我們在算法設計層面上失去了很多抓手,傳統的強化學習中的一些成果很難被融入其中。而這些成果的有效性已經在一些超大規模的實驗(如 AlphaGo, AlphaStar, VPT)中被反復證實了。

Trajectory Transformer

TT 的做法則更類似傳統的基于模型的強化學習 (model-based RL) 的規劃(planning)方法。在建模方面,它將整個序列中的元素都離散化,然后用了 GPT-2 那樣的離散的自回歸(auto-regressive)方式來建模整個離線數據集。這使得它能夠建模任意給定除去 return-to-go 的序列的后續 圖片。因為建模了后續序列的分布,TT 其實就成為了一個序列生成模型。通過在生成的序列中尋找擁有更好的估值(value estimation)的序列,TT 就可以輸出一個“最優規劃”。至于尋找最優序列的方法,TT 用了一種自然語言常用的方法:beam search 的一種變種。基本上就是永遠保留已經展開的序列中最優的一部分序列圖片,然后在它們的基礎上尋找下一步的最優序列集 圖片

從強化學習的角度來說,TT 沒有 DT 那么離經叛道。它的有趣之處在于(和 DT 一樣)完全拋棄了原本強化學習中馬爾可夫決策過程(Markov Decision Process)的因果圖結構。之前的基于模型的方法比如,PETS, world model, dramerv2 等,都會遵循馬爾可夫過程(或者隱式馬爾可夫)中策略函數、轉移函數、獎勵函數等的定義,也就是狀態分布的條件是上一步的狀態,而動作、獎勵、價值都由當前的狀態決定。整個強化學習社區一般相信這樣能提高樣本效率,不過這樣的圖結構其實也可能是一種制約。自然語言領域從 RNN 到 Transformer 以及計算機視覺領域 CNN 到 Transformer 的轉變其實都體現了:隨著數據增加,讓網絡自己學習圖結構更有利于獲得表現更好的模型。

圖片

DreamerV2, Figure 3由于 TT 基本上把所有序列預測的任務都交給了 Transformer,Transformer 就能更加靈活地從數據中學習出更好的圖結構。如下圖,TT 建模出的行為策略根據不同的任務和數據集展現出不同的圖結構。圖左對應了傳統的馬爾可夫策略,圖右對應了一種動作滑動平均的策略。

圖片

Trajectory Transformer, Figure 4

Transformer 強大的序列建模能力帶來了更高的長序列建模精度,下圖展示了 TT 在 100 步以上的預測仍然保持了高精度,而遵循馬爾可夫性質的單步預測模型很快因為預測誤差疊加的問題崩潰了。

圖片

Trajectory Transformer, Figure 2TT 雖然在具體建模和預測方面和傳統方法有所不同,它提供的預測能力還是給未來融入強化學習的其它成果留出了很好的抓手。然而 TT 在預測速度上有一個重要問題:因為需要建模整個序列的分布,它將序列中所有的元素按照維度進行離散化,這也就是說一個 100 維的狀態就需要占用序列中的 100 個位置,這使得被建模的序列的實際長度很容易變得特別長。而對于 Transformer,它關于序列長度 N 的運算復雜度是 圖片,這使得從 TT 中采樣一個對未來的預測變得非常昂貴。哪怕 100 維以下的任務 TT 也需要數秒甚至數十秒來進行一步決策,這樣的模型很難被投入實時的機器人控制或者在線學習之中。

Gato

Gato 是 Deepmind 發表的“通才模型”,其實就是一個跨模態多任務生成模型。用同一個 Transformer 它可以完成從自然語言問答,圖片描述,玩電子游戲到機器人控制等各類工作。在針對連續控制(continous control)的建模方面 Gato 的做法基本上和 TT 類似。只不過 Gato 嚴格意義并不是在做強化學習,它只是建模了專家策略產生的序列數據,然后在行動時它只需要采樣下一個動作,其實是對專家策略的一種模仿。

圖片?

Gato Blog

其它序列生成模型:擴散模型

最近在圖片生成領域擴散模型(Diffusion Model)可以說是大紅大紫,DALLE-2 和 Stable Diffusion 都是基于它進行圖片生成的。Diffuser 就將這個方法也運用到了離線強化學習當中,其思路和 TT 類似,先建模序列的條件分布,然后根據當前狀態采樣未來可能的序列。

Diffuser 相比 TT 又擁有了更強的靈活性:它可以在設定起點和終點的情形下讓模型填充出中間的路徑,這樣就能實現目標驅動(而非最大化獎勵函數)的控制。它還可以將多個目標和先驗的達成目標的條件混合起來幫助模型完成任務。

圖片

Diffuser Figure 1Diffuser 相對于傳統的強化學習模型也是比較顛覆的,它生成的計劃不是在時間軸上逐步展開,而是從整個序列意義上的模糊變得逐漸精確。擴散模型本身的進一步研究也是計算機視覺中的一個火熱的話題,在其模型本身上很可能未來幾年也會有突破。

不過擴散模型本身目前相比于其它生成模型有一個特別的缺陷,那就是它的生成速度相比于其它生成模型會更慢。很多相關領域的專家認為這一點可能在未來幾年內會被緩解。不過數秒的生成時間目前對于強化學習需要實時控制的情景來說是很難接受的。Diffuser 提出了能夠提升生成速度的方法:從上一步的計劃開始增加少量噪音來重新生成下一步的計劃,不過這樣做會一定程度上降低模型的表現。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-06-08 08:11:56

威脅建模網絡安全網絡攻擊

2024-04-12 08:59:02

強化學習系統人工智能擴散模型

2022-05-25 10:28:35

模型AI

2017-07-25 16:04:31

概念應用強化學習

2024-03-06 16:08:13

人工智能擴散模型生成模型

2024-05-21 09:45:40

機器學習人工智能XAI

2023-09-17 23:09:24

Transforme深度學習

2022-07-03 08:25:09

OSITCP/IP

2017-08-07 10:08:29

深度學習分類體系信息檢索

2023-08-05 13:08:54

2021-10-18 10:32:32

自動駕駛數據人工智能

2017-09-21 21:34:12

計算語言學隱馬爾可夫模型機器學習

2025-04-10 11:47:41

2025-04-18 12:25:34

2020-11-04 10:28:48

機器人人工智能系統

2020-08-27 07:34:50

Zookeeper數據結構

2022-11-02 14:02:02

強化學習訓練

2025-03-05 10:21:04

DeepSeekLVLM

2024-02-01 11:57:31

this指針代碼C++

2022-07-11 11:14:47

強化學習AI基于模型
點贊
收藏

51CTO技術棧公眾號

欧美日韩一区成人| 久久精品亚洲麻豆av一区二区| 精品综合久久久久久97| 催眠调教后宫乱淫校园| 日本乱码一区二区三区不卡| 国产精品欧美一区二区三区| 亚洲xxx视频| 69av视频在线观看| 亚洲精品一二三区区别| 亚洲精品xxxx| 污污的视频免费观看| 91制片在线观看| 国产精品久久久久永久免费观看 | 日韩成人久久| 91久久一区二区| 国产精品视频网站在线观看| 爽爽视频在线观看| 国产高清无密码一区二区三区| 2019中文字幕在线免费观看| 色婷婷在线视频观看| 久久这里只有精品一区二区| 欧美一区二区在线免费播放| 可以在线看的黄色网址| 丰乳肥臀在线| 亚洲三级小视频| 五月婷婷一区| 日韩美女一级视频| 国产成人日日夜夜| 成人h视频在线观看播放| 精品不卡一区二区| 亚洲精品乱码| 欧美激情视频在线免费观看 欧美视频免费一| 99久久久久久久久久| 国产高清日韩| 欧美日韩不卡一区二区| 国产精品涩涩涩视频网站| 成人超碰在线| 一区二区三区美女| 91精品视频网| 欧美成人免费播放| 欧美xxxooo| 欧美日韩一二| 夜夜嗨av一区二区三区免费区 | 成人动漫视频| 欧美一级在线观看| 亚洲精品视频三区| 国产成人亚洲一区二区三区| 在线精品视频一区二区三四| www黄色av| 成人小电影网站| 欧美日韩精品在线播放| 精品久久久久久无码中文野结衣| 久久不射影院| 亚洲国产乱码最新视频| 国产成人在线小视频| bt在线麻豆视频| 亚洲人成在线播放网站岛国| 99re99热| 免费在线国产视频| 亚洲福利视频导航| 3d动漫一区二区三区| 国模精品视频| 一本色道综合亚洲| 日韩精品免费播放| 福利一区在线| 6080午夜不卡| 人妻av一区二区三区| 91蝌蚪精品视频| 亚洲国产精品人久久电影| 色综合久久五月| 少妇一区二区三区| 亚洲人成伊人成综合网久久久 | 国产成人精品在线| 无码人妻精品一区二区三区蜜桃91 | 欧美aⅴ在线观看| 亚洲成人av观看| 欧美男男青年gay1069videost | 免费高清在线观看免费| 日本不卡一二三| 欧美日韩久久久一区| 91香蕉国产线在线观看| 国产无遮挡裸体免费久久| 精品国一区二区三区| 五级黄高潮片90分钟视频| 成久久久网站| 九九久久久久久久久激情| 日韩免费黄色片| 日韩福利视频网| 亚洲一区二区三区四区视频| 色综合视频在线| 国产精品三级电影| 一卡二卡三卡视频| 日本精品网站| 精品国产凹凸成av人导航| 在线观看福利片| 91tv官网精品成人亚洲| 91福利视频网| 国产又粗又猛视频免费| 大美女一区二区三区| 日韩欧美亚洲v片| 污视频免费在线观看| 色婷婷久久综合| 久久无码人妻一区二区三区| 国产精品羞羞答答在线观看| 久久亚洲综合国产精品99麻豆精品福利 | 国产精品久久占久久| 91国产美女在线观看| 97成人在线观看| 久久综合久久鬼色| 天天想你在线观看完整版电影免费| 美女的胸无遮挡在线观看| 欧美人体做爰大胆视频| 玖玖爱在线观看| 国产精品久久| 国产欧美日韩亚洲精品| 四虎影视在线观看2413| 亚洲黄网站在线观看| 欧美精品性生活| 色先锋久久影院av| 久久久久成人精品| 国产免费一区二区三区免费视频| 久久久高清一区二区三区| 蜜臀精品一区二区| 99精品国产九九国产精品| 亚洲无限av看| av资源免费观看| 大尺度一区二区| 激情五月五月婷婷| 欧美a视频在线| 亚洲色图五月天| 精品免费囯产一区二区三区 | 国产高清一区视频| 免费大片黄在线观看视频网站| 91久久精品一区二区三| 极品人妻一区二区三区| 亚洲国产第一| 国产精品swag| 欧美bbbxxxxx| 日韩欧美精品三级| 欧美日韩午夜视频| 韩国理伦片一区二区三区在线播放| 欧美亚洲另类久久综合| 乱馆动漫1~6集在线观看| 精品国一区二区三区| 欧美日韩激情在线观看| 国产精品一区久久久久| 色哺乳xxxxhd奶水米仓惠香| 国产日韩中文在线中文字幕| 久久久97精品| 国产特级黄色片| 亚洲欧美日韩一区| 99热这里只有精品2| 欧美日韩国产免费观看 | 天堂中文视频在线| 欧美日韩有码| 国产精品久久久久久久久免费| 韩国中文免费在线视频| 在线亚洲免费视频| 91社区视频在线观看| 另类中文字幕网| 成年人免费观看的视频| 欧美日韩中出| 欧美激情综合色综合啪啪五月| 成人午夜免费在线观看| 亚洲成av人**亚洲成av**| 色婷婷精品久久二区二区密| 国产精品五区| 亚洲 国产 欧美一区| 亚洲综合资源| 久久久久久久999| 日韩欧美电影在线观看| 精品视频在线免费看| www青青草原| av中文一区二区三区| 国产免费人做人爱午夜视频| 日韩精品第一区| 69堂成人精品视频免费| 97人人在线视频| 亚洲日韩欧美视频一区| 国产精品久久久久久免费免熟| 亚洲欧美激情在线| 天堂www中文在线资源| 久久一区国产| 青青草免费在线视频观看| 精品一区二区男人吃奶| 国产精品电影网| 男女在线视频| 中文字幕日本欧美| 日本黄色免费视频| 欧美揉bbbbb揉bbbbb| 国产亚洲精品久久久久久打不开| 2022国产精品视频| 在线视频观看一区二区| 亚洲清纯自拍| 热这里只有精品| 日韩影视在线观看| 亚洲一区二区少妇| 日韩av中字| 欧美区在线播放| 九色在线播放| 欧美精品一区二区高清在线观看| 最近国语视频在线观看免费播放| 亚洲精品免费看| av手机在线播放| av电影一区二区| 91性高潮久久久久久久| 日本欧美一区二区在线观看| 男女猛烈激情xx00免费视频| 国产精品二区不卡| 久久香蕉综合色| 亚洲国产中文在线| 成人福利视频在线观看| 澳门成人av网| 久久免费国产视频| av免费在线免费观看| 亚洲天堂av网| 香蕉久久国产av一区二区| 日韩一级高清毛片| 在线观看亚洲国产| 一本大道久久a久久精品综合| 国产精品.www| 亚洲精品v日韩精品| 美国精品一区二区| 国产亚洲欧美日韩在线一区| 日韩av无码一区二区三区不卡| 国产一区二区三区视频在线播放| 成人一区二区三| 国产毛片久久| 亚洲熟妇国产熟妇肥婆| 亚洲一级特黄| 欧洲精品在线播放| 自拍视频亚洲| 久久久成人精品一区二区三区| 日本电影一区二区| 日韩在线三级| 日韩电影在线视频| 丝袜足脚交91精品| 青青草国产成人a∨下载安卓| 欧美日韩亚洲在线| 欧美成人一区在线观看| 国产一区福利视频| 国产精品传媒| 风间由美一区二区三区| 91蝌蚪精品视频| 动漫精品视频| 欧美三级午夜理伦三级在线观看| 国产精品国产三级国产专区53 | 妞干网在线视频观看| 激情综合中文娱乐网| 免费在线观看视频a| 亚洲国产高清一区二区三区| 免费成人午夜视频| 亚洲综合另类| 在线免费视频a| 毛片av一区二区| 午夜天堂在线视频| 国产一区不卡精品| 日本wwwwwww| 99视频在线精品| 醉酒壮男gay强迫野外xx| 久久久久久久综合| 精品人体无码一区二区三区| 中文字幕在线观看不卡视频| 26uuu成人网| 亚洲不卡一区二区三区| 欧美特黄aaaaaa| 欧洲亚洲精品在线| 国产一区二区三区三州| 日韩视频免费直播| 天堂av资源网| 亚洲天堂第二页| 精品国产丝袜高跟鞋| 欧美日韩国产成人| 午夜激情电影在线播放| 国产成人自拍视频在线观看| 欧美综合影院| 成人综合色站| 精品产国自在拍| 国产盗摄视频在线观看| 亚洲一区成人| 在线观看国产福利| 成人黄色综合网站| 性欧美一区二区| 亚洲精品免费在线观看| 国产一级特黄视频| 在线看日本不卡| 亚洲精品911| 伊人av综合网| 超碰中文在线| 国产欧美日韩免费| 开心激情综合| 国产精品jizz在线观看老狼| 亚洲永久免费| 手机av在线网站| 久久婷婷久久一区二区三区| 国产真实乱在线更新| 日韩欧美在线观看视频| 国产免费高清av| 一区二区三区视频在线| 爱看av在线入口| 成人精品一区二区三区电影免费| 青青久久av| 强开小嫩苞一区二区三区网站| 男女av一区三区二区色多| 在线观看中文av| 久久精品一区二区三区不卡| 国产午夜精品一区二区理论影院| 欧美日韩综合一区| 人操人视频在线观看| 欧美成人午夜激情视频| 亚洲精品.com| 精品国产一区二区三区麻豆小说 | 无码播放一区二区三区| 激情六月婷婷久久| 久久美女免费视频| 精品高清一区二区三区| www国产一区| 久久久999国产| 看片一区二区| 欧美日韩一区二区视频在线观看| 伊人成人在线视频| 91网址在线观看精品| 日本一区二区成人| av黄色在线播放| 日韩av在线网址| 免费在线播放电影| 91在线观看欧美日韩| 99热在线成人| 日韩大片一区二区| 国产日韩一级二级三级| 在线精品免费视| 亚洲国产美女精品久久久久∴| 性欧美videos高清hd4k| 成人福利网站在线观看| 日本久久一二三四| 成年人小视频网站| 国产三级一区二区三区| 国产一级片毛片| 亚洲毛茸茸少妇高潮呻吟| 三级在线看中文字幕完整版| 国产精品一区视频| 最新日韩av| 91丝袜在线观看| 午夜精品视频一区| 人妻一区二区三区四区| 久久琪琪电影院| 美女主播精品视频一二三四| 久久国产精品网| 97超碰欧美中文字幕| 中文字幕在线观看视频网站| 日韩国产高清污视频在线观看| av在线中出| 欧美极品色图| 日韩极品在线观看| 91无套直看片红桃在线观看| 欧美久久一区二区| 成人在线直播| 国产精品毛片一区视频| 亚洲美女毛片| 亚洲色成人网站www永久四虎| 欧美午夜精品一区二区三区| аⅴ资源新版在线天堂| 成人免费网站在线观看| 欧美在线免费| 91传媒理伦片在线观看| 狠狠做深爱婷婷久久综合一区| 青青草在线免费视频| 国产精品午夜视频| 欧美 日韩 国产 一区| 欧美成人精品一区二区综合免费| 天天免费综合色| 国产三级电影在线观看| 国产日本欧美一区二区三区在线 | 亚洲AV无码国产精品午夜字幕| 欧美—级高清免费播放| 亚洲永久精品唐人导航网址| 天天干天天干天天干天天干天天干| 综合亚洲深深色噜噜狠狠网站| 亚洲男女视频在线观看| 欧美专区在线观看| 四虎国产精品免费观看| 亚洲av综合色区无码另类小说| 欧美日韩国产一中文字不卡| 国产黄在线看| 99久久精品免费看国产一区二区三区| 99国产精品| 亚洲一级理论片| 亚洲精品xxx| 不卡的国产精品| 亚洲午夜无码av毛片久久| 国产精品国产三级国产专播品爱网 | 日本 欧美 国产| 亚洲精品国产精品久久清纯直播| 欧美xnxx| 亚洲不卡中文字幕无码| 亚洲欧美日韩在线不卡| 黄色片免费在线| 国产精品推荐精品| 理论电影国产精品| 97久久久久久久|