精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

再掀強化學習變革!DeepMind提出「算法蒸餾」:可探索的預訓練強化學習Transformer

人工智能 新聞
該怎么把預訓練Transformer范式用到強化學習里?

在當下的序列建模任務上,Transformer可謂是最強大的神經網絡架構,并且經過預訓練的Transformer模型可以將prompt作為條件或上下文學習(in-context learning)適應不同的下游任務。

大型預訓練Transformer模型的泛化能力已經在多個領域得到驗證,如文本補全、語言理解、圖像生成等等。

圖片

從去年開始,已經有相關工作證明,通過將離線強化學習(offline RL)視為一個序列預測問題,那么模型就可以從離線數據中學習策略

但目前的方法要么是從不包含學習的數據中學習策略(如通過蒸餾固定的專家策略),要么是從包含學習的數據(如智能體的重放緩沖區)中學習,但由于其context太小,以至于無法捕捉到策略提升。

圖片

DeepMind的研究人員通過觀察發現,原則上強化學習算法訓練中學習的順序性(sequential nature)可以將強化學習過程本身建模為一個「因果序列預測問題」

具體來說,如果一個Transformer的上下文足夠長到可以包含由于學習更新而產生的策略改進,那它應該不僅能夠表示一個固定的策略,而且能夠通過關注之前episodes的狀態、行動和獎勵表示為一個策略提升算子(policy improvement operator)。

這也提供了一種技術上的可行性,即任何RL算法都可以通過模仿學習蒸餾成一個足夠強大的序列模型,并將其轉化為一個in-context RL算法。

基于此,DeepMind提出了算法蒸餾(Algorithm Distillation, AD) ,通過建立因果序列模型將強化學習算法提取到神經網絡中。

圖片

論文鏈接:?https://arxiv.org/pdf/2210.14215.pdf?

算法蒸餾將學習強化學習視為一個跨episode的序列預測問題,通過源RL算法生成一個學習歷史數據集,然后根據學習歷史作為上下文,通過自回歸預測行為來訓練因果Transformer。

與蒸餾后學習(post-learning)或專家序列的序列策略預測結構不同,AD能夠在不更新其網絡參數的情況下完全在上下文中改進其策略。

  • Transfomer收集自己的數據,并在新任務上最大化獎勵;
  • 無需prompting或微調;
  • 在權重凍結的情況下,Transformer可探索、利用和最大化上下文的返回(return)!諸如Gato類的專家蒸餾(Expert Distillation)方法無法探索,也無法最大化返回。

實驗結果證明了AD可以在稀疏獎勵、組合任務結構和基于像素觀察的各種環境中進行強化學習,并且AD學習的數據效率(data-efficient)比生成源數據的RL算法更高。

AD也是第一個通過對具有模仿損失(imitation loss)的離線數據進行序列建模來展示in-context強化學習的方法。

算法蒸餾

2021年,有研究人員首先發現Transformer可以通過模仿學習從離線RL數據中學習單任務策略,隨后又被擴展為可以在同域和跨域設置中提取多任務策略。

這些工作為提取通用的多任務策略提出了一個很有前景的范式:首先收集大量不同的環境互動數據集,然后通過序列建模從數據中提取一個策略。

把通過模仿學習從離線RL數據中學習策略的方法也稱之為離線策略蒸餾,或者簡稱為策略蒸餾(Policy Distillation, PD)

盡管PD的思路非常簡單,并且十分易于擴展,但PD有一個重大的缺陷:生成的策略并沒有從與環境的額外互動中得到提升。

例如,MultiGame Decision Transformer(MGDT)學習了一個可以玩大量Atari游戲的返回條件策略,而Gato通過上下文推斷任務,學習了一個在不同環境中解決任務的策略,但這兩種方法都不能通過試錯來改進其策略。

MGDT通過微調模型的權重使變壓器適應新的任務,而Gato則需要專家的示范提示才能適應新的任務。

簡而言之,Policy Distillation方法學習政策而非強化學習算法。

研究人員假設Policy Distillation不能通過試錯來改進的原因是,它在沒有顯示學習進展的數據上進行訓練。

算法蒸餾(AD)通過優化一個RL算法的學習歷史上的因果序列預測損失來學習內涵式策略改進算子的方法。

圖片

AD包括兩個組成部分

1、通過保存一個RL算法在許多單獨任務上的訓練歷史,生成一個大型的多任務數據集;

2、將Transformer使用前面的學習歷史作為其背景對行動進行因果建模。

由于策略在源RL算法的整個訓練過程中不斷改進,AD必須得學習如何改進算子,才能準確模擬訓練歷史中任何給定點的行動。

最重要的是,Transformer的上下文大小必須足夠大(即跨周期),以捕捉訓練數據的改進。

圖片

在實驗部分,為了探索AD在in-context RL能力上的優勢,研究人員把重點放在預訓練后不能通過zero-shot 泛化解決的環境上,即要求每個環境支持多種任務,且模型無法輕易地從觀察中推斷出任務的解決方案。同時episodes需要足夠短以便可以訓練跨episode的因果Transformer。

圖片

在四個環境Adversarial Bandit、Dark Room、Dark Key-to-Door、DMLab Watermaze的實驗結果中可以看到,通過模仿基于梯度的RL算法,使用具有足夠大上下文的因果Transformer,AD可以完全在上下文中強化學習新任務。

圖片

AD能夠進行in-context中的探索、時間上的信用分配和泛化,AD學習的算法比產生Transformer訓練的源數據的算法更有數據效率。

PPT講解

為了方便論文理解,論文的一作Michael Laskin在推特上發表了一份ppt講解。

圖片

算法蒸餾的實驗表明,Transformer可以通過試錯自主改善模型,并且不用更新權重,無需提示、也無需微調。單個Transformer可以收集自己的數據,并在新任務上將獎勵最大化。

盡管目前已經有很多成功的模型展示了Transformer如何在上下文中學習,但Transformer還沒有被證明可以在上下文中強化學習。

為了適應新的任務,開發者要么需要手動指定一個提示,要么需要調整模型。

如果Transformer可以適應強化學習,做到開箱即用豈不美哉?

但Decision Transformers或者Gato只能從離線數據中學習策略,無法通過反復實驗自動改進。

圖片

使用算法蒸餾(AD)的預訓練方法生成的Transformer可以在上下文中強化學習。

圖片

首先訓練一個強化學習算法的多個副本來解決不同的任務和保存學習歷史。

圖片

一旦收集完學習歷史的數據集,就可以訓練一個Transformer來預測之前的學習歷史的行動。

由于策略在歷史上有所改進,因此準確地預測行動將會迫使Transformer對策略提升進行建模。

圖片

整個過程就是這么簡單,Transformer只是通過模仿動作來訓練,沒有像常見的強化學習模型所用的Q值,沒有長的操作-動作-獎勵序列,也沒有像 DTs 那樣的返回條件。

在上下文中,強化學習沒有額外開銷,然后通過觀察 AD 是否能最大化新任務的獎勵來評估模型。

Transformer探索、利用、并最大化返回在上下文時,它的權重是凍結的!

另一方面,專家蒸餾(最類似于Gato)不能探索,也不能最大化回報。

圖片

AD 可以提取任何 RL 算法,研究人員嘗試了 UCB、DQNA2C,一個有趣的發現是,在上下文 RL 算法學習中,AD更有數據效率。

圖片

用戶還可以輸入prompt和次優的demo,模型會自動進行策略提升,直到獲得最優解!

而專家蒸餾ED只能維持次優的demo表現。

圖片

只有當Transformer的上下文足夠長,跨越多個episode時,上下文RL才會出現。

AD需要一個足夠長的歷史,以進行有效的模型改進和identify任務。

圖片

通過實驗,研究人員得出以下結論:

  • Transformer可以在上下文中進行 RL
  • 帶 AD 的上下文 RL 算法比基于梯度的源 RL 算法更有效
  • AD提升了次優策略
  • in-context強化學習產生于長上下文的模仿學習
責任編輯:張燕妮 來源: 新智元
相關推薦

2022-10-08 09:53:17

AI算法

2021-09-10 16:31:56

人工智能機器學習技術

2025-05-28 02:25:00

2024-12-09 08:45:00

模型AI

2020-08-10 06:36:21

強化學習代碼深度學習

2023-03-09 08:00:00

強化學習機器學習圍棋

2023-06-25 11:30:47

可視化

2022-10-28 15:08:30

DeepMind數據

2025-10-11 09:23:28

RLPT強化學習預訓練數據

2025-06-11 14:45:57

強化學習訓練模型

2023-11-07 07:13:31

推薦系統多任務學習

2025-06-30 09:08:00

2020-11-12 19:31:41

強化學習人工智能機器學習

2021-09-17 15:54:41

深度學習機器學習人工智能

2022-11-03 14:13:52

強化學習方法

2024-10-12 17:14:12

2017-03-28 10:15:07

2023-09-21 10:29:01

AI模型

2025-06-23 09:09:00

2020-02-21 15:33:44

人工智能機器學習技術
點贊
收藏

51CTO技術棧公眾號

中文字幕在线网址| 国产真实乱人偷精品人妻| 1stkiss在线漫画| 国模无码大尺度一区二区三区| 久久天天躁狠狠躁夜夜躁2014| 久久久九九九热| av今日在线| 国产精品色哟哟| 高清日韩一区| 高清乱码免费看污| 欧美国产先锋| 国产视频精品va久久久久久| wwwwwxxxx日本| 国产精品186在线观看在线播放| 99久久精品国产麻豆演员表| 国产玖玖精品视频| 国产情侣在线视频| 国产精品久久天天影视| 亚洲精品一区二区三区婷婷月| 久久人人爽av| 亚洲精品国产精品国产| 亚洲免费大片在线观看| 欧美一卡2卡3卡4卡无卡免费观看水多多| 最近中文字幕在线观看| 亚洲人成久久| 欧美成人久久久| 欧美人与性囗牲恔配| 中文字幕一区图| 欧美日韩在线观看一区二区 | 亚洲最大天堂网| 国产在线88av| 亚洲免费在线观看| 天堂资源在线亚洲资源| 婷婷伊人综合中文字幕| 国产一区二区精品久久99| 国产精品久久久久久网站| 日韩三级视频在线| 国产在线欧美| 超碰日本道色综合久久综合 | 精品国产一区二区三区小蝌蚪 | 疯狂欧美牲乱大交777| 精品国产一区二区三区在线| 尤物视频在线免费观看| 国产欧美一二三区| 欧美久久久久久一卡四| 五月色婷婷综合| 国产成人亚洲综合a∨婷婷图片 | 国产精品久久久久久免费免熟 | 日韩精品xxx| 91精品亚洲一区在线观看| 欧美午夜在线观看| 日本a√在线观看| 欧美影视资讯| 欧美性欧美巨大黑白大战| 成人黄色片视频| 在线视频超级| 色狠狠av一区二区三区| 亚洲中文字幕久久精品无码喷水| 亚洲国产成人二区| 在线一区二区三区四区五区| 日韩免费高清在线| 成人黄色毛片| 欧美日韩和欧美的一区二区| 日本中文字幕观看| 精品国产麻豆| 欧美xxxx老人做受| 美女伦理水蜜桃4| 少妇高潮一区二区三区| 亚洲美女激情视频| 亚洲自拍偷拍图| 91亚洲一区| 不卡中文字幕av| 久久精品www| 国产亚洲精品bv在线观看| 热re99久久精品国产66热| 欧美亚洲另类小说| 麻豆精品国产传媒mv男同| 成人亚洲欧美一区二区三区| 国产黄色免费大片| 91在线porny国产在线看| 欧美午夜精品久久久久免费视 | 日韩高清影视在线观看| 亚洲欧美另类国产| 国产成人免费在线观看视频| 亚洲欧美综合| 欧美一区二区三区四区在线| 欧美一级做a爰片免费视频| 久久激情五月激情| 国产精品手机在线| 国产福利免费在线观看| 亚洲另类在线制服丝袜| 日韩欧美一区三区| 国产毛片精品久久| 精品国产免费一区二区三区四区| 野花社区视频在线观看| 99精品视频在线| 久久乐国产精品| 天天爱天天做天天爽| 激情小说亚洲一区| 久久99热只有频精品91密拍| 天天综合视频在线观看| 午夜欧美视频在线观看| 男人搞女人网站| 成人台湾亚洲精品一区二区| 一区二区欧美在线| 日韩伦理在线视频| 老司机免费视频一区二区三区| 国产欧美日韩视频一区二区三区| 国产福利电影在线| 亚洲动漫第一页| 浓精h攵女乱爱av| 久久夜色电影| 美女av一区二区三区| 国产主播第一页| 波多野结衣在线aⅴ中文字幕不卡| 亚洲一一在线| 国产精品伦理| 精品国产乱码久久久久久浪潮| 精品人妻中文无码av在线| 在线日本成人| 亚洲伊人成综合成人网| av中文在线| 日韩欧美中文字幕在线播放| 少妇极品熟妇人妻无码| 久久中文字幕二区| 国产激情综合五月久久| 日韩中文字幕观看| 亚洲激情av在线| 天天影视色综合| 色综合综合网| 久久免费在线观看| 午夜精品久久久久久久第一页按摩| 日本一区二区三区久久久久久久久不| 777av视频| 伊人久久影院| 久精品免费视频| 99久久精品国产一区二区成人| 欧美激情一区二区| 午夜dv内射一区二区| 香蕉久久精品| 欧美一级视频一区二区| 性xxxfllreexxx少妇| 亚洲午夜电影在线观看| 国产成人精品一区二区三区在线观看 | 欧美色图在线观看| 免费看污片网站| 性色av一区二区怡红| 六月婷婷久久| 在线看的毛片| 伊人av综合网| 在线免费看av的网站| 国产精品素人一区二区| 香港日本韩国三级网站| 日本女优一区| 国产精自产拍久久久久久蜜| 91大神xh98hx在线播放| 欧美日韩国产综合视频在线观看 | 国产成人av| 国产精品91久久| 国产黄在线播放| 欧美视频一区二区| 91传媒免费观看| 国产剧情一区在线| 国产欧美久久久久| 黄色免费大全亚洲| 青青青国产精品一区二区| 久草在现在线| 欧美顶级少妇做爰| 超碰手机在线观看| av午夜一区麻豆| 亚洲国产精品毛片av不卡在线| 清纯唯美日韩| 97碰碰视频| 超碰在线公开| 一区二区三区四区视频| 国产乱淫a∨片免费观看| 一区二区三区 在线观看视频| 中文字幕在线视频播放| 亚欧成人精品| 一区二区三区四区欧美| 最新国产一区二区| 欧美最近摘花xxxx摘花| 3d成人动漫在线| 亚洲成人久久网| 日韩免费av网站| 亚洲精品一二三区| 一区二区三区免费在线观看视频| 久热精品视频| 色综合视频一区二区三区日韩| 亚洲日本在线视频观看| 久久人妻少妇嫩草av蜜桃| 国产一区二区三区的电影 | 冲田杏梨av在线| 欧美在线免费一级片| 精品999在线观看| 国产欧美自拍| 992tv成人免费视频| 午夜在线免费观看视频| 精品免费99久久| 最好看的日本字幕mv视频大全| 亚洲人成网站在线| 欧美一区二区三区成人精品| 另类综合日韩欧美亚洲| 玩弄中年熟妇正在播放| 91欧美在线| 久久久免费看| 国产精品毛片无码| 国产91在线播放| 国产蜜臀一区二区打屁股调教| 国产亚洲a∨片在线观看| 成人1区2区3区| 欧美日韩中文字幕一区二区| 日本亚洲欧美在线| 亚洲免费三区一区二区| 亚洲综合欧美综合| 91网站在线观看视频| 日韩av自拍偷拍| 天堂午夜影视日韩欧美一区二区| 日本一级黄视频| 国产精品成人a在线观看| 免费久久久一本精品久久区| 1204国产成人精品视频| 国产日韩av高清| 亚洲电影有码| 91av在线免费观看视频| 欧美aaaaaaa| 久久资源免费视频| 1pondo在线播放免费| 亚洲色图15p| 香蕉国产在线视频| 亚洲成在人线av| 亚洲av无码乱码国产精品| 欧美日韩国产影片| 国产又粗又猛又爽又| 欧美网站在线观看| 久久精品国产亚洲av高清色欲 | 日韩av大片在线观看| 亚洲理论在线观看| 欧美日韩午夜视频| 亚洲色图视频网| 特级西西人体高清大胆| 国产女人aaa级久久久级| 蜜桃传媒一区二区亚洲av| 99国产精品国产精品毛片| 人妻 丝袜美腿 中文字幕| 国产高清久久久| 久久久久无码精品| 国产成人免费在线| 91精品国产高清91久久久久久 | 在线免费观看日韩av| 99久久精品国产网站| 在线天堂www在线国语对白| av在线不卡观看免费观看| 最新版天堂资源在线| 不卡大黄网站免费看| 久久久久国产精品区片区无码| 91社区在线播放| 免费观看a级片| 欧美激情一区二区三区全黄| 中文字幕资源站| 亚洲欧美激情小说另类| 久久av高潮av无码av喷吹| 午夜欧美在线一二页| 男人天堂2024| 欧美日韩一级视频| 国产按摩一区二区三区| 欧美成人bangbros| 四虎影视精品成人| 国产午夜精品免费一区二区三区| 午夜毛片在线| 欧美日韩999| 超碰高清在线| 国产精品色视频| 国产精品美女久久久久人| 粉嫩av免费一区二区三区| 西野翔中文久久精品国产| 亚洲二区三区四区| 欧美日韩理论| 久久9精品区-无套内射无码| 日日摸夜夜添夜夜添国产精品| 一本一道久久a久久综合蜜桃| 国产乱妇无码大片在线观看| 成人手机在线免费视频| 国产女主播在线一区二区| 欧美日韩在线视频免费播放| 婷婷久久综合九色综合绿巨人| 欧美brazzers| 日韩一卡二卡三卡| 免费在线一级视频| 日韩在线观看免费高清完整版| 欧美一卡二卡| 国产成人精品日本亚洲| 亚洲精品一区二区三区在线| 日韩国产精品一区二区| 欧美va天堂| 日本成人中文字幕在线| 国产美女av一区二区三区| 色婷婷av777| 一区二区三区欧美激情| 波多野结衣 久久| 日韩欧美国产一二三区| 全色精品综合影院| 欧美日本国产在线| 成人在线观看免费播放| 国产欧美韩日| 在线成人激情| 一本久道中文无码字幕av| 懂色一区二区三区免费观看| 国产精品酒店视频| 欧美日韩视频在线| www.久久精品.com| 最近2019中文字幕在线高清| 麻豆mv在线看| 91亚洲精品丁香在线观看| heyzo久久| www.爱色av.com| 国产成人免费视频一区| 婷婷伊人五月天| 欧美精品第1页| 九色网友自拍视频手机在线| 韩国一区二区电影| 久久爱www.| 中文字幕欧美日韩一区二区| 日韩电影在线一区二区| 一区二区视频观看| 亚洲大型综合色站| aaa一区二区| 精品国产美女在线| 九九热这里有精品| 日本一区二区在线| 麻豆九一精品爱看视频在线观看免费| 欧美久久久久久久久久久| 亚洲女子a中天字幕| 亚洲一区二区视频在线播放| 亚洲网站在线播放| 欧美三区四区| 欧美连裤袜在线视频| 9色精品在线| 亚洲激情 欧美| 亚洲成人7777| 亚洲精品国产精品国| 欧美黄色成人网| 精品国产亚洲一区二区三区在线| 在线视频亚洲自拍| 黄网站免费久久| 久久精品一区二区三区四区五区| 欧美日韩在线播放三区| 在线视频1区2区| 91探花福利精品国产自产在线| 久久国产精品亚洲人一区二区三区| 中文字幕视频在线免费观看| 国产区在线观看成人精品| 久久久999久久久| 在线看国产精品| 国产69精品久久| 亚洲一区不卡在线| 国内精品伊人久久久久av一坑| 天天看天天摸天天操| 日韩欧美中文字幕公布| 激情av在线| 久久综合久久综合这里只有精品| 美女国产一区| 91ts人妖另类精品系列| 91超碰这里只有精品国产| 91精品久久久| 国产乱子伦精品| 性8sex亚洲区入口| 大胸美女被爆操| 欧美一区二区人人喊爽| 成人影音在线| 欧美男人的天堂| 蜜桃在线一区二区三区| a级黄色片免费看| 亚洲国产私拍精品国模在线观看| 日韩大尺度黄色| 亚洲一区bb| www.在线欧美| 国内av在线播放| 精品中文字幕在线2019| 日韩影视高清在线观看| 久久精品影视大全| 亚洲一区免费视频| 欧美91精品久久久久国产性生爱| 国产狼人综合免费视频| 国内激情久久| www色com| 精品福利一区二区三区| 欧美一区国产| 久久久久久久香蕉| 久久精品亚洲精品国产欧美| 国产不卡av在线播放| 欧美在线视频一区二区| 一区二区三区午夜探花| 人妻无码一区二区三区| 欧美精品aⅴ在线视频| 九九色在线视频| 午夜精品一区二区在线观看| 丁香六月综合激情| 在线观看毛片av| 97视频在线看|