精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DeepMind新作:無需權重更新、提示和微調,transformer在試錯中自主改進

人工智能 新聞
DeepMind 表示,他們提出的算法蒸餾(AD)是首個通過對具有模仿損失的離線數據進行順序建模以展示上下文強化學習的方法。

目前,Transformers 已經成為序列建模的強大神經網絡架構。預訓練 transformer 的一個顯著特性是它們有能力通過提示 conditioning 或上下文學習來適應下游任務。經過大型離線數據集上的預訓練之后,大規模 transformers 已被證明可以高效地泛化到文本補全、語言理解和圖像生成方面的下游任務。

最近的工作表明,transformers 還可以通過將離線強化學習(RL)視作順序預測問題,進而從離線數據中學習策略。Chen et al. (2021)的工作表明,transformers 可以通過模仿學習從離線 RL 數據中學習單任務策略,隨后的工作表明 transformers 可以在同領域和跨領域設置中提取多任務策略。這些工作都展示了提取通用多任務策略的范式,即首先收集大規模和多樣化的環境交互數據集,然后通過順序建模從數據中提取策略。這類通過模仿學習從離線 RL 數據中學習策略的方法被稱為離線策略蒸餾(Offline Policy Distillation)或策略蒸餾(Policy Distillation, PD)。

PD 具有簡單性和可擴展性,但它的一大缺點是生成的策略不會在與環境的額外交互中逐步改進。舉例而言,谷歌的通才智能體 Multi-Game Decision Transformers 學習了一個可以玩很多 Atari 游戲的返回條件式(return-conditioned)策略,而 DeepMind 的通才智能體 Gato 通過上下文任務推理來學習一個解決多樣化環境中任務的策略。遺憾的是,這兩個智能體都不能通過試錯來提升上下文中的策略。因此 PD 方法學習的是策略而不是強化學習算法。

在近日 DeepMind 的一篇論文中,研究者假設 PD 沒能通過試錯得到改進的原因是它訓練用的數據無法顯示學習進度。當前方法要么從不含學習的數據中學習策略(例如通過蒸餾固定專家策略),要么從包含學習的數據中學習策略(例如 RL 智能體的重放緩沖區),但后者的上下文大小(太小)無法捕獲策略改進。

圖片

論文地址:https://arxiv.org/pdf/2210.14215.pdf

研究者的主要觀察結果是,RL 算法訓練中學習的順序性在原則上可以將強化學習本身建模為一個因果序列預測問題。具體地,如果一個 transformer 的上下文足夠長,包含了由學習更新帶來的策略改進,那么它不僅應該可以表示一個固定策略,而且能夠通過關注之前 episodes 的狀態、動作和獎勵來表示一個策略改進算子。這樣開啟了一種可能性,即任何 RL 算法都可以通過模仿學習蒸餾成足夠強大的序列模型如 transformer,并將這些模型轉換為上下文 RL 算法。

研究者提出了算法蒸餾(Algorithm Distillation, AD),這是一種通過優化 RL 算法學習歷史中因果序列預測損失來學習上下文策略改進算子的方法。如下圖 1 所示,AD 由兩部分組成。首先通過保存 RL 算法在大量單獨任務上的訓練歷史來生成大型多任務數據集,然后 transformer 模型通過將前面的學習歷史用作其上下文來對動作進行因果建模。由于策略在源 RL 算法的訓練過程中持續改進,因此 AD 不得不學習改進算子以便準確地建模訓練歷史中任何給定點的動作。至關重要的一點是,transformer 上下文必須足夠大(即 across-episodic)才能捕獲訓練數據的改進。

圖片

研究者表示,通過使用足夠大上下文的因果 transformer 來模仿基于梯度的 RL 算法,AD 完全可以在上下文中強化新任務學習。研究者在很多需要探索的部分可觀察環境中評估了 AD,包括來自 DMLab 的基于像素的 Watermaze,結果表明 AD 能夠進行上下文探索、時序信度分配和泛化。此外,AD 學習到的算法比生成 transformer 訓練源數據的算法更加高效。

最后值得關注的是,AD 是首個通過對具有模仿損失的離線數據進行順序建模以展示上下文強化學習的方法。

圖片

方法

在生命周期內,強化學習智能體需要在執行復雜的動作方面表現良好。對智能體而言,不管它所處的環境、內部結構和執行情況如何,都可以被視為是在過去經驗的基礎上完成的。可用如下形式表示:

圖片

研究者同時將「長期歷史條件, long history-conditioned」策略看作一種算法,得出:

圖片

其中?(A)表示動作空間 A 上的概率分布空間。公式 (3) 表明,該算法可以在環境中展開,以生成觀察、獎勵和動作序列。為了簡單起見,該研究將算法用 P 表示,將環境(即任務)用圖片的學習歷史都是由算法圖片表示,這樣對于任何給定任務圖片生成的。可以得到

圖片

研究者用大寫拉丁字母表示隨機變量,例如 O、A、R 及其對應的小寫形式 o,α,r。通過將算法視為長期歷史條件策略,他們假設任何生成學習歷史的算法都可以通過對動作執行行為克隆來轉換成神經網絡。接下來,該研究提出了一種方法,該方法提供了智能體在生命周期內學習具有行為克隆的序列模型,以將長期歷史映射到動作分布。

實際執行

在實踐中,該研究將算法蒸餾過程 ( algorithm distillation ,AD)實現為一個兩步過程。首先,通過在許多不同的任務上運行單獨的基于梯度的 RL 算法來收集學習歷史數據集。接下來,訓練具有多情節上下文的序列模型來預測歷史中的動作。具體算法如下所示:

圖片

實驗

實驗要求所使用的環境都支持許多任務,而這些任務不能從觀察中輕易的進行推斷,并且情節(episodes)足夠短,可以有效地訓練跨情節因果 transformers。這項工作的主要目的是調查相對于先前工作,AD 強化在多大程度上是在上下文中學習的。實驗將 AD、 ED( Expert Distillation)  、RL^2 等進行了比較。

評估 AD、ED、 RL^2 結果如圖 3 所示。該研究發現 AD 和 RL^2 都可以在上下文中學習從訓練分布中采樣的任務,而 ED 則不能,盡管 ED 在分布內評估時確實比隨機猜測做得更好。

圖片

圍繞下圖 4,研究者回答了一系列問題。AD 是否表現出上下文強化學習?結果表明 AD 上下文強化學習在所有環境中都能學習,相比之下,ED 在大多數情況下都無法在上下文中探索和學習。 

AD 能從基于像素的觀察中學習嗎?結果表明 AD 通過上下文 RL 最大化了情景回歸,而 ED 則不能學習。

AD 是否可以學習一種比生成源數據的算法更有效的 RL 算法?結果表明 AD 的數據效率明顯高于源算法(A3C 和 DQN)。

圖片

是否可以通過演示來加速 AD?為了回答這個問題,該研究保留測試集數據中沿源算法歷史的不同點采樣策略,然后,使用此策略數據預先填充 AD 和 ED 的上下文,并在 Dark Room 的環境中運行這兩種方法,將結果繪制在圖 5 中。雖然 ED 保持了輸入策略的性能,AD 在上下文中改進每個策略,直到它接近最優。重要的是,輸入策略越優化,AD 改進它的速度就越快,直到達到最優。

圖片

更多細節,請參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-10-14 13:51:33

AI模型數據

2024-12-18 08:00:00

2023-09-20 08:52:57

Google模型

2025-10-15 08:53:08

2025-10-11 18:05:23

AI智能體模型

2022-04-11 09:20:00

模型訓練

2017-04-24 08:35:09

深度學習神經網絡合成梯度

2024-06-19 12:50:39

2024-04-10 10:28:47

2010-03-11 16:29:28

Visual Stud

2025-05-22 01:00:00

2025-01-16 08:30:00

LLMAI訓練

2025-06-23 09:09:00

2022-07-22 07:18:53

代碼DeepMind

2021-07-14 10:17:00

數字化業務主管技術主管

2010-06-21 13:52:20

AODV路由協議

2024-09-23 08:30:00

AI模型

2025-02-24 14:15:00

模型訓練AI

2021-03-16 14:35:16

架構AI技術

2011-05-25 10:32:19

SQLite
點贊
收藏

51CTO技術棧公眾號

婷婷激情在线| 国产午夜无码视频在线观看 | fc2ppv在线播放| 57pao成人永久免费| 亚洲卡通欧美制服中文| 久久国产精品 国产精品| 欧美黑人一区二区| 久久在线免费| 亚洲精品国产免费| 老司机午夜av| 欧美寡妇性猛交xxx免费| 三级在线观看一区二区| 色悠悠久久久久| 三上悠亚在线一区二区| 毛片在线导航| 国产精品国产三级国产普通话蜜臀| 国产精品久久久久久久美男| 久久久久成人网站| 波多野结衣欧美| 亚洲自拍偷拍麻豆| 视频一区二区精品| 少妇人妻精品一区二区三区| 美国十次了思思久久精品导航 | 国产成人av一区二区三区| 亚洲 欧美 中文字幕| 正在播放日韩欧美一页 | 亚洲欧洲日产国产综合网| 好看的日韩精品视频在线| 日韩久久久久久久久久| 亚洲福利精品| 九九精品在线视频| 91香蕉一区二区三区在线观看| 日韩精品一区二区三区中文字幕| 夜夜嗨av一区二区三区中文字幕| 国产美女精品在线观看| av网站在线观看免费| 全部av―极品视觉盛宴亚洲| 91高清视频免费观看| 久久黄色免费视频| 欧美三级在线| 欧美成人免费网| 无码人妻aⅴ一区二区三区| 中文字幕一区二区三区日韩精品| 欧美日韩国产精品专区| 国产夫妻自拍一区| 超碰97免费在线| 亚洲五码中文字幕| www.日本三级| 亚洲性图自拍| 夜夜嗨av一区二区三区| 亚洲黄色网址在线观看| 五月婷婷伊人网| 波波电影院一区二区三区| 波多野结衣一区二区三区在线观看 | 久久精品午夜福利| 国产精品久久麻豆| 久久一区二区视频| 青娱乐一区二区| 亚洲精品国产片| 丁香激情综合五月| 国产一区二区三区高清视频| 蜜桃视频久久一区免费观看入口| 日av在线不卡| 成人精品一区二区三区电影免费 | 国产区在线观看| 亚洲免费高清视频在线| 热这里只有精品| 一区二区三区伦理| 亚洲电影中文字幕在线观看| 免费在线观看视频a| 色在线中文字幕| 日本丶国产丶欧美色综合| 欧美久久在线观看| 深夜在线视频| 欧美性生活久久| av地址在线观看| 理论片一区二区在线| 日韩一区二区三区精品视频| 男女视频一区二区三区| 久久久久久一区二区三区四区别墅| 欧美日韩免费一区| 看欧美ab黄色大片视频免费| 成人影院在线视频| 色www精品视频在线观看| 999这里有精品| 7m精品国产导航在线| 亚洲精品网址在线观看| 日本裸体美女视频| 日本道不卡免费一区| 亚洲欧美三级在线| 亚洲欧美精品aaaaaa片| 999亚洲国产精| 国产精品久久久久久久久| 国产精品国产三级国产普通话对白 | 久久精品一区四区| 国产三级中文字幕| 免费h在线看| 4hu四虎永久在线影院成人| 成人在线观看一区二区| 国产精品美女久久久久久不卡 | 日本韩国精品在线| 久久精品一二三四| 亚洲3区在线| 国产一区二区三区在线看| 免费看一级一片| 日本欧洲一区二区| 99精品国产高清一区二区| 99视频免费看| 国产日韩v精品一区二区| 日韩在线第一区| 男插女视频久久久| 欧美精品一级二级三级| 最新在线黄色网址| 欧美成人69av| 国产精品自拍视频| 青青免费在线视频| 亚洲国产美女搞黄色| 午夜精品中文字幕| 亚洲色图丝袜| 久久久久久久久网站| 亚洲一卡二卡在线观看| 2020国产精品| 日韩网站在线免费观看| 国产精选久久| 日韩在线视频网| 中文字幕一区二区三区四区欧美| 久久精品久久久精品美女| 亚洲aaaaaa| 在线观看免费黄色| 色国产综合视频| 亚洲国产无码精品| 亚洲黄色毛片| yellow视频在线观看一区二区 | 久久久夜色精品亚洲| 4444亚洲人成无码网在线观看| 爱草tv视频在线观看992| 91精品国产综合久久久久久久久久| 国产性猛交96| 欧美黄色精品| 亚洲自拍偷拍网址| 成人黄色网址| 91精品国产综合久久久蜜臀图片| 亚洲熟妇一区二区三区| 亚洲九九精品| 精品欧美国产一区二区三区不卡| 午夜视频成人| 在线一区二区三区做爰视频网站| 天堂视频免费看| 日韩一区三区| 国产日韩精品电影| 日本三级视频在线播放| 欧美日韩亚洲国产综合| 五月婷六月丁香| 男人操女人的视频在线观看欧美| 91久久精品www人人做人人爽| 天堂中文资源在线| 欧美日韩亚洲一区三区| 国产日韩在线亚洲字幕中文| 午夜精品久久久久久久99| 亚洲美女在线一区| 先锋资源在线视频| 在线日韩欧美| 欧美日韩亚洲在线| a在线免费观看| 日韩一区二区三| 九九视频免费观看| 成人av午夜影院| 男女超爽视频免费播放| 亚洲春色h网| 国产精品入口夜色视频大尺度| 手机在线观看毛片| 欧美日韩免费看| 亚洲精品成人av久久| 精品午夜久久福利影院| 欧美人与物videos另类| 九色成人搞黄网站| 美女av一区二区| 色婷婷av一区二区三区之e本道| 日韩美女视频一区| 中文字幕在线播放一区二区| 亚洲三级观看| 先锋影音一区二区三区| av资源中文在线| 曰本色欧美视频在线| 国产夫妻性生活视频| 精品国产成人在线| jizzjizz日本少妇| 成人一道本在线| 少妇人妻互换不带套| 综合在线一区| 欧美日韩在线一区二区三区| 国产精品麻豆| 欧美专区日韩视频| av在线下载| 亚洲人av在线影院| 99热这里只有精品在线观看| 欧美午夜影院在线视频| 国产51自产区| 美女视频免费一区| 欧美 国产 综合| 午夜精品毛片| 欧美日韩高清在线一区| 欧美成人ⅴideosxxxxx| 欧美成人在线网站| 国产69精品久久app免费版| 日韩欧美国产高清| 精品在线视频观看| 国产精品嫩草久久久久| 亚洲天堂资源在线| 国产一区二区美女诱惑| 人人爽人人av| 亚洲欧洲日本mm| 免费看黄色a级片| 精品久久91| 精品无码久久久久国产| 国产超碰精品| 7777精品视频| 青草视频在线免费直播| 中文字幕日韩高清| 九一国产在线| 日韩国产欧美精品在线 | 成人羞羞视频在线看网址| 国产精品国产精品| 精品国产鲁一鲁****| 国产精品日韩欧美综合| 一区一区三区| 国产91ⅴ在线精品免费观看| 青草视频在线免费直播| 九九热精品在线| 中文字幕伦理免费在线视频| 精品日本一线二线三线不卡| 中国一级免费毛片| 亚洲444eee在线观看| 懂色av懂色av粉嫩av| 91玉足脚交白嫩脚丫在线播放| 国产男女激情视频| 免费日韩av片| 精品一区二区中文字幕| 中文欧美日韩| 欧美成人一区二区在线观看| 国产综合激情| 久久99久久久久久| 亚洲午夜精品久久久久久app| 欧美一级日本a级v片| 九九免费精品视频在线观看| 亚洲自拍小视频免费观看| 国产成人免费视频网站视频社区 | 日本在线成人| 91久久久一线二线三线品牌| 国产美女视频一区二区| 91麻豆国产语对白在线观看| 国产日韩欧美中文在线| 97人人澡人人爽| 日韩中文在线播放| 国产精品直播网红| 亚洲爽爆av| wwwxx欧美| 天天久久夜夜| 日韩av免费电影| 欧美韩日一区| 无码毛片aaa在线| 黑人一区二区| 欧美性受xxxx黑人猛交88| 猛男gaygay欧美视频| 国产91精品入口17c| 丁香婷婷成人| 欧美日韩在线观看一区| 久久国产精品成人免费观看的软件| 久久久人人爽| 欧美亚洲高清| av影院在线播放| 在线亚洲成人| 91小视频网站| 日本视频免费一区| 又黄又爽又色的视频| 99久久精品99国产精品 | 国产成人精品亚洲777人妖 | 日韩国产在线一区| 日韩av系列| 日韩欧美一区二区在线观看 | 日本中文不卡| 亚洲国产不卡| 欧美成人一区二区在线观看| 蜜臀av性久久久久蜜臀av麻豆 | 波多野结衣视频网站| 在线亚洲一区观看| 国产ts变态重口人妖hd| 7777精品伊人久久久大香线蕉完整版| 91黑人精品一区二区三区| 欧美日韩色婷婷| 97免费观看视频| 91精品国产综合久久久久久久| 一级aaaa毛片| 欧美丰满美乳xxx高潮www| 人妻少妇精品无码专区久久| 中文字幕精品一区二区精品| 678在线观看视频| 成人午夜黄色影院| 亚洲v天堂v手机在线| 久久综合亚洲精品| 日本午夜精品一区二区三区电影 | 这里只有精品久久| 97在线视频免费观看完整版| 国产精品一区二区三区毛片淫片 | 67194成人在线观看| 欧美一区二区公司| 日韩视频中文字幕| jizz性欧美10| 国产精品久久久久久久久久久久 | 免费看裸体网站| 亚洲国产精品久久久久婷婷884| 国产一级在线观看视频| 亚洲v日本v欧美v久久精品| 中国一级特黄毛片| 欧美一区二区三区公司| av中文字幕一区二区三区| 97国产suv精品一区二区62| 自拍偷拍欧美日韩| 婷婷久久青草热一区二区| 国产色综合网| 99久久久无码国产精品性波多 | 久久爱www久久做| 亚洲天堂久久新| 欧美日韩国产页| 全部免费毛片在线播放一个| 不卡中文字幕av| 欧美sm一区| 国产精品久久久久久久久婷婷 | 91视频成人免费| 免费高清在线视频一区·| 亚洲激情视频小说| 色综合网色综合| 牛牛澡牛牛爽一区二区| 91精品国产91久久久久久不卡| 日韩免费小视频| 欧美精品v日韩精品v国产精品| 色中色综合网| 黄色永久免费网站| 日本一区二区免费在线观看视频| caoporn91| 色综合天天综合| 亚洲色图欧美视频| 欧美专区在线视频| 亚洲成人一品| 男人插女人下面免费视频| 国产丝袜美腿一区二区三区| 日韩av免费播放| 色一区av在线| 成人香蕉视频| 欧美一区二区视频在线| 视频在线观看一区| a级片在线观看视频| 亚洲成人激情综合网| 天天av天天翘| 奇米影视亚洲狠狠色| 国产一区二区精品久| 午夜精品久久久久久久99热影院| 91免费观看视频在线| 国产suv精品一区二区33| 国产一区二区成人| 四虎国产精品免费久久5151| 国产91av视频在线观看| 久久久亚洲一区| a级黄色免费视频| 欧美精品tushy高清| 亚洲91av| 欧美色欧美亚洲另类七区| 免费成人在线视频观看| 人妻久久一区二区| 亚洲国产精品国自产拍av秋霞| 亚洲wwwww| 看欧美日韩国产| 蜜桃av一区二区在线观看| 男的操女的网站| 亚洲精品日韩在线| 日韩午夜视频在线| 僵尸世界大战2 在线播放| 国产高清无密码一区二区三区| 色哟哟一一国产精品| 91久久精品日日躁夜夜躁欧美| 天堂网在线播放| 国产精品久久久久久久久粉嫩av | 中文字幕欧美精品在线 | 国产精品久久久久9999赢消| 日本熟妇人妻xxxxx| 亚洲欧美日韩久久| 日韩私人影院| 亚洲尤物视频网| 老色鬼久久亚洲一区二区| 亚洲熟女www一区二区三区| 亚洲欧美中文在线视频| 欧美日韩黄色| 欧美亚洲日本在线观看| 有坂深雪av一区二区精品| 黑人与亚洲人色ⅹvideos | 免费网站观看www在线观| 亚洲男人天堂网| 136国产福利精品导航网址应用| 欧美在线观看视频免费| 国产日韩欧美电影|