精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

強(qiáng)化學(xué)習(xí)中的Transformer發(fā)展到哪一步了?清華、北大等聯(lián)合發(fā)布TransformRL綜述

人工智能 新聞
受監(jiān)督學(xué)習(xí)的啟發(fā),人們對(duì)把 Transformer 用于強(qiáng)化學(xué)習(xí)產(chǎn)生了濃厚的興趣。

強(qiáng)化學(xué)習(xí)(RL)為順序決策提供了一種數(shù)學(xué)形式,深度強(qiáng)化學(xué)習(xí)(DRL)近年來也取得巨大進(jìn)展。然而,樣本效率問題阻礙了在現(xiàn)實(shí)世界中廣泛應(yīng)用深度強(qiáng)化學(xué)習(xí)方法。為了解決這個(gè)問題,一種有效的機(jī)制是在 DRL 框架中引入歸納偏置。

在深度強(qiáng)化學(xué)習(xí)中,函數(shù)逼近器是非常重要的。然而,與監(jiān)督學(xué)習(xí)(SL)中的架構(gòu)設(shè)計(jì)相比,DRL 中的架構(gòu)設(shè)計(jì)問題仍然很少被研究。大多數(shù)關(guān)于 RL 架構(gòu)的現(xiàn)有工作都是由監(jiān)督學(xué)習(xí) / 半監(jiān)督學(xué)習(xí)社區(qū)推動(dòng)的。例如,在 DRL 中處理基于高維圖像的輸入,常見的做法是引入卷積神經(jīng)網(wǎng)絡(luò)(CNN)[LeCun et al., 1998; Mnih et al., 2015];處理部分可觀測性(partial observability)圖像的常見做法則是引入遞歸神經(jīng)網(wǎng)絡(luò)(RNN) [Hochreiter and Schmidhuber, 1997; Hausknecht and Stone, 2015]。

近年來,Transformer 架構(gòu) [Vaswani et al., 2017] 展現(xiàn)出優(yōu)于 CNN 和 RNN 的性能,成為越來越多 SL 任務(wù)中的學(xué)習(xí)范式 [Devlin et al., 2018; Dosovitskiy et al., 2020; Dong et al., 2018]。Transformer 架構(gòu)支持對(duì)長程(long-range)依賴關(guān)系進(jìn)行建模,并具有優(yōu)異的可擴(kuò)展性 [Khan et al., 2022]。受 SL 成功的啟發(fā),人們對(duì)將 Transformer 應(yīng)用于強(qiáng)化學(xué)習(xí)產(chǎn)生了濃厚的興趣,希望將 Transformer 的優(yōu)勢(shì)應(yīng)用于 RL 領(lǐng)域。

Transformer 在 RL 中的使用可以追溯到 Zambaldi 等人 2018 年的一項(xiàng)研究,其中自注意力(self-attention)機(jī)制被用于結(jié)構(gòu)化狀態(tài)表征的關(guān)系推理。隨后,許多研究人員尋求將自注意力應(yīng)用于表征學(xué)習(xí),以提取實(shí)體之間的關(guān)系,從而更好地進(jìn)行策略學(xué)習(xí) [Vinyals et al., 2019; Baker et al., 2019]。

除了利用 Transformer 進(jìn)行表征學(xué)習(xí),之前的工作還使用 Transformer 捕獲多時(shí)序依賴,以處理部分可觀測性問題 [Parisotto et al., 2020; Parisotto and Salakhutdinov, 2021]。離線 RL [Levine et al., 2020] 因其使用離線大規(guī)模數(shù)據(jù)集的能力而受到關(guān)注。受離線 RL 的啟發(fā),最近的研究表明,Transformer 結(jié)構(gòu)可以直接作為順序決策的模型 [Chen et al., 2021; Janner et al., 2021] ,并推廣到多個(gè)任務(wù)和領(lǐng)域 [Lee et al., 2022; Carroll et al., 2022]。

實(shí)際上,在強(qiáng)化學(xué)習(xí)中使用 Transformer 做函數(shù)逼近器面臨一些特殊的挑戰(zhàn),包括:

  • 強(qiáng)化學(xué)習(xí)智能體(agent)的訓(xùn)練數(shù)據(jù)通常是當(dāng)前策略的函數(shù),這在學(xué)習(xí) Transformer 的時(shí)候會(huì)導(dǎo)致不平穩(wěn)性(non-stationarity);
  • 現(xiàn)有的 RL 算法通常對(duì)訓(xùn)練過程中的設(shè)計(jì)選擇高度敏感,包括模型架構(gòu)和模型容量 [Henderson et al., 2018];
  • 基于 Transformer 的架構(gòu)經(jīng)常受制于高性能計(jì)算和內(nèi)存成本,這使得 RL 學(xué)習(xí)過程中的訓(xùn)練和推理都很昂貴。

例如,在用于視頻游戲的 AI 中,樣本生成的效率(在很大程度上影響訓(xùn)練性能)取決于 RL 策略網(wǎng)絡(luò)和估值網(wǎng)絡(luò)(value network)的計(jì)算成本 [Ye et al., 2020a; Berner et al., 2019]。

為了更好地推動(dòng)強(qiáng)化學(xué)習(xí)領(lǐng)域發(fā)展,來自清華大學(xué)、北京大學(xué)、智源人工智能研究院和騰訊公司的研究者聯(lián)合發(fā)表了一篇關(guān)于強(qiáng)化學(xué)習(xí)中 Transformer(即 TransformRL)的綜述論文,歸納總結(jié)了當(dāng)前的已有方法和面臨的挑戰(zhàn),并討論了未來的發(fā)展方向,作者認(rèn)為 TransformRL 將在激發(fā)強(qiáng)化學(xué)習(xí)潛力方面發(fā)揮重要作用。

圖片

論文地址:https://arxiv.org/pdf/2301.03044.pdf

圖片

論文的總體結(jié)構(gòu)如下:

  • 第 2 章介紹了 RL 和 Transformer 的背景知識(shí),然后簡要介紹了這兩者是如何結(jié)合在一起的;
  • 第 3 章描述了 RL 中網(wǎng)絡(luò)架構(gòu)的演變,以及長期以來 RL 中阻礙廣泛探索 Transformer 架構(gòu)的挑戰(zhàn);
  • 第 4 章論文作者對(duì) RL 中的 Transformer 進(jìn)行了分類,并討論了目前具有代表性的方法;
  • 第 5 章總結(jié)并指出了未來潛在的研究方向。

核心內(nèi)容從論文第 3 章開始,下面我們來看一下論文的主要內(nèi)容。

RL 中的網(wǎng)絡(luò)架構(gòu)

在介紹 TransformRL 的分類方法之前,論文回顧了 RL 中網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)的早期進(jìn)展,并總結(jié)了其存在的挑戰(zhàn)。作者認(rèn)為 Transformer 是一種先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu),將有助于深度強(qiáng)化學(xué)習(xí)(DRL)的發(fā)展。

函數(shù)逼近器的架構(gòu)

自 Deep Q-Network [Mnih et al., 2015] 的開創(chuàng)性工作以來,人們?yōu)?DRL 智能體的網(wǎng)絡(luò)架構(gòu)做了許多努力。強(qiáng)化學(xué)習(xí)中網(wǎng)絡(luò)架構(gòu)的改進(jìn)主要分為兩類。 

一類是設(shè)計(jì)新的結(jié)構(gòu),結(jié)合 RL 歸納偏置來降低訓(xùn)練策略或價(jià)值函數(shù)的難度。例如 [Wang et al. 2016] 提出決斗(dueling)網(wǎng)絡(luò)架構(gòu),其中一個(gè)網(wǎng)絡(luò)用于狀態(tài)價(jià)值函數(shù),另一個(gè)用于狀態(tài)相關(guān)的行動(dòng)優(yōu)勢(shì)函數(shù)(action advantage function),這種架構(gòu)設(shè)計(jì)結(jié)合了歸納偏置。

另一類是研究常用的神經(jīng)網(wǎng)絡(luò)技術(shù)(如正則化、殘差連接(skip connection)、批歸一化)是否可以應(yīng)用于 RL。例如,[Ota et al. 2020] 發(fā)現(xiàn)在使用在線特征提取器增強(qiáng)狀態(tài)表征的同時(shí)增加輸入維度,會(huì)有助于提高 DRL 算法的性能和樣本效率。[Sinha et al. 2020] 為 DRL 智能體提出了一種深度密集架構(gòu),使用殘差連接進(jìn)行有效學(xué)習(xí),并使用歸納偏置來緩解數(shù)據(jù)處理不平等問題。[Ota et al. 2021] 使用 DenseNet [Huang et al., 2017] 和解耦表征學(xué)習(xí)來改善大型網(wǎng)絡(luò)的信息流和梯度。最近,由于 Transformer 的優(yōu)越性能,研究人員嘗試將 Transformer 架構(gòu)應(yīng)用于策略優(yōu)化算法,但發(fā)現(xiàn)普通的 Transformer 設(shè)計(jì)無法在 RL 任務(wù)中達(dá)到理想的性能 [Parisotto et al., 2020]。

面臨的挑戰(zhàn)

雖然過去幾年基于 Transformer 的架構(gòu)在 SL 領(lǐng)域取得了諸多進(jìn)展,但將 Transformer 應(yīng)用于 RL 并不簡單。實(shí)際上,這存在多個(gè)特有的挑戰(zhàn)。

從 RL 的角度看,許多研究指出現(xiàn)有的 RL 算法對(duì)深度神經(jīng)網(wǎng)絡(luò)的架構(gòu)非常敏感 [Henderson et al., 2018; Engstrom et al., 2019; Andrychowicz et al., 2020]。首先,RL 中數(shù)據(jù)收集和策略優(yōu)化之間的范式交替導(dǎo)致訓(xùn)練的不平穩(wěn)。其次,RL 算法通常對(duì)訓(xùn)練過程中的設(shè)計(jì)選擇高度敏感。[Emmons et al. 2021] 證明仔細(xì)選擇模型架構(gòu)和正則化對(duì)于 DRL 智能體的性能至關(guān)重要。

從 Transformer 的角度看,基于 Transformer 的架構(gòu)存在內(nèi)存占用大、延遲高的問題,這阻礙了它們的高效部署和推理。最近,許多研究圍繞原始 Transformer 架構(gòu)對(duì)計(jì)算和內(nèi)存效率進(jìn)行改進(jìn),但其中大部分工作都集中在 SL 領(lǐng)域。 

在 RL 領(lǐng)域,Parisotto 和 Salakhutdinov 提出把基于大容量 Transformer 的學(xué)習(xí)器模型轉(zhuǎn)變?yōu)樾∪萘康?actor 模型,以避免 Transformer 的高推理延遲。然而,這種方法在內(nèi)存和計(jì)算方面仍然很昂貴。目前,RL 社區(qū)還未充分探索高效或輕量級(jí)的 Transformer。

強(qiáng)化學(xué)習(xí)中的 Transformer

盡管 Transformer 已成為大多數(shù)監(jiān)督學(xué)習(xí)研究的基礎(chǔ)模型,但由于前述挑戰(zhàn),它在 RL 社區(qū)長期未得到廣泛應(yīng)用。實(shí)際上,TransformRL 的大多數(shù)早期嘗試都將 Transformer 用于狀態(tài)表征學(xué)習(xí)或提供記憶信息(memory information),同時(shí)仍然將標(biāo)準(zhǔn) RL 算法用于智能體學(xué)習(xí),例如時(shí)序差分學(xué)習(xí)和策略優(yōu)化。

因此,盡管引入 Transformer 作為函數(shù)逼近器,這些方法仍然受到傳統(tǒng) RL 框架的挑戰(zhàn)。直到最近,離線 RL 使得從大規(guī)模離線數(shù)據(jù)中學(xué)習(xí)最優(yōu)策略成為可能。受離線 RL 的啟發(fā),最近的工作進(jìn)一步將 RL 問題視作固定經(jīng)驗(yàn)的條件序列建模問題。這樣做有助于繞過傳統(tǒng) RL 中的 bootstrapping error 挑戰(zhàn),從而使 Transformer 架構(gòu)釋放其強(qiáng)大的順序建模能力。

論文回顧了 TransformRL 的進(jìn)展,并按分類展示現(xiàn)有方法。作者將現(xiàn)有方法分為四類:表征學(xué)習(xí)、模型學(xué)習(xí)、順序決策和通用智能體。圖 2 顯示相關(guān)分類的概覽。

圖片

用于表征學(xué)習(xí)的 Transformer

考慮到 RL 任務(wù)的順序性,使用 Transformer 編碼器模塊是合理的。事實(shí)上,RL 任務(wù)中的各種序列都需要處理,例如局部 per-timestep 序列(多實(shí)體序列 [Vinyals et al., 2019; Baker et al., 2019]、多智能體序列 [Wen et al., 2022])、時(shí)序序列([Parisotto et al., 2020; Banino et al., 2021])等。

局部 per-timestep 序列的編碼器

這種方法早期顯著的成功體現(xiàn)在使用 Transformer 處理智能體觀察到的可變數(shù)量實(shí)體的復(fù)雜信息。[Zambaldi et al. 2018a] 首先提出用多頭點(diǎn)積注意力捕獲結(jié)構(gòu)化觀察的關(guān)系推理,隨后 AlphaStar [Vinyals et al., 2019] 實(shí)現(xiàn)了在具有挑戰(zhàn)性的多智能體環(huán)境(星際爭霸 II)中處理多實(shí)體觀察。在這種稱為實(shí)體 Transformer 的機(jī)制中,觀察結(jié)果以如下形式編碼:

圖片

其中 e_i 代表智能體對(duì)實(shí)體 i 的觀察,要么直接從整個(gè)觀察中切片,要么由實(shí)體 tokenizer 給出。

一些后續(xù)工作豐富了實(shí)體 Transformer 機(jī)制。[Hu et al. 2020] 提出了一種兼容的解耦策略,以明確地將行動(dòng)與各種實(shí)體相關(guān)聯(lián),并利用注意力機(jī)制進(jìn)行策略解釋。為了實(shí)現(xiàn)具有挑戰(zhàn)性的 one-shot 視覺模仿,Dasari 和 Gupta [2021] 使用 Transformer 來學(xué)習(xí)專注于特定任務(wù)元素的表征。

類似于分散在觀察中的實(shí)體,一些研究利用 Transformer 來處理其他局部的 per-timestep 序列。Tang 和 Ha [2021] 利用 Transformer 的注意力機(jī)制來處理感知序列并構(gòu)建一個(gè)置換不變性輸入策略。在不兼容的多任務(wù) RL 中,[Kurin et al., 2020] 提出使用 Transformer 來提取形態(tài)域知識(shí) 。

時(shí)序編碼器

同時(shí),用 Transformer 處理時(shí)序序列也是合理的。時(shí)序編碼器被用作存儲(chǔ)架構(gòu),

圖片

其中 o_t 表示智能體在時(shí)間 t 的觀察,Emb_0:t 表示從初始觀察到當(dāng)前觀察的歷史觀察的嵌入。

在早期的工作中,[Mishra et al. 2018] 無法使用 vanilla Transformer 處理時(shí)序序列,并且發(fā)現(xiàn)它在某些特定任務(wù)中甚至比隨機(jī)策略表現(xiàn)更差。Gated Transformer-XL (GTrXL) [Parisotto et al., 2020] 是第一個(gè)使用 Transformer 作為存儲(chǔ)架構(gòu)來處理軌跡的有效方案。GTrXL 通過 Identity Map Reordering 修改 Transformer-XL 架構(gòu) [Dai et al., 2019],以提供從時(shí)序輸入到 Transformer 輸出的「skip」路徑,這可能有助于形成從一開始就穩(wěn)定的訓(xùn)練過程。[Loynd et al. 2020] 提出了一種用于長期依賴的記憶向量快捷機(jī)制,[Irie et al. 2021] 將線性 Transformer 與快速加權(quán)編程器(Fast Weight Programmer)相結(jié)合以獲得更好的性能。[Melo 2022] 提出使用自注意力機(jī)制來模擬基于存儲(chǔ)的元 RL 的存儲(chǔ)恢復(fù)。

雖然隨著存儲(chǔ)的增長和參數(shù)規(guī)模的擴(kuò)大,Transformer 的性能優(yōu)于 LSTM/RNN,但它在 RL 上的數(shù)據(jù)效率不佳。后續(xù)工作利用一些輔助自監(jiān)督任務(wù)來促進(jìn)學(xué)習(xí) [Banino et al., 2021] 或使用預(yù)訓(xùn)練的 Transformer 架構(gòu)作為時(shí)序編碼器 [Li et al., 2022; Fan et al.,2022]。

用于模型學(xué)習(xí)的 Transformer

除了使用 Transformer 作為序列嵌入的編碼器,Transformer 架構(gòu)還在基于模型的算法中作為環(huán)境模型的 backbone。與以單步觀察和行動(dòng)為條件的預(yù)測不同,Transformer 使環(huán)境模型能夠預(yù)測以一定長度的歷史信息為條件的變換(transition)。

實(shí)際上,Dreamer 及其后續(xù)算法的成功 [Hafner et al., 2020, 2021; Seo et al., 2022] 已經(jīng)在一些部分可觀察的環(huán)境或需要記憶機(jī)制的任務(wù)中證明了基于歷史信息的世界模型的優(yōu)點(diǎn)。以歷史信息為條件的世界模型由一個(gè)捕獲抽象信息的觀察編碼器和一個(gè)學(xué)習(xí)潛在空間中變換的變換模型組成。

已有研究使用 Transformer 架構(gòu)而不是 RNN 來構(gòu)建基于歷史的世界模型。[Chen et al. 2022] 用基于 Transformer 的模型 TSSM(Transformer State-Space Model)替換 Dreamer 中基于 RNN 的循環(huán)狀態(tài)空間模型(RSSM)。IRIS(Imagination with autoRegression over an Inner Speech)[Micheli et al., 2022] 通過對(duì) rollout 經(jīng)驗(yàn)的自回歸學(xué)習(xí)來學(xué)習(xí)基于 Transformer 的世界模型,而沒有像 Dreamer 那樣的 KL 平衡,并在 Atari [Bellemare et al., 2013] 上取得了很好的結(jié)果。

此外,還有研究嘗試用基于 Transformer 的世界模型做規(guī)劃。[Ozair et al. 2021] 驗(yàn)證了使用 Transformer 變換模型進(jìn)行規(guī)劃來完成隨機(jī)任務(wù)的有效性。[Sun et al. 2022] 提出了一種以目標(biāo)為條件的 Transformer 變換模型,該模型在程序任務(wù)的視覺基礎(chǔ)規(guī)劃中是很有效的。

RNN 和 Transformer 都適合學(xué)習(xí)基于歷史信息的世界模型。然而,[Micheli et al. 2022] 發(fā)現(xiàn)與 Dreamer 相比,Transformer 架構(gòu)是數(shù)據(jù)效率更高的世界模型。TSSM 的實(shí)驗(yàn)結(jié)果表明,Transformer 架構(gòu)在需要長期記憶的任務(wù)中表現(xiàn)出眾。

用于順序決策的 Transformer

除了融入到傳統(tǒng) RL 算法中作為高性能架構(gòu)以外,Transformer 還可以直接用作順序決策模型。這是因?yàn)榭梢园?RL 看作一個(gè)條件序列建模問題:生成可以產(chǎn)生高回報(bào)的行動(dòng)序列。

圖片

鑒于 Transformer 在序列預(yù)測方面的優(yōu)異準(zhǔn)確性,Bootstrapped Transformer (BooT) [Wang et al., 2022] 提出通過 bootstrap Transformer 來生成數(shù)據(jù),同時(shí)優(yōu)化數(shù)據(jù)以進(jìn)行順序決策。Bootstrapping Transformer 用于數(shù)據(jù)增強(qiáng)可以擴(kuò)大離線數(shù)據(jù)集的數(shù)量和覆蓋范圍,從而提升性能。具體地說,BooT 比較了不同的數(shù)據(jù)生成方案和 bootstraping 方案,以分析 BooT 如何助力策略學(xué)習(xí)。結(jié)果表明,它可以生成與底層 MDP 一致的數(shù)據(jù),而無需額外的約束。

用于通用智能體的 Transformer

Decision Transformer 已經(jīng)在離線數(shù)據(jù)的各種任務(wù)中發(fā)揮巨大作用,有研究者開始考慮 Transformer 是否可以像 CV 和 NLP 領(lǐng)域那樣讓通用智能體解決多個(gè)不同任務(wù)或問題。

泛化到多個(gè)任務(wù)

一些研究者借鑒了 CV 和 NLP 中對(duì)大規(guī)模數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練的思想,并嘗試從大規(guī)模多任務(wù)數(shù)據(jù)集中抽象出通用策略。Multi-Game Decision Transformer (MGDT) [Lee et al., 2022] 是 DT 的一個(gè)變體,該模型在由專家和非專家數(shù)據(jù)組成的多樣化數(shù)據(jù)集上學(xué)習(xí) DT,并使用一組參數(shù)在多個(gè) Atari 游戲上實(shí)現(xiàn)接近人類的水平。為了在非專家級(jí)數(shù)據(jù)集上獲得專家級(jí)的表現(xiàn),MGDT 設(shè)計(jì)了專家行動(dòng)推理機(jī)制,從 return-to-go 的先驗(yàn)分布計(jì)算專家級(jí)的 return-to-go 后驗(yàn)分布并根據(jù)貝葉斯公式預(yù)設(shè)專家級(jí) return-to-go 的概率。

同樣,Switch Trajectory Transformer (SwitchTT) [Lin et al., 2022] 是 TT 的多任務(wù)擴(kuò)展,利用稀疏激活模型,將 FFN 層替換為混合專家層,以實(shí)現(xiàn)高效的多任務(wù)離線學(xué)習(xí)。此外,SwitchTT 還采用分布式 trajectory 值估計(jì)器對(duì)值估計(jì)的不確定性進(jìn)行建模。依靠這兩個(gè)增強(qiáng)功能,SwitchTT 在性能和訓(xùn)練速度方面都比 TT 提升了很多。MGDT 和 SwitchTT 利用從多個(gè)任務(wù)和各種性能級(jí)策略中收集的經(jīng)驗(yàn)來學(xué)習(xí)通用策略。然而,構(gòu)建大規(guī)模的多任務(wù)數(shù)據(jù)集并非易事。 

與 CV 和 NLP 中的大規(guī)模數(shù)據(jù)集通常使用來自互聯(lián)網(wǎng)的海量數(shù)據(jù)和簡單的人工標(biāo)記不同,RL 中的順序決策數(shù)據(jù)總是缺少行動(dòng)信息,并且不易標(biāo)記。因此,[Baker et al. 2022] 提出了一種半監(jiān)督方案,利用沒有行動(dòng)信息的大規(guī)模在線數(shù)據(jù),學(xué)習(xí)基于 Transformer 的逆向動(dòng)態(tài)模型(IDM)。該模型利用對(duì)過去和未來的觀察來預(yù)測行動(dòng)信息,能夠標(biāo)記大量在線視頻數(shù)據(jù)。IDM 是在包含手動(dòng)標(biāo)記行動(dòng)的小型數(shù)據(jù)集上學(xué)習(xí)的,并且足夠準(zhǔn)確。

NLP 的許多已有工作證明了 prompt 在適應(yīng)新任務(wù)方面的有效性,一些工作利用基于 DT 方法的 prompt 技術(shù)來實(shí)現(xiàn)快速適應(yīng)。Prompt-based Decision Transformer (Prompt-DT) [Xu et al., 2022] 從少樣本(few-shot)演示數(shù)據(jù)集中采樣一系列變換作為 prompt,并將少樣本策略泛化到離線元 RL 任務(wù)上。[Reed et al. 2022] 進(jìn)一步利用基于 prompt 的架構(gòu),通過在涵蓋自然語言、圖像、時(shí)間決策和多模態(tài)數(shù)據(jù)的超大規(guī)模數(shù)據(jù)集上進(jìn)行自回歸序列建模來學(xué)習(xí)通用智能體(Gato)。Gato 能夠執(zhí)行來自不同領(lǐng)域的一系列任務(wù),包括文本生成和決策。

 [Laskin et al. 2022] 提出了算法蒸餾 (AD),以在單任務(wù) RL 算法學(xué)習(xí)過程的 across-episode 序列上訓(xùn)練 Transformer。因此,即使在新任務(wù)中,Transformer 也可以學(xué)會(huì)在自回歸生成過程中逐步改進(jìn)其策略。

泛化到更廣泛領(lǐng)域

除了泛化到多個(gè)任務(wù),Transformer 還是一個(gè)強(qiáng)大的「通用」模型,可以用于與順序決策相關(guān)的一系列領(lǐng)域。受 NLP 中掩碼語言建模(masked language modeling)[Devlin et al., 2018] 技術(shù)的啟發(fā),[Carroll et al. 2022] 提出了 Uni [MASK],它將各種常用研究領(lǐng)域統(tǒng)一為 mask 推理問題,包括行為克隆、離線 RL、GCRL、過去 / 未來推理和動(dòng)態(tài)預(yù)測。Uni [MASK] 比較了不同的 mask 方案,包括任務(wù)特定 mask、隨機(jī) mask 和微調(diào)變體。結(jié)果表明,用隨機(jī) mask 訓(xùn)練的單個(gè) Transformer 可以解決任意推理任務(wù)。

此外,[Reid et al. 2022] 發(fā)現(xiàn),使用在語言數(shù)據(jù)集或包含語言模態(tài)的多模態(tài)數(shù)據(jù)集上預(yù)訓(xùn)練的 Transformer 對(duì) DT 進(jìn)行微調(diào)是有益的。這表明,即使是來自非 RL 領(lǐng)域的知識(shí)也可以通過 transformer 進(jìn)行 RL 訓(xùn)練。

感興趣的讀者可以閱讀論文原文,了解更多研究細(xì)節(jié)。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-09-10 15:10:00

智能強(qiáng)化學(xué)習(xí)框架

2018-09-12 15:25:33

2025-05-08 09:10:30

2024-11-13 15:00:00

模型數(shù)據(jù)

2025-03-19 09:10:00

2023-04-27 09:41:47

2024-10-08 15:20:00

AI安全

2025-04-01 09:00:00

模型訓(xùn)練開源

2023-01-16 14:55:00

強(qiáng)化學(xué)習(xí)

2025-09-01 14:16:40

AI開源模型

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2025-11-07 08:51:41

2024-10-12 17:14:12

2022-06-29 14:49:43

計(jì)算機(jī)視覺智能

2022-08-26 14:44:32

強(qiáng)化學(xué)習(xí)AI

2024-01-01 22:14:04

2018-11-14 10:28:38

AI數(shù)據(jù)科技

2020-02-21 15:33:44

人工智能機(jī)器學(xué)習(xí)技術(shù)

2025-07-01 09:07:00

2025-10-11 04:00:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

日韩片欧美片| 国产又黄又猛又粗又爽| 四虎成人精品一区二区免费网站| 国产精品美女久久久久久久久久久| 国产美女精彩久久| 中文字幕影音先锋| 外国成人在线视频| 欧美喷潮久久久xxxxx| 无颜之月在线看| 三级av在线播放| 精品一二线国产| 538国产精品一区二区在线| 黄色av免费播放| 97品白浆高清久久久久久| 色av一区二区| 国产视色精品亚洲一区二区| 成人在线观看高清| 欧美亚洲国产日韩| 欧美一区二区视频在线观看2022| 黄色www网站| 老司机福利在线视频| 91玉足脚交白嫩脚丫在线播放| 欧美精品在线网站| 日本成人免费视频| 国产精品专区免费| 亚洲欧美aⅴ...| 日本一区免费| 免费激情视频网站| 激情五月激情综合网| 热久久这里只有| 久久久久香蕉视频| 久久美女精品| 亚洲人成免费电影| 屁屁影院国产第一页| 精品亚洲a∨一区二区三区18| 日韩欧美在线免费观看| www污在线观看| 国精产品一区| 国产精品少妇自拍| 日本视频一区二区不卡| 亚洲 欧美 激情 另类| 成人综合在线观看| 444亚洲人体| 99re只有精品| 国产在线视视频有精品| 国产精品日本精品| 九九热最新地址| 日本一区二区免费高清| 亚洲天堂日韩电影| 亚洲午夜福利在线观看| 少妇精品导航| 亚洲精品小视频在线观看| 久久久高清视频| jizz国产精品| 337p日本欧洲亚洲大胆色噜噜| 亚洲av无码成人精品区| free性欧美16hd| 亚洲精品视频在线看| 国产大尺度在线观看| 欧美日韩视频在线播放| 国产精品久久免费看| 亚洲精品一区二区三区蜜桃久| 国产69久久| 国产日韩综合av| 亚洲国产欧美不卡在线观看| 国产亚洲依依| 中文字幕中文字幕一区| 三年中文高清在线观看第6集 | 成人在线网站| 欧美影视一区二区三区| 天天视频天天爽| 亚洲小说区图片区都市| 依依成人精品视频| 欧美视频免费看欧美视频| 看黄在线观看| 亚洲欧洲美洲综合色网| 日本不卡一区二区三区四区| h视频在线免费观看| 亚洲影院久久精品| 免费黄色日本网站| 国产成人福利夜色影视| 在线不卡免费欧美| 精品无码人妻少妇久久久久久| 久久久久久毛片免费看 | 国产一区欧美二区三区| 国产欧美一级片| 大桥未久av一区二区三区中文| 精品日韩电影| 亚洲视频一区二区三区四区| 国产一区二区三区国产| 精品国产乱码久久久久| h视频网站在线观看| 亚洲欧美另类图片小说| 国产精品50p| 欧美aaaaaaa| 精品久久久久久久久国产字幕| 手机看片福利盒子久久| 欧美一区一区| 亚洲欧美国产视频| 日韩a级片在线观看| 亚洲自拍另类| 亚洲最大av在线| 欧美新色视频| 一区二区三区日韩精品视频| 99热成人精品热久久66| 日韩一区二区三区精品| 亚洲天堂免费视频| 精品爆乳一区二区三区无码av| 玖玖玖国产精品| 99九九视频| 成年人在线观看| 亚洲五月六月丁香激情| 国模私拍视频在线观看| 亚洲性视频大全| 欧美日韩国产999| 国产乡下妇女三片| 日韩国产成人精品| www久久99| 秋霞午夜在线观看| 日本黄色一区二区| 超碰97在线资源站| 午夜精品婷婷| 国产精品视频网| 五月婷婷在线播放| 一区二区三区免费观看| 污视频网站观看| 欧美猛男同性videos| 亚洲午夜激情免费视频| 国产污视频在线观看| 久久国内精品自在自线400部| 国产成人亚洲综合91精品| 亚洲国产综合一区| 日韩一区日韩二区| 在线免费视频一区| 九九热线有精品视频99| 91豆花精品一区| 日本视频网站在线观看| 成人午夜av影视| av久久久久久| 第四色日韩影片| 欧美性xxxxx| 亚洲视频 中文字幕| 91精品秘密在线观看| 国产免费一区二区三区香蕉精| 女人天堂在线| 一本色道**综合亚洲精品蜜桃冫 | 综合激情网...| 久久av在线播放| 国产精品羞羞答答在线| 国产精品乱人伦| 五月天中文字幕在线| 久久综合成人| 91美女片黄在线观看游戏| 色多多视频在线观看| 欧美疯狂性受xxxxx喷水图片| 免费在线观看污| 丝袜美腿成人在线| 日本一区二区三区免费看| 亚洲成人人体| 尤物九九久久国产精品的分类| 久久亚洲精品石原莉奈| 国产清纯白嫩初高生在线观看91| 黄色片在线免费| 日韩成人综合| 91精品视频免费观看| 2024最新电影在线免费观看| 日韩欧美一二区| 动漫精品一区一码二码三码四码| 北条麻妃国产九九精品视频| 欧美激情视频一区二区三区| 桃色av一区二区| 亚洲欧美日韩高清| 中文字幕在线观看欧美| 日韩美女精品在线| 中国特级黄色片| 亚洲欧美成人综合| 日韩电影大全在线观看| 999精品嫩草久久久久久99| 久久999免费视频| 无码精品人妻一区二区三区影院| 色噜噜狠狠一区二区三区果冻| 婷婷国产成人精品视频| 校园激情久久| 涩涩日韩在线| 国产va免费精品观看精品| 午夜精品三级视频福利| 黄色av网站在线免费观看| 5858s免费视频成人| 美女洗澡无遮挡| 红桃视频国产一区| 成人精品久久久| wwww在线观看免费视频| 国产亚洲欧美一区| www三级免费| 色成人在线视频| 久久精品一区二区三| 国产午夜一区二区三区| 免费国偷自产拍精品视频| 中日韩男男gay无套| 一区二区91美女张开腿让人桶| 国产调教精品| 欧美成人免费观看| 欧美91精品久久久久国产性生爱| 91.麻豆视频| 欧美精品韩国精品| 亚洲三级久久久| 熟女俱乐部一区二区视频在线| 国产在线一区二区| 波多野结衣天堂| 亚洲三级国产| 国产卡一卡二在线| 国产日韩视频在线| 国产精品青青草| 免费一级欧美在线大片| 国产精品久久久久久久久久久久久| 日韩另类在线| 日韩在线视频导航| 你懂的好爽在线观看| 精品成人私密视频| 国产色视频在线| 欧美色视频在线观看| 毛片毛片女人毛片毛片| 亚洲一区二区3| 91久久久久久久久久久久久久| 久久久久国色av免费看影院| 91精品国产三级| 久久99精品国产麻豆婷婷| 北条麻妃在线一区| 国产精品久久久亚洲一区| 免费国产一区| 韩国成人在线| 欧洲成人免费aa| 日本黄色免费在线| 久久久久久久久久久国产| av免费在线网站| 久久视频国产精品免费视频在线| 尤物视频在线免费观看| 这里只有精品久久| 国产成人a人亚洲精品无码| 欧美三级资源在线| www.久久视频| 欧美在线免费观看亚洲| 欧美超碰在线观看| 一本到不卡免费一区二区| 国产午夜在线播放| 欧美日韩国产精品一区二区不卡中文| 久久久精品国产sm调教| 亚洲最新在线观看| 欧美日韩人妻精品一区二区三区| 亚洲视频一二三| 免费在线观看h片| 亚洲日本一区二区三区| 国产在线免费av| 国产精品久久久久久户外露出| 国精产品视频一二二区| 国产精品久久久久久久蜜臀| 色撸撸在线视频| 国产精品不卡视频| 亚洲天堂黄色片| 一区二区欧美精品| 日韩成人在线免费视频| 偷拍日韩校园综合在线| 91在线视频在线观看| 91成人免费网站| 国产又粗又猛又爽又黄91| 91精品国产一区二区人妖| 亚洲奶汁xxxx哺乳期| 亚洲黄页网在线观看| 黄色片在线看| 久久精品视频99| 欧洲黄色一区| 日本精品视频在线播放| av成人免费看| 91久久大香伊蕉在人线| 欧美丝袜足交| 亚洲国产成人不卡| 欧美涩涩网站| 日韩精品视频久久| 久久成人18免费观看| 日本女人性视频| 91网站在线观看视频| 91动漫免费网站| 亚洲午夜激情网站| 日本一区二区三区久久| 日韩一区二区在线观看视频| 天堂av电影在线观看| 日韩中文在线不卡| aa级大片免费在线观看| 国产精欧美一区二区三区| 成人激情久久| 欧美乱偷一区二区三区在线| 欧美第一精品| 亚洲熟妇国产熟妇肥婆| 蜜臀va亚洲va欧美va天堂| 中文字幕人妻一区| 国产日产欧美一区| 久久网中文字幕| 欧美日韩一级黄| 天天操天天射天天| 久久激情视频久久| 免费成人动漫| 国产精品成人一区二区三区| 欧洲精品99毛片免费高清观看| 久久精品日韩| 综合在线视频| 97公开免费视频| 国产精品资源网| 免费在线观看成年人视频| 中文字幕av一区二区三区高| 国产一级视频在线观看| 欧美日韩国产精品自在自线| 亚洲 另类 春色 国产| 久久69精品久久久久久久电影好 | av电影在线网| 97成人在线视频| 国产精品一区二区美女视频免费看 | 一区二区三区 在线观看视| 国产盗摄在线视频网站| 成人免费自拍视频| 欧美自拍偷拍| 午夜精品电影在线观看| 亚洲国产第一| 18禁一区二区三区| **网站欧美大片在线观看| 久久精品视频5| 精品在线观看国产| 国产美女福利在线观看| 亚洲一区二区三| 99精品综合| 亚州精品一二三区| 国产亚洲欧美日韩在线一区| 精品久久免费视频| 精品国产乱码久久久久久图片 | 动漫av免费观看| 91在线看国产| 青青草成人av| 亚洲国产女人aaa毛片在线| 国产丝袜在线播放| 国产精品免费视频一区二区| 欧美在线播放| 日本美女视频网站| 亚洲夂夂婷婷色拍ww47| 国产高潮流白浆喷水视频| 大胆欧美人体视频| 亚洲成人偷拍| 福利在线一区二区| 国产999精品久久久久久绿帽| 欧美黑人欧美精品刺激| 亚洲成a人v欧美综合天堂下载| 俄罗斯嫩小性bbwbbw| 久久久亚洲影院| 六月丁香久久丫| 欧美 日本 亚洲| 久久你懂得1024| 久久久999久久久| 日韩中文字幕精品| 精品国产一区二| youjizz.com在线观看| 成人激情小说乱人伦| 五月天婷婷久久| 亚洲网址你懂得| 精品乱码一区二区三区四区| 国产亚洲二区| 亚洲一区国产| 免费黄色片网站| 欧美精品三级在线观看| 在线观看三级视频| 国产精品一区在线观看| 久久国产精品久久久久久电车| 色一情一交一乱一区二区三区| 欧美性三三影院| av超碰免费在线| 精品久久久久久中文字幕动漫| 久久久久网站| 二区三区四区视频| 欧美精品一区二区在线播放| 欧美1级2级| 黄色影视在线观看| gogo大胆日本视频一区| 最近中文在线观看| 欧美夫妻性生活xx| 你微笑时很美电视剧整集高清不卡| 中文字幕天天干| 亚洲综合男人的天堂| 免费黄色在线视频网站| 亚洲一区二区三区视频| 在线一区免费观看| 三级影片在线观看| 亚洲国产精品网站| 永久免费观看精品视频| 成年人视频观看| 国产精品久久久久aaaa樱花| 亚洲精品一区二区三区区别| 日本欧美爱爱爱| 欧美精品黄色| 丁香激情五月少妇| 亚洲国产福利在线| 婷婷精品久久久久久久久久不卡| 欧美精品自拍视频| 国产精品成人网|