強(qiáng)化學(xué)習(xí)中的Transformer發(fā)展到哪一步了？清華、北大等聯(lián)合發(fā)布TransformRL綜述

作者：機(jī)器之心 2023-02-10 13:19:50

受監(jiān)督學(xué)習(xí)的啟發(fā)，人們對(duì)把 Transformer 用于強(qiáng)化學(xué)習(xí)產(chǎn)生了濃厚的興趣。

強(qiáng)化學(xué)習(xí)（RL）為順序決策提供了一種數(shù)學(xué)形式，深度強(qiáng)化學(xué)習(xí)（DRL）近年來也取得巨大進(jìn)展。然而，樣本效率問題阻礙了在現(xiàn)實(shí)世界中廣泛應(yīng)用深度強(qiáng)化學(xué)習(xí)方法。為了解決這個(gè)問題，一種有效的機(jī)制是在 DRL 框架中引入歸納偏置。

在深度強(qiáng)化學(xué)習(xí)中，函數(shù)逼近器是非常重要的。然而，與監(jiān)督學(xué)習(xí)（SL）中的架構(gòu)設(shè)計(jì)相比，DRL 中的架構(gòu)設(shè)計(jì)問題仍然很少被研究。大多數(shù)關(guān)于 RL 架構(gòu)的現(xiàn)有工作都是由監(jiān)督學(xué)習(xí) / 半監(jiān)督學(xué)習(xí)社區(qū)推動(dòng)的。例如，在 DRL 中處理基于高維圖像的輸入，常見的做法是引入卷積神經(jīng)網(wǎng)絡(luò)（CNN）[LeCun et al., 1998; Mnih et al., 2015]；處理部分可觀測性（partial observability）圖像的常見做法則是引入遞歸神經(jīng)網(wǎng)絡(luò)（RNN） [Hochreiter and Schmidhuber, 1997; Hausknecht and Stone, 2015]。

近年來，Transformer 架構(gòu) [Vaswani et al., 2017] 展現(xiàn)出優(yōu)于 CNN 和 RNN 的性能，成為越來越多 SL 任務(wù)中的學(xué)習(xí)范式 [Devlin et al., 2018; Dosovitskiy et al., 2020; Dong et al., 2018]。Transformer 架構(gòu)支持對(duì)長程（long-range）依賴關(guān)系進(jìn)行建模，并具有優(yōu)異的可擴(kuò)展性 [Khan et al., 2022]。受 SL 成功的啟發(fā)，人們對(duì)將 Transformer 應(yīng)用于強(qiáng)化學(xué)習(xí)產(chǎn)生了濃厚的興趣，希望將 Transformer 的優(yōu)勢(shì)應(yīng)用于 RL 領(lǐng)域。

Transformer 在 RL 中的使用可以追溯到 Zambaldi 等人 2018 年的一項(xiàng)研究，其中自注意力（self-attention）機(jī)制被用于結(jié)構(gòu)化狀態(tài)表征的關(guān)系推理。隨后，許多研究人員尋求將自注意力應(yīng)用于表征學(xué)習(xí)，以提取實(shí)體之間的關(guān)系，從而更好地進(jìn)行策略學(xué)習(xí) [Vinyals et al., 2019; Baker et al., 2019]。

除了利用 Transformer 進(jìn)行表征學(xué)習(xí)，之前的工作還使用 Transformer 捕獲多時(shí)序依賴，以處理部分可觀測性問題 [Parisotto et al., 2020; Parisotto and Salakhutdinov, 2021]。離線 RL [Levine et al., 2020] 因其使用離線大規(guī)模數(shù)據(jù)集的能力而受到關(guān)注。受離線 RL 的啟發(fā)，最近的研究表明，Transformer 結(jié)構(gòu)可以直接作為順序決策的模型 [Chen et al., 2021; Janner et al., 2021] ，并推廣到多個(gè)任務(wù)和領(lǐng)域 [Lee et al., 2022; Carroll et al., 2022]。

實(shí)際上，在強(qiáng)化學(xué)習(xí)中使用 Transformer 做函數(shù)逼近器面臨一些特殊的挑戰(zhàn)，包括：

強(qiáng)化學(xué)習(xí)智能體（agent）的訓(xùn)練數(shù)據(jù)通常是當(dāng)前策略的函數(shù)，這在學(xué)習(xí) Transformer 的時(shí)候會(huì)導(dǎo)致不平穩(wěn)性（non-stationarity）；
現(xiàn)有的 RL 算法通常對(duì)訓(xùn)練過程中的設(shè)計(jì)選擇高度敏感，包括模型架構(gòu)和模型容量 [Henderson et al., 2018]；
基于 Transformer 的架構(gòu)經(jīng)常受制于高性能計(jì)算和內(nèi)存成本，這使得 RL 學(xué)習(xí)過程中的訓(xùn)練和推理都很昂貴。

例如，在用于視頻游戲的 AI 中，樣本生成的效率（在很大程度上影響訓(xùn)練性能）取決于 RL 策略網(wǎng)絡(luò)和估值網(wǎng)絡(luò)（value network）的計(jì)算成本 [Ye et al., 2020a; Berner et al., 2019]。

為了更好地推動(dòng)強(qiáng)化學(xué)習(xí)領(lǐng)域發(fā)展，來自清華大學(xué)、北京大學(xué)、智源人工智能研究院和騰訊公司的研究者聯(lián)合發(fā)表了一篇關(guān)于強(qiáng)化學(xué)習(xí)中 Transformer（即 TransformRL）的綜述論文，歸納總結(jié)了當(dāng)前的已有方法和面臨的挑戰(zhàn)，并討論了未來的發(fā)展方向，作者認(rèn)為 TransformRL 將在激發(fā)強(qiáng)化學(xué)習(xí)潛力方面發(fā)揮重要作用。

論文地址：https://arxiv.org/pdf/2301.03044.pdf

論文的總體結(jié)構(gòu)如下：

第 2 章介紹了 RL 和 Transformer 的背景知識(shí)，然后簡要介紹了這兩者是如何結(jié)合在一起的；
第 3 章描述了 RL 中網(wǎng)絡(luò)架構(gòu)的演變，以及長期以來 RL 中阻礙廣泛探索 Transformer 架構(gòu)的挑戰(zhàn)；
第 4 章論文作者對(duì) RL 中的 Transformer 進(jìn)行了分類，并討論了目前具有代表性的方法；
第 5 章總結(jié)并指出了未來潛在的研究方向。

核心內(nèi)容從論文第 3 章開始，下面我們來看一下論文的主要內(nèi)容。

RL 中的網(wǎng)絡(luò)架構(gòu)

在介紹 TransformRL 的分類方法之前，論文回顧了 RL 中網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)的早期進(jìn)展，并總結(jié)了其存在的挑戰(zhàn)。作者認(rèn)為 Transformer 是一種先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu)，將有助于深度強(qiáng)化學(xué)習(xí)（DRL）的發(fā)展。

函數(shù)逼近器的架構(gòu)

自 Deep Q-Network [Mnih et al., 2015] 的開創(chuàng)性工作以來，人們?yōu)?DRL 智能體的網(wǎng)絡(luò)架構(gòu)做了許多努力。強(qiáng)化學(xué)習(xí)中網(wǎng)絡(luò)架構(gòu)的改進(jìn)主要分為兩類。

一類是設(shè)計(jì)新的結(jié)構(gòu)，結(jié)合 RL 歸納偏置來降低訓(xùn)練策略或價(jià)值函數(shù)的難度。例如 [Wang et al. 2016] 提出決斗（dueling）網(wǎng)絡(luò)架構(gòu)，其中一個(gè)網(wǎng)絡(luò)用于狀態(tài)價(jià)值函數(shù)，另一個(gè)用于狀態(tài)相關(guān)的行動(dòng)優(yōu)勢(shì)函數(shù)（action advantage function），這種架構(gòu)設(shè)計(jì)結(jié)合了歸納偏置。

另一類是研究常用的神經(jīng)網(wǎng)絡(luò)技術(shù)（如正則化、殘差連接（skip connection）、批歸一化）是否可以應(yīng)用于 RL。例如，[Ota et al. 2020] 發(fā)現(xiàn)在使用在線特征提取器增強(qiáng)狀態(tài)表征的同時(shí)增加輸入維度，會(huì)有助于提高 DRL 算法的性能和樣本效率。[Sinha et al. 2020] 為 DRL 智能體提出了一種深度密集架構(gòu)，使用殘差連接進(jìn)行有效學(xué)習(xí)，并使用歸納偏置來緩解數(shù)據(jù)處理不平等問題。[Ota et al. 2021] 使用 DenseNet [Huang et al., 2017] 和解耦表征學(xué)習(xí)來改善大型網(wǎng)絡(luò)的信息流和梯度。最近，由于 Transformer 的優(yōu)越性能，研究人員嘗試將 Transformer 架構(gòu)應(yīng)用于策略優(yōu)化算法，但發(fā)現(xiàn)普通的 Transformer 設(shè)計(jì)無法在 RL 任務(wù)中達(dá)到理想的性能 [Parisotto et al., 2020]。

面臨的挑戰(zhàn)

雖然過去幾年基于 Transformer 的架構(gòu)在 SL 領(lǐng)域取得了諸多進(jìn)展，但將 Transformer 應(yīng)用于 RL 并不簡單。實(shí)際上，這存在多個(gè)特有的挑戰(zhàn)。

從 RL 的角度看，許多研究指出現(xiàn)有的 RL 算法對(duì)深度神經(jīng)網(wǎng)絡(luò)的架構(gòu)非常敏感 [Henderson et al., 2018; Engstrom et al., 2019; Andrychowicz et al., 2020]。首先，RL 中數(shù)據(jù)收集和策略優(yōu)化之間的范式交替導(dǎo)致訓(xùn)練的不平穩(wěn)。其次，RL 算法通常對(duì)訓(xùn)練過程中的設(shè)計(jì)選擇高度敏感。[Emmons et al. 2021] 證明仔細(xì)選擇模型架構(gòu)和正則化對(duì)于 DRL 智能體的性能至關(guān)重要。

從 Transformer 的角度看，基于 Transformer 的架構(gòu)存在內(nèi)存占用大、延遲高的問題，這阻礙了它們的高效部署和推理。最近，許多研究圍繞原始 Transformer 架構(gòu)對(duì)計(jì)算和內(nèi)存效率進(jìn)行改進(jìn)，但其中大部分工作都集中在 SL 領(lǐng)域。

在 RL 領(lǐng)域，Parisotto 和 Salakhutdinov 提出把基于大容量 Transformer 的學(xué)習(xí)器模型轉(zhuǎn)變?yōu)樾∪萘康?actor 模型，以避免 Transformer 的高推理延遲。然而，這種方法在內(nèi)存和計(jì)算方面仍然很昂貴。目前，RL 社區(qū)還未充分探索高效或輕量級(jí)的 Transformer。

強(qiáng)化學(xué)習(xí)中的 Transformer

盡管 Transformer 已成為大多數(shù)監(jiān)督學(xué)習(xí)研究的基礎(chǔ)模型，但由于前述挑戰(zhàn)，它在 RL 社區(qū)長期未得到廣泛應(yīng)用。實(shí)際上，TransformRL 的大多數(shù)早期嘗試都將 Transformer 用于狀態(tài)表征學(xué)習(xí)或提供記憶信息（memory information），同時(shí)仍然將標(biāo)準(zhǔn) RL 算法用于智能體學(xué)習(xí)，例如時(shí)序差分學(xué)習(xí)和策略優(yōu)化。

因此，盡管引入 Transformer 作為函數(shù)逼近器，這些方法仍然受到傳統(tǒng) RL 框架的挑戰(zhàn)。直到最近，離線 RL 使得從大規(guī)模離線數(shù)據(jù)中學(xué)習(xí)最優(yōu)策略成為可能。受離線 RL 的啟發(fā)，最近的工作進(jìn)一步將 RL 問題視作固定經(jīng)驗(yàn)的條件序列建模問題。這樣做有助于繞過傳統(tǒng) RL 中的 bootstrapping error 挑戰(zhàn)，從而使 Transformer 架構(gòu)釋放其強(qiáng)大的順序建模能力。

論文回顧了 TransformRL 的進(jìn)展，并按分類展示現(xiàn)有方法。作者將現(xiàn)有方法分為四類：表征學(xué)習(xí)、模型學(xué)習(xí)、順序決策和通用智能體。圖 2 顯示相關(guān)分類的概覽。

用于表征學(xué)習(xí)的 Transformer

考慮到 RL 任務(wù)的順序性，使用 Transformer 編碼器模塊是合理的。事實(shí)上，RL 任務(wù)中的各種序列都需要處理，例如局部 per-timestep 序列（多實(shí)體序列 [Vinyals et al., 2019; Baker et al., 2019]、多智能體序列 [Wen et al., 2022]）、時(shí)序序列（[Parisotto et al., 2020; Banino et al., 2021]）等。

局部 per-timestep 序列的編碼器

這種方法早期顯著的成功體現(xiàn)在使用 Transformer 處理智能體觀察到的可變數(shù)量實(shí)體的復(fù)雜信息。[Zambaldi et al. 2018a] 首先提出用多頭點(diǎn)積注意力捕獲結(jié)構(gòu)化觀察的關(guān)系推理，隨后 AlphaStar [Vinyals et al., 2019] 實(shí)現(xiàn)了在具有挑戰(zhàn)性的多智能體環(huán)境（星際爭霸 II）中處理多實(shí)體觀察。在這種稱為實(shí)體 Transformer 的機(jī)制中，觀察結(jié)果以如下形式編碼：

其中 e_i 代表智能體對(duì)實(shí)體 i 的觀察，要么直接從整個(gè)觀察中切片，要么由實(shí)體 tokenizer 給出。

一些后續(xù)工作豐富了實(shí)體 Transformer 機(jī)制。[Hu et al. 2020] 提出了一種兼容的解耦策略，以明確地將行動(dòng)與各種實(shí)體相關(guān)聯(lián)，并利用注意力機(jī)制進(jìn)行策略解釋。為了實(shí)現(xiàn)具有挑戰(zhàn)性的 one-shot 視覺模仿，Dasari 和 Gupta [2021] 使用 Transformer 來學(xué)習(xí)專注于特定任務(wù)元素的表征。

類似于分散在觀察中的實(shí)體，一些研究利用 Transformer 來處理其他局部的 per-timestep 序列。Tang 和 Ha [2021] 利用 Transformer 的注意力機(jī)制來處理感知序列并構(gòu)建一個(gè)置換不變性輸入策略。在不兼容的多任務(wù) RL 中，[Kurin et al., 2020] 提出使用 Transformer 來提取形態(tài)域知識(shí) 。

時(shí)序編碼器

同時(shí)，用 Transformer 處理時(shí)序序列也是合理的。時(shí)序編碼器被用作存儲(chǔ)架構(gòu)，

其中 o_t 表示智能體在時(shí)間 t 的觀察，Emb_0:t 表示從初始觀察到當(dāng)前觀察的歷史觀察的嵌入。

在早期的工作中，[Mishra et al. 2018] 無法使用 vanilla Transformer 處理時(shí)序序列，并且發(fā)現(xiàn)它在某些特定任務(wù)中甚至比隨機(jī)策略表現(xiàn)更差。Gated Transformer-XL (GTrXL) [Parisotto et al., 2020] 是第一個(gè)使用 Transformer 作為存儲(chǔ)架構(gòu)來處理軌跡的有效方案。GTrXL 通過 Identity Map Reordering 修改 Transformer-XL 架構(gòu) [Dai et al., 2019]，以提供從時(shí)序輸入到 Transformer 輸出的「skip」路徑，這可能有助于形成從一開始就穩(wěn)定的訓(xùn)練過程。[Loynd et al. 2020] 提出了一種用于長期依賴的記憶向量快捷機(jī)制，[Irie et al. 2021] 將線性 Transformer 與快速加權(quán)編程器（Fast Weight Programmer）相結(jié)合以獲得更好的性能。[Melo 2022] 提出使用自注意力機(jī)制來模擬基于存儲(chǔ)的元 RL 的存儲(chǔ)恢復(fù)。

雖然隨著存儲(chǔ)的增長和參數(shù)規(guī)模的擴(kuò)大，Transformer 的性能優(yōu)于 LSTM/RNN，但它在 RL 上的數(shù)據(jù)效率不佳。后續(xù)工作利用一些輔助自監(jiān)督任務(wù)來促進(jìn)學(xué)習(xí) [Banino et al., 2021] 或使用預(yù)訓(xùn)練的 Transformer 架構(gòu)作為時(shí)序編碼器 [Li et al., 2022; Fan et al.，2022]。

用于模型學(xué)習(xí)的 Transformer

除了使用 Transformer 作為序列嵌入的編碼器，Transformer 架構(gòu)還在基于模型的算法中作為環(huán)境模型的 backbone。與以單步觀察和行動(dòng)為條件的預(yù)測不同，Transformer 使環(huán)境模型能夠預(yù)測以一定長度的歷史信息為條件的變換（transition）。

實(shí)際上，Dreamer 及其后續(xù)算法的成功 [Hafner et al., 2020, 2021; Seo et al., 2022] 已經(jīng)在一些部分可觀察的環(huán)境或需要記憶機(jī)制的任務(wù)中證明了基于歷史信息的世界模型的優(yōu)點(diǎn)。以歷史信息為條件的世界模型由一個(gè)捕獲抽象信息的觀察編碼器和一個(gè)學(xué)習(xí)潛在空間中變換的變換模型組成。

已有研究使用 Transformer 架構(gòu)而不是 RNN 來構(gòu)建基于歷史的世界模型。[Chen et al. 2022] 用基于 Transformer 的模型 TSSM（Transformer State-Space Model）替換 Dreamer 中基于 RNN 的循環(huán)狀態(tài)空間模型（RSSM）。IRIS（Imagination with autoRegression over an Inner Speech）[Micheli et al., 2022] 通過對(duì) rollout 經(jīng)驗(yàn)的自回歸學(xué)習(xí)來學(xué)習(xí)基于 Transformer 的世界模型，而沒有像 Dreamer 那樣的 KL 平衡，并在 Atari [Bellemare et al., 2013] 上取得了很好的結(jié)果。

此外，還有研究嘗試用基于 Transformer 的世界模型做規(guī)劃。[Ozair et al. 2021] 驗(yàn)證了使用 Transformer 變換模型進(jìn)行規(guī)劃來完成隨機(jī)任務(wù)的有效性。[Sun et al. 2022] 提出了一種以目標(biāo)為條件的 Transformer 變換模型，該模型在程序任務(wù)的視覺基礎(chǔ)規(guī)劃中是很有效的。

RNN 和 Transformer 都適合學(xué)習(xí)基于歷史信息的世界模型。然而，[Micheli et al. 2022] 發(fā)現(xiàn)與 Dreamer 相比，Transformer 架構(gòu)是數(shù)據(jù)效率更高的世界模型。TSSM 的實(shí)驗(yàn)結(jié)果表明，Transformer 架構(gòu)在需要長期記憶的任務(wù)中表現(xiàn)出眾。

用于順序決策的 Transformer

除了融入到傳統(tǒng) RL 算法中作為高性能架構(gòu)以外，Transformer 還可以直接用作順序決策模型。這是因?yàn)榭梢园?RL 看作一個(gè)條件序列建模問題：生成可以產(chǎn)生高回報(bào)的行動(dòng)序列。

鑒于 Transformer 在序列預(yù)測方面的優(yōu)異準(zhǔn)確性，Bootstrapped Transformer (BooT) [Wang et al., 2022] 提出通過 bootstrap Transformer 來生成數(shù)據(jù)，同時(shí)優(yōu)化數(shù)據(jù)以進(jìn)行順序決策。Bootstrapping Transformer 用于數(shù)據(jù)增強(qiáng)可以擴(kuò)大離線數(shù)據(jù)集的數(shù)量和覆蓋范圍，從而提升性能。具體地說，BooT 比較了不同的數(shù)據(jù)生成方案和 bootstraping 方案，以分析 BooT 如何助力策略學(xué)習(xí)。結(jié)果表明，它可以生成與底層 MDP 一致的數(shù)據(jù)，而無需額外的約束。

用于通用智能體的 Transformer

Decision Transformer 已經(jīng)在離線數(shù)據(jù)的各種任務(wù)中發(fā)揮巨大作用，有研究者開始考慮 Transformer 是否可以像 CV 和 NLP 領(lǐng)域那樣讓通用智能體解決多個(gè)不同任務(wù)或問題。

泛化到多個(gè)任務(wù)

一些研究者借鑒了 CV 和 NLP 中對(duì)大規(guī)模數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練的思想，并嘗試從大規(guī)模多任務(wù)數(shù)據(jù)集中抽象出通用策略。Multi-Game Decision Transformer (MGDT) [Lee et al., 2022] 是 DT 的一個(gè)變體，該模型在由專家和非專家數(shù)據(jù)組成的多樣化數(shù)據(jù)集上學(xué)習(xí) DT，并使用一組參數(shù)在多個(gè) Atari 游戲上實(shí)現(xiàn)接近人類的水平。為了在非專家級(jí)數(shù)據(jù)集上獲得專家級(jí)的表現(xiàn)，MGDT 設(shè)計(jì)了專家行動(dòng)推理機(jī)制，從 return-to-go 的先驗(yàn)分布計(jì)算專家級(jí)的 return-to-go 后驗(yàn)分布并根據(jù)貝葉斯公式預(yù)設(shè)專家級(jí) return-to-go 的概率。

同樣，Switch Trajectory Transformer (SwitchTT) [Lin et al., 2022] 是 TT 的多任務(wù)擴(kuò)展，利用稀疏激活模型，將 FFN 層替換為混合專家層，以實(shí)現(xiàn)高效的多任務(wù)離線學(xué)習(xí)。此外，SwitchTT 還采用分布式 trajectory 值估計(jì)器對(duì)值估計(jì)的不確定性進(jìn)行建模。依靠這兩個(gè)增強(qiáng)功能，SwitchTT 在性能和訓(xùn)練速度方面都比 TT 提升了很多。MGDT 和 SwitchTT 利用從多個(gè)任務(wù)和各種性能級(jí)策略中收集的經(jīng)驗(yàn)來學(xué)習(xí)通用策略。然而，構(gòu)建大規(guī)模的多任務(wù)數(shù)據(jù)集并非易事。

與 CV 和 NLP 中的大規(guī)模數(shù)據(jù)集通常使用來自互聯(lián)網(wǎng)的海量數(shù)據(jù)和簡單的人工標(biāo)記不同，RL 中的順序決策數(shù)據(jù)總是缺少行動(dòng)信息，并且不易標(biāo)記。因此，[Baker et al. 2022] 提出了一種半監(jiān)督方案，利用沒有行動(dòng)信息的大規(guī)模在線數(shù)據(jù)，學(xué)習(xí)基于 Transformer 的逆向動(dòng)態(tài)模型（IDM）。該模型利用對(duì)過去和未來的觀察來預(yù)測行動(dòng)信息，能夠標(biāo)記大量在線視頻數(shù)據(jù)。IDM 是在包含手動(dòng)標(biāo)記行動(dòng)的小型數(shù)據(jù)集上學(xué)習(xí)的，并且足夠準(zhǔn)確。

NLP 的許多已有工作證明了 prompt 在適應(yīng)新任務(wù)方面的有效性，一些工作利用基于 DT 方法的 prompt 技術(shù)來實(shí)現(xiàn)快速適應(yīng)。Prompt-based Decision Transformer (Prompt-DT) [Xu et al., 2022] 從少樣本（few-shot）演示數(shù)據(jù)集中采樣一系列變換作為 prompt，并將少樣本策略泛化到離線元 RL 任務(wù)上。[Reed et al. 2022] 進(jìn)一步利用基于 prompt 的架構(gòu)，通過在涵蓋自然語言、圖像、時(shí)間決策和多模態(tài)數(shù)據(jù)的超大規(guī)模數(shù)據(jù)集上進(jìn)行自回歸序列建模來學(xué)習(xí)通用智能體（Gato）。Gato 能夠執(zhí)行來自不同領(lǐng)域的一系列任務(wù)，包括文本生成和決策。

[Laskin et al. 2022] 提出了算法蒸餾 (AD)，以在單任務(wù) RL 算法學(xué)習(xí)過程的 across-episode 序列上訓(xùn)練 Transformer。因此，即使在新任務(wù)中，Transformer 也可以學(xué)會(huì)在自回歸生成過程中逐步改進(jìn)其策略。

泛化到更廣泛領(lǐng)域

除了泛化到多個(gè)任務(wù)，Transformer 還是一個(gè)強(qiáng)大的「通用」模型，可以用于與順序決策相關(guān)的一系列領(lǐng)域。受 NLP 中掩碼語言建模（masked language modeling）[Devlin et al., 2018] 技術(shù)的啟發(fā)，[Carroll et al. 2022] 提出了 Uni [MASK]，它將各種常用研究領(lǐng)域統(tǒng)一為 mask 推理問題，包括行為克隆、離線 RL、GCRL、過去 / 未來推理和動(dòng)態(tài)預(yù)測。Uni [MASK] 比較了不同的 mask 方案，包括任務(wù)特定 mask、隨機(jī) mask 和微調(diào)變體。結(jié)果表明，用隨機(jī) mask 訓(xùn)練的單個(gè) Transformer 可以解決任意推理任務(wù)。

此外，[Reid et al. 2022] 發(fā)現(xiàn)，使用在語言數(shù)據(jù)集或包含語言模態(tài)的多模態(tài)數(shù)據(jù)集上預(yù)訓(xùn)練的 Transformer 對(duì) DT 進(jìn)行微調(diào)是有益的。這表明，即使是來自非 RL 領(lǐng)域的知識(shí)也可以通過 transformer 進(jìn)行 RL 訓(xùn)練。

感興趣的讀者可以閱讀論文原文，了解更多研究細(xì)節(jié)。

責(zé)任編輯：張燕妮來源：機(jī)器之心

強(qiáng)化學(xué)習(xí)AI