精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

清北聯合出品!一篇Survey整明白「Transformer+強化學習」的來龍去脈

人工智能 新聞
Transformer與強化學習結合的綜述!

Transformer模型自發布后,很快就成了自然語言處理和計算機視覺領域在有監督學習設置下的主流神經架構。

雖然Transformer的熱潮已經開始席卷強化學習領域,但由于RL本身的特性,例如需要進行獨特的特征、架構設計等,當前Transformer與強化學習的結合并不順利,其發展路線也缺乏相關論文進行貫穿性地總結。

最近來自清華大學、北京大學、騰訊的研究人員聯手發表了一篇關于Transformer與強化學習結合的調研論文,系統性地回顧了在強化學習中使用Transformer的動機和發展歷程。

圖片

論文鏈接:https://arxiv.org/pdf/2301.03044.pdf

文章中對現有的相關工作成果進行分類,并對每個子領域進行深入討論,最后還總結了該研究方向的未來前景。

Transformer配RL

強化學習(RL)為序列決策(sequential decision-making)提供了一個數學化的形式,可以讓模型自動獲得智能行為。

RL為基于學習的控制提供了一個通用框架,隨著深度神經網絡的引入,深度強化學習(DRL)的通用性在近年來也取得了巨大的進展,但樣本效率問題阻礙了DRL在現實世界中的廣泛應用。

為了解決這個問題,一個有效的機制是在DRL框架中引入inductive bias,其中比較重要的是函數近似器架構的選擇(the choice of function approximator architectures),例如DRL智能體的神經網絡的參數化。

然而,與監督學習(SL)中的架構設計相比,在DRL中選擇架構設計的問題仍然沒有得到充分的探討,大多數現有的關于RL架構的工作是由(半)監督學習社區的成功所激發的。

例如,處理DRL中基于圖像的高維輸入的常見做法是引入卷積神經網絡(CNN);處理部分可觀察性的另一種常見做法是引入遞歸神經網絡(RNN)。

近年來,Transformer架構在廣泛的SL任務中徹底改變了學習范式,并表現出比CNN和RNN更優越的性能,比如Transformer架構能夠對較長的依賴關系進行建模,并具有出色的可擴展性。

受SL成功啟發,行業內對在強化學習中應用Transformer的興趣激增,最早可以追溯到2018年的一篇論文,其中自注意機制被用于結構化狀態表示的關系推理。

之后,許多研究人員開始試圖將自注意力應用于表示學習,以提取實體之間的關系,從而可以更好地進行策略學習。

圖片

除了狀態表示學習外,先前的工作還用Transformer來捕捉多步驟的時間依賴性,以處理部分可觀察性問題。

最近,離線RL由于其利用離線大規模數據集的能力而受到關注,相關研究結果也表明,Transformer架構可以直接作為序列決策的模型,并可推廣到多個任務和領域。

這篇調研論文的目的是介紹Transformers in Reinforcement Learning領域(TransformRL)。

圖片

盡管Transformer已經被認為是目前大多數SL研究的基礎模型,但它在RL社區的探索仍然較少。事實上,與SL領域相比,在RL中使用Transformer作為函數近似器需要解決一些不同的問題:

1. RL智能體的訓練數據通常是當前策略的函數,這在Transformer學習的過程中會引起不平穩性(non-stationarity)。

2. 現有的RL算法通常對訓練過程中的設計選擇高度敏感,包括網絡架構和容量等。

3. 基于Transformer的架構經常受到高計算和內存成本的影響,也就是說訓練和推理起來既慢又貴。

比如在一些游戲中的人工智能案例中,樣本生成的效率在很大程度上影響了訓練性能,取決于RL策略網絡和價值網絡的計算成本。

TransformRL的未來

論文中簡要回顧了Transformers for RL的進展情況,其優勢主要包括:

1. Transformers可以作為RL中的一個powerful模塊,比如作為一個表示模塊或世界模型;

2. Transformer可以作為一個序列決策器;

3. Transformer可以提升跨任務和領域的泛化性能。

鑒于Transformer在更廣泛的人工智能社區都表現出強大的性能,研究人員認為將Transformer和RL結合起來是一個有前途的研究方向,下面是一些關于該方向的未來前景和開放性問題。

結合強化學習和(自)監督學習

追溯TransformRL的發展,可以發現其訓練方法同時涵蓋了RL和(自)監督學習。

當作為一個在傳統RL框架下訓練的表示模塊時,Transformer架構的優化通常是不穩定的。當使用Transformer通過序列建模來解決決策問題時,(自)監督學習范式可以消除deadly triad problem。

在(自)監督學習的框架下,策略的性能深受離線數據質量的約束,利用(exploitation)和探索(exploration)之間的明確權衡不復存在,因此在Transformer學習中結合RL和(自)監督學習時,可能會學到更好的策略。

一些工作已經嘗試了監督預訓練和RL參與的微調方案,但在相對固定的策略下,探索會受到限制,這也是有待解決的瓶頸問題之一。

另外,沿著這條路線,用于性能評估的任務也相對簡單,Transfomer是否可以將這種(自)監督學習擴展到更大的數據集、更復雜的環境和現實世界的應用也值得進一步探索。

此外,研究人員希望未來的工作能夠提供更多的理論和經驗見解,以確定在哪些條件下這種(自)監督學習有望表現良好。

圖片

通過Transformer連接在線和離線學習

踏入離線RL是TransformRL的一個里程碑,但實際上,利用Transformer來捕捉決策序列中的依賴關系并抽象出策略,主要是與所使用的相當多的離線數據的支持分不開的。

然而,對于一些決策任務來說,在實際應用中擺脫在線框架是不可行的。

一方面,在某些任務中獲得專家數據并不那么容易;另一方面,有些環境是開放式的(如Minecraft),這意味著策略必須不斷調整,以處理在線互動過程中未見的任務。

因此,研究人員認為把在線學習和離線學習連接在一起是必要的。

Decision Transformer之后的大多數研究進展都集中在離線學習框架上,一些工作試圖采用離線預訓練和在線微調的范式。然而,在線微調中的分布轉變仍然存在于離線RL算法中,研究人員期望通過對Decision Transformer進行一些特殊設計來解決這個問題。

此外,如何從頭開始訓練一個在線Decision Transformer是一個有趣的開放性問題。

為Decision-making問題量身定做的Transformer結構

目前Decision Transformer系列方法中的Transformer結構主要是vanilla Transformer,它最初是為文本序列設計的,可能具有一些不適合決策問題的性質。

例如,對軌跡序列采用vanilla的自注意力機制是否合適?決策序列中的不同元素或同一元素的不同部分是否需要在位置embedding中加以區分?

此外,由于在不同的Decision Transformer算法中,將軌跡表示為序列的變體有很多,如何從中選擇,仍缺乏系統的研究。

例如,在行業中部署此類算法時,如何選擇穩健的hindsight信息?

并且vanilla Transformer也是一個計算成本巨大的結構,這使得它在訓練和推理階段都很昂貴,而且內存占用率很高,也限制了它捕獲依賴關系的長度。

為了緩解這些問題,NLP中的一些工作改進了Transformer的結構,但類似的結構是否可以用于決策問題也值得探討。

用Transformer實現更多的通用智能體

論文中對通用智能體(generalist agents)Transformers的回顧已經顯示了Transformers作為一種通用策略的潛力。

事實上,Transformer的設計允許使用類似處理blocks的方式來處理多種模態(如圖像、視頻、文本和語音),并展示了對超大容量網絡和巨大數據集的出色可擴展性。

最近的工作也在訓練能夠執行多模態和跨領域任務的智能體上取得了重大進展。

不過,鑒于這些智能體是在大規模的數據集上進行訓練的,目前還不能確定它們是否只是記住了數據集,以及它們是否能進行有效的泛化。

因此,如何學習到一個能夠在沒有強假設(strong assumption)的情況下對未見過的任務進行泛化的智能體仍然是一個值得研究的問題。

此外,研究人員也很好奇,Transformer是否足夠強大到可以用來學習一個可用于不同任務和場景的通用世界模型。

RL for Transformers

雖然文章中已經討論了RL如何從Transformer模型中受益,但反過來說,用RL來提升Transformer訓練仍然是一個有趣的開放性問題,還沒有被很好地探索過。

可以看到,最近來自人類反饋的強化學習(RLHF)可以學習到一個獎勵模型,并使用RL算法對Transformer進行微調,以使語言模型與人類意圖相一致。

在未來,研究人員認為RL可以成為一個有用的工具,進一步完善Transformer在其他領域的表現。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-09-21 10:29:01

AI模型

2022-11-02 14:02:02

強化學習訓練

2020-07-10 08:03:35

DNS網絡ARPAne

2022-11-14 10:22:12

訓練強化學習

2023-02-10 13:19:50

2023-02-01 13:07:05

AI

2021-10-31 14:14:33

內存接口協議

2024-08-02 14:50:00

數據AI

2024-08-07 09:02:51

2021-09-10 16:31:56

人工智能機器學習技術

2024-12-09 08:45:00

模型AI

2023-04-06 08:37:24

2022-08-26 14:44:32

強化學習AI

2023-03-09 08:00:00

強化學習機器學習圍棋

2020-08-10 06:36:21

強化學習代碼深度學習

2023-02-10 09:43:51

架構開發

2022-07-27 07:45:53

二叉樹鏡像函數

2023-12-11 18:23:21

2024-03-27 18:22:58

Hadoop部件生態

2023-08-14 08:46:54

AI論文
點贊
收藏

51CTO技術棧公眾號

另类成人小视频在线| 欧美性生活一级片| 亚洲在线视频网站| 国产私拍一区| 亚洲免费视频二区| 欧美在线不卡| 亚洲人成电影网站色| aaa一级黄色片| 日韩激情电影免费看| 国产精品乱子久久久久| 高清视频一区二区三区| 波多野结衣高清视频| 一区二区三区在线电影| 亚洲乱码国产乱码精品精| 婷婷激情综合五月天| 三妻四妾的电影电视剧在线观看| 国产精品欧美极品| 精品无码久久久久久久动漫| 中文字幕日本人妻久久久免费| 欧美日韩p片| 在线视频亚洲欧美| 日韩av无码一区二区三区不卡 | 午夜精品国产精品大乳美女| 国产精品综合激情| 精品影片在线观看的网站| 日韩女优av电影| 日韩大片一区二区| 中文字幕影音在线| 午夜视频一区二区| 日韩视频 中文字幕| 1024免费在线视频| 久久嫩草精品久久久精品| 国产经典一区二区三区| 97人妻一区二区精品免费视频| 久久精品成人| 992tv成人免费影院| 欧美国产日韩综合| 在线看片不卡| 久久精品视频亚洲| 国产精品麻豆免费版现看视频| 免费久久久久久久久| 亚洲国产另类 国产精品国产免费| 五月六月丁香婷婷| 亚洲欧美一级| 欧美精品三级在线观看| 成人3d动漫一区二区三区| 欧美aaaaa性bbbbb小妇| 精品久久久视频| 日本男女交配视频| 大香伊人中文字幕精品| 亚洲综合成人在线视频| 91精品一区二区三区四区| 免费黄色网址在线观看| 国产精品麻豆视频| 中文字幕日韩一区二区三区不卡 | 欧美精品在线视频观看| 亚洲一级二级片| 在线电影一区二区| 欧美大片在线看免费观看| 欧产日产国产v| 狠狠干综合网| 8050国产精品久久久久久| 日本少妇在线观看| 久久成人国产| 国产精品视频导航| 91欧美日韩麻豆精品| 国模一区二区三区白浆| 亚洲www视频| 亚洲风情第一页| 波多野结衣在线一区| 精品一区二区三区日本| 久久久久国产精品嫩草影院| 国产日韩欧美精品在线| 在线丝袜欧美日韩制服| 欧美人与禽性xxxxx杂性| 亚洲444eee在线观看| 91传媒久久久| 久久91视频| 欧美一区二区在线免费播放| 性猛交╳xxx乱大交| 999在线精品| 亚洲人精品午夜在线观看| 又色又爽的视频| 欧美福利网址| 欧美重口另类videos人妖| 亚洲精品久久久久久久蜜桃| 美女精品一区二区| 国产精品久久国产精品| 九九在线视频| 一区二区三区四区高清精品免费观看 | 青娱乐精品在线| 中文字幕日韩一区二区三区| 成人h动漫精品一区二区下载| 日本亚洲天堂网| 91在线高清视频| 天天摸夜夜添狠狠添婷婷| 国产日韩精品视频一区| 久久免费视频2| 中文在线аv在线| 欧美一区二区私人影院日本| 一级少妇精品久久久久久久| 国产免费播放一区二区| 九九热最新视频//这里只有精品| 中文字字幕在线中文| 精品综合免费视频观看| 激情视频一区二区| 国产精品久久久久久福利| 亚洲国产精品久久久男人的天堂 | 欧美aa在线观看| 精品视频色一区| a天堂视频在线观看| 首页国产精品| 国产91免费看片| 亚洲欧美另类综合| 国产精品麻豆欧美日韩ww| xxxx18hd亚洲hd捆绑| 国产精品视频首页| 国产亚洲精品va在线观看| 久久综合色综合| 精品制服美女丁香| 清纯唯美一区二区三区| 俺来也官网欧美久久精品| 欧美日韩综合在线| 日本高清www| 亚洲精品男同| 成人午夜电影在线播放| 久久99精品久久| 91高清视频在线| 日韩成人av一区二区| 欧美激情精品久久久六区热门| 国产精品影片在线观看| 飘雪影院手机免费高清版在线观看| 一区二区三区精品视频| 亚洲 国产 图片| 日本黄色精品| 国产精品麻豆va在线播放| 少妇激情av一区二区| 亚洲成人精品影院| 一区二区三区四区影院| 中文字幕一区二区三区久久网站| 国产女同一区二区| 成人好色电影| 欧美视频一区在线| 在线视频第一页| 蜜桃av一区二区在线观看| 色一情一乱一伦一区二区三区 | 欧美性大战xxxxx久久久| 国产精品无码久久久久久| 亚洲麻豆一区| 久久一区二区三区欧美亚洲| 岛国av在线播放| 精品香蕉一区二区三区| 国产精品男女视频| 久久综合网色—综合色88| 噜噜噜久久亚洲精品国产品麻豆 | 亚洲精品一区av在线播放| 日本中文字幕网| www.日韩精品| 男人操女人免费软件| 亚洲va久久| 国产精品pans私拍| 在线观看h片| 91麻豆精品国产91| 欧美色图亚洲天堂| 成人午夜看片网址| 91免费视频网站在线观看| 亚瑟一区二区三区四区| 国产精品96久久久久久又黄又硬| 国产乱子伦三级在线播放| 欧美日韩免费一区二区三区视频| 国产麻豆视频在线观看| 国产精品一二三四五| cao在线观看| 同性恋视频一区| 日韩av电影手机在线观看| 自拍视频在线| 日韩欧美一级精品久久| 日韩 欧美 亚洲| 久久久久久久电影| 亚洲午夜精品一区| 黑丝一区二区三区| 欧美日韩免费高清| 天堂综合在线播放| 午夜精品理论片| 北条麻妃在线| 日韩精品一区二区三区蜜臀 | 久久美女性网| 亚洲一区二区四区| 国内视频在线精品| 国产精品第3页| 欧美xxxx做受欧美88bbw| 精品一区电影国产| 国产熟女一区二区三区五月婷| 亚洲综合成人网| 四虎永久免费在线观看| 国产精品影视天天线| 成年人视频网站免费观看| 国产精品99久久久久久动医院| 国产精品成人一区二区三区| 日本精品网站| 久久久亚洲国产| 色老头视频在线观看| 亚洲精品二三区| 国产精品日韩无码| 狠狠做深爱婷婷久久综合一区| 亚洲少妇xxx| 久久色在线视频| 国产调教打屁股xxxx网站| 日韩av中文在线观看| 日韩人妻无码精品久久久不卡| 精品国产午夜| 国产欧美精品一区二区三区| 久久精品黄色| 欧美一级高清免费| 国模私拍视频在线播放| 日韩在线视频导航| 视频福利在线| 亚洲第一页在线| 国产不卡av在线播放| 欧美三级日韩三级国产三级| 青青操免费在线视频| 亚洲欧美偷拍三级| 三级黄色片在线观看| 久久众筹精品私拍模特| 亚洲乱妇老熟女爽到高潮的片| 美女一区二区三区| 99免费视频观看| 国产一级久久| 国产一区二区在线视频播放| 欧美精品97| 黄色免费高清视频| 久久国产综合| 亚洲精品在线观看免费| 久久99影视| 久久精品国产一区二区三区日韩| 亚洲精品一区二区三区中文字幕| 成人午夜黄色影院| 久久免费资源| 国产日韩欧美在线播放| 欧美free嫩15| 国产成人亚洲综合91精品| 另类专区亚洲| 国产成人综合精品在线| 二区三区不卡| 国产成人avxxxxx在线看| 朝桐光一区二区| 国产精品久久久久av免费| 日韩av免费| 国产精品日韩欧美| 久久亚洲国产精品尤物| 国产噜噜噜噜噜久久久久久久久| 国产精品第一国产精品| 国产精品久久久999| 成人日韩av| 成人欧美一区二区三区在线湿哒哒 | 深田咏美中文字幕| 大胆亚洲人体视频| 国模无码视频一区| 91小视频免费看| 国产小视频自拍| 国产精品无人区| 男人av资源站| 伊人色综合久久天天人手人婷| 免费在线观看黄色av| 黄色成人av网| 无码人妻丰满熟妇精品| 欧美三级韩国三级日本三斤| 91资源在线视频| 91精品国产综合久久精品| 亚洲精品综合久久| 日韩精品在线观看一区| 成年人在线视频免费观看| 另类视频在线观看| 国产盗摄一区二区| 秋霞午夜一区二区| 免费视频观看成人| 国产精品嫩草在线观看| 天堂99x99es久久精品免费| 色姑娘综合av| 好看的日韩av电影| 毛葺葺老太做受视频| 激情五月激情综合网| 一级黄色电影片| 久久九九国产精品| 亚洲av鲁丝一区二区三区| 欧美日韩午夜视频在线观看| 中文字幕在线网站| 亚洲第一区中文字幕| 丁香婷婷在线观看| 超碰日本道色综合久久综合| 美女的胸无遮挡在线观看 | 都市激情久久| 日产精品久久久一区二区| 你懂的成人av| 粗暴91大变态调教| 国产成人在线观看| 神马久久久久久久久久久| 一区二区三区高清| 男操女视频网站| 精品国产伦一区二区三区观看体验 | 最新91在线视频| 日本h片在线| 国产精品视频久久久久| 久久男人av| 男人的天堂成人| 日日夜夜精品视频天天综合网| 亚洲911精品成人18网站| 欧美国产1区2区| 日韩精品久久久久久久| 在线综合视频播放| 九九九伊在人线综合| 97avcom| 欧美大片91| 亚洲日本精品国产第一区| 久久精品卡一| av漫画在线观看| 亚洲色欲色欲www| 中文字幕av免费观看| 亚洲男人天堂2023| sm久久捆绑调教精品一区| 亚洲曰本av电影| 国产精品97| 99re精彩视频| 国产欧美日韩久久| 韩国av中文字幕| 精品av久久707| 久久久123| 波多野结衣成人在线| 午夜片欧美伦| 日韩欧美理论片| 国产精品毛片大码女人| 正在播放木下凛凛xv99| 亚洲另类激情图| 伊人久久av| 免费在线观看91| 性色一区二区三区| 国产精品无码网站| 五月综合激情网| 天堂在线资源库| 97婷婷涩涩精品一区| 都市激情久久| 久草热视频在线观看| 99久免费精品视频在线观看| 精品无码久久久久久久久| 日韩欧美一二三| 怡红院av在线| 国产精品视频免费一区| 亚洲激情社区| 在线视频 日韩| 欧美视频中文在线看| 久久久久久女乱国产| 国产精品极品在线| 日韩一区自拍| 四川一级毛毛片| 亚洲午夜电影在线| 特黄视频在线观看| 日韩av手机在线| 色综合天天爱| a级大片免费看| 亚洲一区二区三区爽爽爽爽爽| 亚洲精品国产一区二| 91精品国产色综合久久不卡98| 日本一道高清一区二区三区| 91黄色小网站| 欧美国产禁国产网站cc| 国产麻豆免费视频| 午夜精品福利视频| 经典一区二区| 色婷婷激情视频| 亚洲二区在线视频| 韩国三级在线观看久| 91九色蝌蚪国产| 亚洲日韩成人| 欧美自拍偷拍网| 日韩一区国产二区欧美三区| heyzo一区| 亚洲国产精品综合| 国产成人精品综合在线观看| 五月天婷婷久久| 日韩在线www| 久久365资源| 在线观看免费黄网站| 一区二区三区产品免费精品久久75| 色视频精品视频在线观看| 国产精品视频1区| 欧美日韩四区| 扒开jk护士狂揉免费| 正在播放亚洲一区| 三级在线看中文字幕完整版| 亚洲欧美日韩综合一区| 国产91精品一区二区| 无码视频在线观看| 欧美激情视频在线免费观看 欧美视频免费一| 老牛国内精品亚洲成av人片| 欧美精品性生活| 欧美日韩国产区| 成人黄色网址| 视频一区二区精品| 国产成人欧美日韩在线电影| 黄色在线免费观看|