精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

星際爭霸II協(xié)作對抗基準超越SOTA,新型Transformer架構解決多智能體強化學習問題

人工智能 新聞
這項工作又讓我們回到那個老生常談的問題:Transformer 真的是萬能的嗎?

多智能體強化學習 (MARL) 是一個具有挑戰(zhàn)性的問題,它不僅需要識別每個智能體的策略改進方向,而且還需要將單個智能體的策略更新聯(lián)合起來,以提高整體性能。最近,這一問題得到初步解決,有研究人員引入了集中訓練分散執(zhí)行 (CTDE) 的方法,使智能體在訓練階段可以訪問全局信息。然而,這些方法無法涵蓋多智能體交互的全部復雜性。

事實上,其中一些方法還被證明是失敗的。為了解決這個問題,有人提出多智能體優(yōu)勢分解定理。在此基礎上,HATRPO 和 HAPPO 算法被推導出來。然而,這些方法也存在局限性,這些方法仍然依賴于精心設計的最大化目標。

近年來,序列模型(SM)在自然語言處理(NLP)領域取得了實質(zhì)性進展。如 GPT 系列、BERT 在廣泛的下游任務上表現(xiàn)出色,并且在小樣本泛化任務上取得了較強的性能。

由于序列模型與語言的序列特性自然契合,因此可用于語言任務,但是序列方法不僅限于 NLP 任務,而是一種廣泛適用的通用基礎模型。例如,在計算機視覺 (CV) 中,可以將圖像分割成子圖并將它們按序列排列,就好像它們是 NLP 任務中的 token 一樣 。近期比較出名的模型 Flamingo、DALL-E 、 GATO 等都有序列方法的影子。

隨著 Transformer 等網(wǎng)絡架構的出現(xiàn),序列建模技術也引起了 RL 社區(qū)的極大關注,這促進了一系列基于 Transformer 架構的離線 RL 開發(fā)。這些方法在解決一些最基本的 RL 訓練問題方面顯示出了巨大的潛力。

盡管這些方法取得了顯著的成功,但沒有一種方法被設計用來建模多智能體系統(tǒng)中最困難 (也是 MARL 獨有的) 的方面——智能體之間的交互。事實上,如果簡單地賦予所有智能體一個 Transformer 策略,并對其進行單獨訓練,這仍然不能保證能提高 MARL 聯(lián)合性能。因此,雖然有大量強大的序列模型可用,但 MARL 并沒有真正利用序列模型性能優(yōu)勢。

如何用序列模型解決 MARL 問題?來自上海交通大學、Digital Brain Lab、牛津大學等的研究者提出一種新型多智能體 Transformer(MAT,Multi-Agent Transformer)架構,該架構可以有效地將協(xié)作 MARL 問題轉(zhuǎn)化為序列模型問題,其任務是將智能體的觀測序列映射到智能體的最優(yōu)動作序列。

本文的目標是在 MARL 和 SM 之間建立橋梁,以便為 MARL 釋放現(xiàn)代序列模型的建模能力。MAT 的核心是編碼器 - 解碼器架構,它利用多智能體優(yōu)勢分解定理,將聯(lián)合策略搜索問題轉(zhuǎn)化為序列決策過程,這樣多智能體問題就會表現(xiàn)出線性時間復雜度,最重要的是,這樣做可以保證 MAT 單調(diào)性能提升。與 Decision Transformer 等先前技術需要預先收集的離線數(shù)據(jù)不同,MAT 以在線策略方式通過來自環(huán)境的在線試驗和錯誤進行訓練。

圖片


  • 論文地址:https://arxiv.org/pdf/2205.14953.pdf
  • 項目主頁:https://sites.google.com/view/multi-agent-transformer

為了驗證 MAT,研究者在 StarCraftII、Multi-Agent MuJoCo、Dexterous Hands Manipulation 和 Google Research Football 基準上進行了廣泛的實驗。結(jié)果表明,與 MAPPO 和 HAPPO 等強基線相比,MAT 具有更好的性能和數(shù)據(jù)效率。此外,該研究還證明了無論智能體的數(shù)量如何變化,MAT 在沒見過的任務上表現(xiàn)較好,可是說是一個優(yōu)秀的小樣本學習者。

背景知識

在本節(jié)中,研究者首先介紹了協(xié)作 MARL 問題公式和多智能體優(yōu)勢分解定理,這是本文的基石。然后,他們回顧了現(xiàn)有的與 MAT 相關的 MARL 方法,最后引出了 Transformer。

圖片

傳統(tǒng)多智能體學習范式(左)和多智能體序列決策范式(右)的對比。

問題公式

協(xié)作 MARL 問題通常由離散的部分可觀察馬爾可夫決策過程(Dec-POMDPs)圖片來建模。

多智能體優(yōu)勢分解定理

智能體通過 Q_π(o, a)和 V_π(o)來評估行動和觀察的值,定義如下。

圖片

?定理 1(多智能體優(yōu)勢分解):令 i_1:n 為智能體的排列。如下公式始終成立,無需進一步假設。

圖片

?重要的是,定理 1 提供了一種用于指導如何選擇漸進式改進行動的直覺。

現(xiàn)有 MARL 方法

研究者總結(jié)了目前兩種 SOTA MARL 算法,它們都構建在近端策略優(yōu)化(Proximal Policy Optimization, PPO)之上。PPO 是一種以簡潔性和性能穩(wěn)定性聞名的 RL 方法。

多智能體近端策略優(yōu)化(MAPPO)是首個將 PPO 應用于 MARL 中的最直接方法。

圖片

?異構智能體近端策略優(yōu)化(HAPPO)是目前的 SOTA 算法之一,它可以充分利用定理 (1) 以實現(xiàn)具有單調(diào)提升保證的多智能體信任域?qū)W習。

圖片

Transformer 模型?

基于定理 (1) 中描述的序列屬性以及 HAPPO 背后的原理,現(xiàn)在可以直觀地考慮用 Transformer 模型來實現(xiàn)多智能體信任域?qū)W習。通過將一個智能體團隊視作一個序列,Transformer 架構允許建模具有可變數(shù)量和類型的智能體團隊,同時可以避免 MAPPO/HAPPO 的缺點。

多智能體 Transformer

為了實現(xiàn) MARL 的序列建模范式,研究者提供的解決方案是多智能體 Transformer(MAT)。應用 Transformer 架構的思路源于這樣一個事實,即智能體觀察序列 (o^i_1,...,o^i_n) 輸入與動作序列(a^ i_1 , . . . , a^i_n)輸出之間的映射是類似于機器翻譯的序列建模任務。正如定理 (1) 所回避的,動作 a^i_m 依賴于先前所有智能體的決策 a ^i_1:m?1。

因此,如下圖(2)所示,MAT 中包含了一個用于學習聯(lián)合觀察表示的編碼器和一個以自回歸方式為每個智能體輸出動作的解碼器。

圖片


?編碼器的參數(shù)用φ 表示,它以任意順序獲取觀察序列(o^i_1 , . . . , o^i_n),并將它們傳遞通過幾個計算塊。每個塊都由一個自注意力機制、一個多層感知機(MLP)和殘差連接組成,以防止隨深度增加出現(xiàn)梯度消失和網(wǎng)絡退化。

解碼器的參數(shù)用θ表示,它將嵌入的聯(lián)合動作 a^i_0:m?1 , m = {1, . . . n}(其中 a^i_0 是指示解碼開始的任意符號)傳遞到解碼塊序列。至關重要的是,每個解碼塊都有一個掩碼的自注意力機制。為了訓練解碼器,研究者將如下裁剪 PPO 目標最小化。

圖片

MAT 中的詳細數(shù)據(jù)流如下動圖所示。

圖片

?實驗結(jié)果

為了評估 MAT 是否符合預期,研究者在星際爭霸 II 多智能體挑戰(zhàn)(SMAC)基準(MAPPO 在之上具有優(yōu)越性能)和多智能體 MuJoCo 基準上(HAPPO 在之上具有 SOTA 性能)對 MAT 進行了測試。

此外,研究者還在 Bimanual Dxterous Hand Manipulation (Bi-DexHands)和 Google Research Football 基準上了對 MAT 進行了擴展測試。前者提供了一系列具有挑戰(zhàn)性的雙手操作任務,后者提供了一系列足球游戲中的合作場景。

最后,由于 Transformer 模型通常在小樣本任務上表現(xiàn)出強大的泛化性能,因此研究者相信 MAT 在未見過的 MARL 任務上也能具有類似強大的泛化能力。因此,他們在 SMAC 和多智能體 MuJoCo 任務上設計了零樣本和小樣本實驗。

協(xié)作 MARL 基準上的性能

如下表 1 和圖 4 所示,對于 SMAC、多智能體 MuJoCo 和 Bi-DexHands 基準來說,MAT 在幾乎所有任務上都顯著優(yōu)于 MAPPO 和 HAPPO,表明它在同構和異構智能體任務上強大的構建能力。此外,MAT 還得到了優(yōu)于 MAT-Dec 的性能,表明了 MAT 設計中解碼器架構的重要性。

圖片


圖片

同樣地,研究者在 Google Research Football 基準上也得到了類似的性能結(jié)果,如下圖 5 所示。

圖片

MAT 用于小樣本學習

表 2 和表 3 中總結(jié)了每種算法的零樣本和小樣本結(jié)果,其中粗體數(shù)字表示最佳性能。

研究者還提供了數(shù)據(jù)相同情況下 MAT 的性能,其與對照組一樣從頭開始訓練。如下表所示,MAT 獲得了大多數(shù)最好成績,這證明了 MAT 小樣本學習的強大泛化性能。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-09-23 15:04:16

2023-08-28 06:52:29

2020-01-16 15:57:36

AI 數(shù)據(jù)人工智能

2019-08-12 08:43:53

GitHub代碼開發(fā)者

2017-02-24 13:27:37

阿里開源

2019-01-25 18:37:20

AI數(shù)據(jù)科技

2021-09-10 16:31:56

人工智能機器學習技術

2021-11-30 08:00:00

人工智能數(shù)據(jù)技術

2012-01-17 12:39:09

JavaSwing

2010-07-19 13:15:49

星際爭霸2

2010-01-14 17:17:32

云計算

2013-07-02 13:52:07

2025-06-03 06:12:03

2023-11-18 09:48:23

2014-03-18 15:23:58

星際爭霸ARM平臺

2020-11-04 10:28:48

機器人人工智能系統(tǒng)

2022-05-31 10:45:01

深度學習防御

2021-03-05 15:03:36

算法強化學習技術

2024-11-18 14:35:00

智能體AI

2025-10-10 08:33:49

點贊
收藏

51CTO技術棧公眾號

国产精品香蕉av| 精品无人区太爽高潮在线播放| 做爰高潮hd色即是空| 国产丰满美女做爰| 亚洲免费在线| 日韩视频欧美视频| 青青青国产精品一区二区| 国产日产欧美精品| 免费人成年激情视频在线观看| 日韩电影不卡一区| 欧美午夜一区二区| 欧美乱大交xxxxx潮喷l头像| 91九色在线porn| a在线播放不卡| 91免费国产视频| 伦av综合一区| 激情欧美一区二区三区| 伊人亚洲福利一区二区三区| 午夜影院福利社| 四虎影视国产精品| 精品露脸国产偷人在视频| 伊人久久婷婷色综合98网| 污视频在线免费观看| 韩国欧美国产1区| 国产精品999| 亚洲国产成人精品激情在线| 久久久国产精品| 在线精品视频视频中文字幕| 风间由美一二三区av片| 视频一区在线| 91麻豆精品国产91久久久更新时间| 国产精品亚洲a| 999福利在线视频| 一区二区三区四区激情| 自拍偷拍视频在线| 成人18在线| 国产偷国产偷精品高清尤物 | 日韩少妇裸体做爰视频| 中文字幕一区二区三区乱码图片 | 男人av在线播放| 一区二区三区不卡在线观看| 国产精品美女在线播放| 午夜在线视频| 中文成人av在线| 日日夜夜精品网站| 国内av一区二区三区| 2020国产成人综合网| 精品婷婷色一区二区三区蜜桃| 国产77777| 东方aⅴ免费观看久久av| 91九色对白| 国产xxxx在线观看| 国产精品69久久久久水密桃| 亚洲综合色av| 国产哺乳奶水91在线播放| 国产九色精品成人porny| 91免费视频网站| 精品国自产拍在线观看| 国产福利精品导航| 91免费人成网站在线观看18| 北条麻妃一二三区| 成人美女视频在线看| 国产精品制服诱惑| 男人久久精品| 国产精品女主播av| 国产对白在线播放| 俺来也官网欧美久久精品| 天天综合色天天综合色h| 鲁一鲁一鲁一鲁一澡| 毛片免费看不卡网站| 在线免费视频一区二区| 国内外成人免费在线视频| 亚洲伦理一区二区| 精品国产自在久精品国产| 人妻激情偷乱频一区二区三区| 成人av地址| 亚洲欧美中文字幕| 91久久久久久久久久久久久久| 中文字幕一区二区三区在线视频| 午夜精品久久久久久久男人的天堂 | 国产麻豆精品久久| 色噜噜亚洲精品中文字幕| 日日噜噜夜夜狠狠久久波多野| 精品动漫一区| 国产精品户外野外| 亚洲精品国产精品国| 91亚洲午夜精品久久久久久| 五月天久久综合网| 七七久久电影网| 色菇凉天天综合网| 亚洲区 欧美区| 国产日产一区| 欧美成人高清视频| av片免费观看| 国产成人综合网| 日韩成人av电影在线| 在线观看的网站你懂的| 欧美性xxxx极品hd满灌| 免费精品99久久国产综合精品应用| 黄色欧美网站| 久久精品成人欧美大片古装| 偷偷操不一样的久久| 久久av中文字幕片| 精品在线视频一区二区| 黄色免费网站在线观看| 动漫精品一区二区| 91欧美一区二区三区| 久久99国产精品视频| 欧美日韩第一页| 中文字幕精品一区二| 成人黄页毛片网站| 伊人久久大香线蕉av一区| 中文av在线全新| 欧美一级二级三级乱码| 亚洲av熟女国产一区二区性色 | 久久久久久久亚洲精品| 中文字幕资源网| 久久久亚洲高清| 亚洲国产成人精品无码区99| 99精品国产九九国产精品| 亚洲人成自拍网站| 五月婷婷激情网| 国产精品夜夜嗨| 亚洲欧美日产图| 欧美一区久久久| 日韩av影视综合网| 久久精品性爱视频| 国产河南妇女毛片精品久久久| 伊人久久大香线蕉午夜av| 一区二区视频免费完整版观看| 日韩精品欧美国产精品忘忧草 | 一本色道久久综合亚洲精品高清 | 欧美性在线视频| 亚洲国产精品欧美久久| 亚洲男女毛片无遮挡| 亚洲欧美日韩精品一区| 日韩在线看片| 国产精品日韩精品| 国产乱视频在线观看| 色婷婷国产精品久久包臀| 亚洲天堂资源在线| 亚洲精选国产| 鲁鲁视频www一区二区| sm久久捆绑调教精品一区| 精品裸体舞一区二区三区| 久久久久久久久久久久久久久久久| 国产乱色国产精品免费视频| 韩国黄色一级大片| 日韩在线成人| 久久免费在线观看| 熟妇人妻中文av无码| 午夜电影一区二区三区| 鲁大师私人影院在线观看| 日韩天堂av| 欧洲精品一区色| 精品国产美女a久久9999| 中文字幕欧美在线| 91 中文字幕| 亚洲欧美福利一区二区| 4438x全国最大成人| 好看不卡的中文字幕| 黄色小网站91| 精品免费av在线| 久久精品国产亚洲| 高潮一区二区三区乱码| 午夜精品久久久久久久久| 玖玖爱在线精品视频| 久久狠狠一本精品综合网| 少妇特黄a一区二区三区| 日韩毛片免费视频一级特黄| 欧美成在线观看| 天堂在线中文字幕| 欧美日韩综合色| 私库av在线播放| 99re热视频这里只精品| 男人搞女人网站| 亚洲精品久久| 精品久久久久久一区| 欧美momandson| 精品久久久av| 天天摸夜夜添狠狠添婷婷| 日本韩国欧美三级| 日韩欧美国产成人精品免费| 不卡一区在线观看| 色噜噜狠狠永久免费| 激情91久久| 亚洲成人18| 国产精品22p| 国产日韩欧美日韩| 2021天堂中文幕一二区在线观| 中文字幕视频一区二区在线有码 | 日韩网站在线免费观看| 日韩美女一区二区三区在线观看| 999视频在线观看| 九九九伊在线综合永久| 欧美日本高清视频| 黄色视屏网站在线免费观看| 91精品国产91久久综合桃花| av黄色在线看| 亚洲乱码中文字幕| 微拍福利一区二区| 成人精品电影在线观看| 超碰在线97免费| 亚洲一区二区免费看| 在线成人性视频| 一区三区在线欧| 波多野结衣一区二区三区在线观看| 少妇精品视频一区二区免费看| 久久久久久有精品国产| 日本a级在线| 亚洲图片欧美午夜| 天天干天天操av| 日韩欧美在线网站| 一区不卡在线观看| 日本韩国欧美一区二区三区| 免费在线观看黄网站| 一区二区三区日韩欧美精品| 亚洲激情图片网| 久久久久国产精品免费免费搜索| 欧洲熟妇的性久久久久久| 国产在线精品国自产拍免费| 成人精品小视频| 母乳一区在线观看| 国产男女免费视频| 国精品一区二区三区| 在线免费观看一区二区三区| av永久不卡| 欧美资源一区| 国产欧美日韩| 欧美成人免费在线| 偷拍自拍一区| 免费看成人午夜电影| 麻豆国产欧美一区二区三区r| 99re视频在线| 无码国模国产在线观看| 96成人在线视频| 麻豆国产一区| 91视频网页| 136国产福利精品导航网址应用| 91香蕉嫩草影院入口| 宅男噜噜噜66国产精品免费| 91精品在线看| 久久伊人影院| 国产激情一区二区三区在线观看| 亚洲成人影音| 97在线中文字幕| 香蕉成人app| 国产精品久久久久久久久久直播 | 中文字幕一区二区三区在线播放| 潮喷失禁大喷水aⅴ无码| 国产精品久久久久aaaa樱花| 久草视频手机在线| 一区二区不卡在线播放 | 国产精品国产三级国产普通话99 | 91精品久久久久久久蜜月| 亚洲国产一区二区三区在线| 久久麻豆精品| 神马午夜伦理影院| 亚洲激情午夜| 国模杨依粉嫩蝴蝶150p| 日本午夜一区二区| 九一精品久久久| 国产精品小仙女| 亚洲精品乱码久久久久久蜜桃欧美| 波多野结衣91| 女人又爽又黄免费女仆| 国产精品女同一区二区三区| 欧美日韩在线观看免费| 五月婷婷久久丁香| 在线免费观看av网址| 欧美群妇大交群中文字幕| 欧美在线视频a| 岛国成人毛片| 68精品久久久久久欧美| 成人av色网站| 96成人在线视频| 久久99高清| 高清无码一区二区在线观看吞精| 亚洲最黄网站| xxww在线观看| av中文字幕一区| 国产精品情侣呻吟对白视频| 一区二区欧美精品| youjizz在线视频| 91精品国产一区二区| 香蕉久久一区二区三区| www.久久久久| 黄在线观看免费网站ktv| 国产91色在线|免| 欧美午夜在线播放| 日韩国产欧美精品| 国产精品成人一区二区不卡| 亚洲 欧美 日韩 国产综合 在线| 捆绑紧缚一区二区三区视频| 国产麻豆剧传媒精品国产av| 中文幕一区二区三区久久蜜桃| 国产精品美女毛片真酒店| 欧美三级在线视频| 亚洲av成人精品一区二区三区在线播放| 色偷偷88888欧美精品久久久 | 国产xxx在线观看| 国产日韩欧美a| 尤物视频在线观看国产| 欧美一区二区三区啪啪| 男同在线观看| 97国产在线观看| 国产中文欧美日韩在线| 欧日韩一区二区三区| 亚洲激情专区| 日本少妇xxx| 国产精品久久久久毛片软件| 日本一区二区三区精品| 精品国产乱码久久久久久老虎| 97电影在线| 欧美一区视频在线| 岛国精品一区| 欧美精品在欧美一区二区| 免费成人美女在线观看| av小说在线观看| 偷拍日韩校园综合在线| 丰满岳乱妇国产精品一区| 欧美成人h版在线观看| 99re8精品视频在线观看| 亚洲国产精品久久久久久女王| 午夜亚洲福利在线老司机| 性色av蜜臀av浪潮av老女人| 亚洲免费伊人电影| 国产免费的av| 日韩在线视频观看| 日韩免费大片| 亚洲成色最大综合在线| 日av在线不卡| 亚洲精品成人av久久| 在线观看国产91| 成人在线观看黄色| 国产成人精品免高潮费视频| 免费看成人哺乳视频网站| 精品国产一二三四区| av一二三不卡影片| 欧美日韩综合在线观看| 亚洲精品97久久| 免费看男女www网站入口在线| 极品尤物一区二区三区| 亚洲一区视频| 久久久久亚洲av无码a片| 欧美性欧美巨大黑白大战| 黄色av免费在线看| 国产精品美女久久久免费| 久久中文字幕av| 一级片黄色免费| 亚洲午夜精品在线| 天堂v在线观看| 国产a级全部精品| 日韩久久视频| 三日本三级少妇三级99| 亚洲免费观看高清在线观看| 亚洲男人第一天堂| 午夜伦理精品一区| 久久97视频| 日本黄色的视频| 亚洲在线中文字幕| 污视频网站免费观看| 国产精品久久97| 一本到12不卡视频在线dvd| 中文字幕人妻一区| 色综合久久久久久久久| 91caoporn在线| 91国产丝袜在线放| 国产精品综合| 免费看一级黄色| 日韩美女一区二区三区| 在线观看v片| 在线看成人av电影| 成人黄色在线看| 免费av中文字幕| 欧美乱大交做爰xxxⅹ性3| 成人疯狂猛交xxx| 中文亚洲字幕| 小早川怜子一区二区的演员表| 精品裸体舞一区二区三区| 欧美日韩五码| 99国产精品白浆在线观看免费| 91网站在线观看视频| 一起草av在线| 555www成人网| 亚洲乱码在线| 37p粉嫩大胆色噜噜噜| 欧美一区二区三区影视| 亚洲男人av| 91免费版看片| 久久久精品免费网站| 亚洲高清精品视频| 国产精品国产亚洲伊人久久 | 五月婷婷综合激情| 巨大荫蒂视频欧美另类大| 久久综合毛片| 国产成人一区在线| 艳妇乳肉豪妇荡乳av无码福利| 欧美激情一二区| 国产精品毛片久久|