精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

多智能體強化學習大模型初探

人工智能
本次分享從基礎背景開始,介紹為什么強化學習需要大模型、多智能體決策大模型有哪些挑戰、如何描述此類系統。此后根據提出的問題,提出動作語義網絡、置換不變性與置換同變性、跨任務自動化課程學習三個核心設計的先驗。

一、多智能體決策大模型面臨的挑戰

現實世界中的大量實際問題可以建模為包含了多個主體的協同控制和優化問題。合作式多智能體系統由多個參與主體,合作地優化某個(或多個)相同的目標函數,如:游戲AI中的多“英雄”協作、多用戶-多商品推薦、多車輛運輸投遞優化、智能倉儲多車輛調度、云計算多資源調度、多車輛協作調度等。

圖片

多智能體問題與單智能體強化學習問題的主要區別在于智能體數量由單個增加至n個,單個智能體的動作空間變為笛卡爾積下的指數型聯合動作空間,動作作用于環境,由環境反饋的狀態變為包含n個智能體信息的狀態集合,為指數次方的狀態空間。通常,該類系統使用MMDP或Dec-POMDP方式進行形式化描述。MMDP方法將單智能體的馬爾可夫過程擴展至多智能體,核心區別在于動作空間與狀態空間的指數拓展,并假設系統內的每個智能體均可以觀察到系統全局的狀態。Dec-POMDP方法則使用觀測函數對系統內的每個智能體在有限視野范圍內觀測到的信息進行建模。合作系統的目標在于優化所有智能體的聯合策略以最大化系統全局的累積回報。

圖片

求解合作式多智能體系統的最優控制策略通常面臨以下三個方面的難點:①由狀態觀測空間和聯合動作空間隨實體數量指數增長帶來的維度災難;②由維度災難導致現有的強化學習算法學習樣本效率低;③在多個任務之間模型通用性與泛化性較差。

圖片

多智能體強化學習大模型的根本目的在于設計一個模型,使其具有比較好的泛化性,一個模型可以解決多個類似問題,包括相同游戲不同場景與不同游戲不同場景。

圖片

 

大模型已在自然語言處理、計算機視覺等領域已取得突破性成果,最新研究顯示強化學習同樣具有BBF(Bigger, Better, Faster)的結論,當模型更大時,模型將具有更好的性能與更快的學習速度。在強化學習經典的Atari-100k測試環境中,model-based的EfficientZero方法被公認為具有較高的sample efficiency,而BBF的研究表明model-free的DQN算法通過增大模型的規模可以取得與EfficientZero相同的樣本效率并能夠顯著降低訓練的開支。隨著網絡參數規模的增大,通過合理的機制設計可以使算法性能逐漸提升。

圖片

多智能體強化學習大模型目前主要面臨四類挑戰:①不同場景的智能體數量、種類不同;②實體的特征、觀測、狀態不同,導致模型網絡輸入維度、含義等不同;③動作空間不同,導致策略網絡輸出維度、含義不同;④獎勵函數不同,導致價值函數網絡輸出尺度不同。

針對以上挑戰,需要對多智能體系統構建一套完備描述的方法,使得在該描述基礎上設計通用的決策模型成為可能。類比語言模型,可對多智能體系統內部進行統一描述。大語言模型的底座由詞表構成,詞表構成句子,并形成對客觀世界的底層描述。使用tokenizer將詞轉化為可學習的詞向量,并對齊含義與維度,將詞向量傳遞至神經網絡中并針對具體任務進行訓練。對應的,多智能體系統中通過全局的屬性表與動作表(動作語義)形成對系統中實體的完備描述(實體表),通過tokenizer的方式將屬性轉化為屬性向量與實體向量,將實體向量傳遞至后續策略網絡等神經網絡模型中,輸出控制策略。

二、動作語義網絡

動作語義網絡研究工作的核心思想是根據前面定義的語言描述,將系統整體的動作空間按照不同的動作語義進行劃分。如星際爭霸中,動作可以劃分為與自身狀態相關的移動動作與涉及兩個智能體交互的攻擊動作。在完成動作語義劃分后,根據不同的動作類型進行不同的后續處理,移動動作僅與智能體自身狀態相關,攻擊動作使用pairwise的方式表征兩個智能體之間的交互關系。

圖片


該先驗知識的引入使得在星際爭霸、Neural MMO等場景中模型性能有較大提升。該方案也落地到網易《逆水寒》游戲中,顯著提升游戲AI的性能。

圖片

三、置換不變性與置換同變性

利用多智能體之間的置換不變性與置換同變性對系統內部天然存在的信息冗余進行壓縮,以縮小系統的學習空間,并間接處理網絡輸入維度不同的問題。

在含有m個實體(包含n個智能體和m-n個非玩家物體)的系統中,狀態、觀測空間隨實體數量指數增長。系統的狀態刻畫的是實體集合的客觀信息,不隨輸入順序的變化而變化。在包含同質智能體的系統中,實體信息在排列上存在冗余,因此可利用同質智能體間天然存在的對稱性,在模型搭建過程中忽略輸入順序的影響可極大程度約減原有呈指數增長的狀態空間。

圖片

同時,系統內部具有不同類型的動作,包括僅與自身狀態相關的動作和存在實體之間交互的動作。在考慮排除輸入順序影響的時候,由于實體間交互動作與對應實體的狀態存在一一對應的關系,輸入順序的變化將導致輸出含義的對應改變,這對應了函數的置換同變性。另一種僅與自身狀態相關的動作類型,改變輸入順序后輸出仍然應保持不變,對應了函數的置換不變性。

圖片

通過設計兼具置換同變性與置換不變性的策略網絡結構,利用先驗知識對系統狀態空間進行壓縮,從而能夠極大程度提升后期策略學習的效率與效果。

決策網絡的輸入是由多個實體構成的觀測,經過典型的input layer、backbone layer(任意網絡結構)和output layer,輸出控制策略。我們期望輸出中,僅與自身狀態相關的動作不受輸入順序的影響(具備置換不變性),與輸入實體有一一對應關系的動作與輸入順序的改變發生相同的變化(具備置換同變性)。為了設計更通用的模型架構,我們重點遵循“最小改動原理”,在盡量少地去改變已有網絡結構的條件下達到期望性質,最終我們僅改動input layer A使其具備置換不變性,并將輸入順序信息告知并修改output layer D使其具備置換同變性。

圖片

傳統不具備置換不變性的MLP網絡輸入可以視作每個實體信息乘上獨立、對應的子模塊參數并對輸出進行加和。我們首先提出Dynamic Permutation Network (DPN),通過增加一個分類選擇函數,實現為每個輸入實體信息一一綁定確定的子模塊參數,進而實現輸入層的置換不變性。輸出層要求與輸入具有一一對應關系,構造類似的分類網絡,為每一個實體的輸出特征選擇確定性的矩陣,使輸出的順序隨輸入順序的變化發生協同的變化,從而實現置換同變性。

圖片

基于相同的思想,我們進一步提出Hyper Policy Network (HPN),利用“超網絡”(用一個網絡為另一個網絡生成權重參數)自動化地為每個實體生成相應的參數矩陣。以每個實體的特征作為超網絡的輸入,超網絡輸出每個實體對應的參數,此結構下實體特征與參數矩陣天然具有一一對應關系,求和后的輸出具備置換不變性。輸出層利用超網絡結構為每一個輸入實體特征一一綁定地生成對應參數,使輸出與輸入實體存在一一對應關系,具備置換同變性。 

圖片

在典型的星際爭霸測試環境中,將HPN的網絡結構集成到QMIX算法,在所有困難場景均取得100%勝率。

圖片

由于設計遵循最小改動原理,該網絡結構可非常容易地集成至不同算法(如QPLEX、MAPPO)中,并使算法性能得到較大提升。

圖片

此外,在星際爭霸V2、MPE、谷歌足球等更復雜、隨機性更強的環境中,該模型架構同樣能夠取得明顯的性能優勢。

圖片

同時,由于該網絡結構能自動適應由不同實體帶來的輸入維度不同與輸出維度不同的問題,因此具有較好的可泛化性與可遷移性,能夠實現不同數量不同規模任務中控制策略的高效復用。

圖片

四、跨任務自動化課程學習

在跨任務的課程學習過程中,系統中存在多個待學習的任務,包括難度較大的目標任務、較簡單的起始任務與其他候選的任務集合,課程學習算法每一步需要從候選任務集合中選出最合適的任務從而最終輸出一條“最優學習序列(路徑)”。解決該問題需要回答兩個核心問題:

①選哪個課程作為下一個學習目標合適?

②前面學到的知識在新的課程中如何復用?

圖片

我們提出基于難度和任務相似度選擇課程。把當前策略在備選任務集合的所有任務上進行評估,得到相應的獎勵值。根據獎勵值排序,選擇處在中間40%的任務,下一課程在這些任務中產生。同時基于任務相似度,在難度適中的候選任務中選擇與目標任務最接近的任務作為最終選定的課程。為了評估與目標任務的相似度,基于當前策略在目標任務和候選任務中進行rollout獲得狀態訪問分布,利用混合高斯模型對該分布進行建模,利用分布相似性衡量任務相似性。

圖片

基于HPN網絡結構實現策略遷移和復用。采用前述具有置換不變性和置換同變性,同時支持變長輸入和輸出的HPN網絡結構實現策略的遷移和復用。自動化課程學習的整體框架為,利用難度和相似度選定下一個學習任務,該任務學習過程中利用HPN的結構重載上一個任務學得的策略,依次循環,最終在目標任務上取得更好的性能。

圖片

我們在星際爭霸場景中進行算法驗證,根據種族類型,將星際爭霸中的游戲場景分成不同的任務集合(Marines,Stalkers & Zealots,以及Medivac & Marauders & Marines),每個任務集合均給定起始任務與難度極大的最終任務。對比經典遷移學習算法,不同算法在任務選擇序列上具有較大差異,我們算法能夠基于任務難度和對最終任務的幫助程度選擇出更適合的任務序列,在最終的任務中能夠取得非常大的性能提升。

圖片

五、pymarl3:代碼開源

最后,我們將系列工作的源代碼開源,將MARL社區常用的pymarl2 (https://github.com/hijkzzz/pymarl2 )代碼庫升級為pymarl3(https://github.com/tjuHaoXiaotian/pymarl3),其特性如下:

(1)增加對SMAC-V2(https://github.com/oxwhirl/smacv2)的支持,同時支持SMAC-V1和SMAC-V2,已集成在內,無需獨立安裝各個環境。

(2)升級pymarl2中的算法,使其具備置換不變性和置換同變性,設計的網絡結構可非常容易地集成到任意MARL算法中,并提升其性能。

(3)增強版算法,在SMAC-V1和SMAC-V2上均取得SOTA的性能。

圖片

本次分享概述多智能體決策大模型面臨的挑戰與類比語言模型對多智能體系統進行描述和建模的方案;提出3條重要設計先驗:動作語義網絡、置換不變性與置換同變性、跨任務自動化課程學習。歡迎大家一起合作,進一步研究強化學習大模型!

責任編輯:姜華 來源: DataFunTalk
相關推薦

2025-07-04 08:53:00

大模型AI訓練

2020-12-23 06:07:54

人工智能AI深度學習

2020-11-04 10:28:48

機器人人工智能系統

2021-03-05 15:03:36

算法強化學習技術

2022-03-03 10:15:16

強化學習模型論文

2021-09-10 16:31:56

人工智能機器學習技術

2025-01-06 09:45:00

AI訓練數據

2023-05-04 15:53:34

強化學習開發

2023-07-21 14:58:05

智能開發

2021-07-22 15:25:14

開源技術 框架

2024-08-28 13:53:42

多代理強化學習機器人

2025-06-09 09:32:35

2023-05-05 13:11:16

2025-06-03 06:12:03

2017-06-10 16:19:22

人工智能智能體強化學習

2020-05-06 16:07:05

百度飛槳

2024-10-12 17:14:12

2025-10-11 09:23:28

RLPT強化學習預訓練數據

2024-09-23 08:30:00

AI模型

2025-08-07 09:16:41

點贊
收藏

51CTO技術棧公眾號

久久免费视频观看| 日韩欧美中文字幕公布| 五月婷婷一区| 国产伦子伦对白视频| 国产一区二区三区自拍| 亚洲精品一区二区久| 免费一区二区三区在线观看 | 成人午夜激情片| 茄子视频成人在线| 精品国产视频一区二区三区| 日本国产精品| 91精品国产欧美一区二区18| 国产淫片免费看| a级毛片免费观看在线| 91美女视频网站| 亚洲自拍欧美色图| 中文字幕av第一页| 影音先锋中文字幕一区二区| 日韩在线视频免费观看高清中文| 亚洲国产果冻传媒av在线观看| 精品国产黄a∨片高清在线| 五月天视频一区| 91制片厂免费观看| 极品白浆推特女神在线观看| 国产91精品精华液一区二区三区| 国产精品久久久久久久久免费 | 欧美日韩日日摸| 男人天堂1024| 福利小视频在线| 中文字幕字幕中文在线中不卡视频| 精品无人区一区二区三区| jlzzjlzzjlzz亚洲人| 免费的国产精品| 国产91色在线|免| 国产成人在线免费观看视频| 欧美日本中文| 久久伊人精品天天| 天堂а√在线中文在线鲁大师| 国产欧美日韩精品一区二区免费| 亚洲国产一区二区三区四区| 亚洲精品成人无码毛片| 国产一区二区三区免费在线 | 黄色的视频在线免费观看| 国产成人99久久亚洲综合精品| 成人免费网站在线看| 一区二区www| 久久国产精品99精品国产| 国产精欧美一区二区三区| 婷婷激情五月网| 国产午夜精品一区二区三区欧美 | 91视频成人免费| 久操视频在线播放| 亚洲女爱视频在线| 国内外成人激情免费视频| 伊人在我在线看导航| 亚洲精品中文在线影院| 国产一级黄色录像片| 日本在线观看高清完整版| 亚洲精品中文字幕乱码三区| 女人色极品影院| av白虎一区| 精品久久久久久久久久久| 黄色动漫在线免费看| 欧美7777| 欧美裸体一区二区三区| 一级做a爱视频| 51精品国产| 日韩大片免费观看视频播放| 成人网站免费观看| 亚欧洲精品视频在线观看| 亚洲天堂av在线播放| 在线观看亚洲大片短视频| 99精品视频在线观看播放| 久久久精品999| 精品无码久久久久久久久| 国产欧美成人| 国产精品免费一区| 99久久精品免费看国产交换| 成人小视频在线| 欧美日韩综合久久| 麻豆视频免费在线观看| 亚洲第一综合色| 九色porny91| 四虎国产精品免费久久| 亚洲成人av在线播放| 毛片网站免费观看| 亚洲精品a级片| 欧美一级高清免费播放| 在线观看中文字幕2021| 国产成人丝袜美腿| 欧美在线一区二区三区四区| 成人看av片| 午夜精品久久久久久久| 91蝌蚪视频在线观看| 国产精品一区免费在线 | 欧美日本乱大交xxxxx| 日本一区二区免费视频| 欧美激情在线免费| 美日韩精品视频免费看| 亚洲乱码国产乱码精品| 国产精品一区一区| 日韩一区不卡| h片视频在线观看| 色综合天天综合网天天看片| 欧美一级特黄aaa| 亚洲调教一区| 欧美激情视频免费观看| 怡春院在线视频| 97久久超碰国产精品| 中文字幕日韩一区二区三区 | 欧美黄色一区二区| 国产成人福利视频| 高清国产mv在线观看| 国产精品萝li| 国产成人久久777777| 伊人精品久久| 久久精品国产精品亚洲| 免费视频网站在线观看入口| 高清在线观看日韩| 一道本在线观看视频| 电影亚洲精品噜噜在线观看| 亚洲成人性视频| 亚洲二区在线播放| 免费不卡在线视频| 欧美日韩一区二区三区在线视频 | 国产成人精品av| 人妻精品无码一区二区| 亚洲男人的天堂av| 九九热免费在线观看| 国产亚洲欧美日韩在线观看一区二区| 久久久久久69| 亚洲国产精品久久人人爱潘金莲| 中文字幕日本乱码精品影院| 日日碰狠狠丁香久燥| 亚洲va久久久噜噜噜久久| 久久久久久69| 后进极品白嫩翘臀在线视频| 综合久久久久久| 8x8x成人免费视频| 久久国产成人午夜av影院宅| 国产精品一区二区三区在线播放| 九色蝌蚪在线| 色婷婷久久久综合中文字幕| theav精尽人亡av| 国产欧美综合一区二区三区| 狠狠色噜噜狠狠狠狠色吗综合| 国语对白在线刺激| 精品国产不卡一区二区三区| 久久综合综合久久| 丁香桃色午夜亚洲一区二区三区| av日韩在线看| jizz18欧美18| 97在线视频精品| 天堂成人在线| 日韩欧美黄色动漫| 国产激情在线免费观看| 久久久久久自在自线| 日本免费高清一区二区| 无人区在线高清完整免费版 一区二| 亚洲午夜激情免费视频| 一区二区三区麻豆| 亚洲天堂精品在线观看| 日本少妇激三级做爰在线| 中文字幕亚洲精品乱码| 翡翠波斯猫1977年美国| 高端美女服务在线视频播放| 日韩精品中文字幕在线播放| 日韩一级在线视频| 国产精品免费av| 天天爽夜夜爽视频| 亚洲高清自拍| 视频一区二区三区在线观看| 欧美系列精品| 久久免费国产视频| 国产福利片在线| 91精品久久久久久久91蜜桃 | 激情久久一区| 美女精品国产| 色综合视频一区二区三区44| 欧美国产视频一区二区| 日韩精品系列| 欧美精品色综合| 久久精品视频9| 国产亚洲综合性久久久影院| 99999精品| 国产模特精品视频久久久久| 亚洲国产精品www| 99re8这里有精品热视频8在线| 欧美最近摘花xxxx摘花| 老司机免费在线视频| 日韩精品一区二区三区第95| 成人免费一区二区三区| 亚洲五月六月丁香激情| 阿v天堂2014| 国产99久久久精品| 日本a√在线观看| 影音先锋久久精品| 在线视频精品一区| 香蕉久久精品| 亚洲一区二区三区成人在线视频精品 | 国产成人免费av电影| 91在线中字| 一区国产精品视频| 色香蕉在线视频| 56国语精品自产拍在线观看| av大片在线免费观看| 国产精品激情偷乱一区二区∴| 成人性生活免费看| 国产乱码精品1区2区3区| 99久久国产宗和精品1上映| 欧美日一区二区三区在线观看国产免| 日韩av一区二区三区在线观看| aiai久久| 91亚洲国产成人精品性色| 成人精品电影在线| 69视频在线播放| 日本在线视频www鲁啊鲁| 色婷婷综合久久久久| 色鬼7777久久| 亚洲国产精品国自产拍av秋霞| 国产精品自产拍| 欧美日韩一二三区| 秋霞av一区二区三区| 亚洲电影第三页| 精品视频久久久久| 一区二区三区高清不卡| 精品国产精品国产精品| 欧美激情资源网| 国产sm调教视频| 久久综合久久99| 亚洲色图14p| 91影院在线观看| 国产二级一片内射视频播放| 高清视频一区二区| 无套白嫩进入乌克兰美女| 国产又粗又猛又爽又黄91精品| 五月婷婷激情久久| 日韩国产一区二| 日本www高清视频| 久久福利影视| 性生交免费视频| 三级在线观看一区二区| 免费日韩中文字幕| 久久婷婷av| 免费看黄色一级大片| 男女男精品视频网| 日本在线观看免费视频| 九九久久精品视频| 亚洲黄色av片| 国产精品白丝jk白祙喷水网站 | 中文字幕一区二区三区人妻四季| 色8久久人人97超碰香蕉987| 日韩熟女一区二区| 欧美综合亚洲图片综合区| а中文在线天堂| 欧美日韩视频第一区| 国产精品久久无码一三区| 欧美精品 国产精品| 国产黄色av网站| 亚洲精品一区二区三区影院| 色窝窝无码一区二区三区| 亚洲美女免费精品视频在线观看| 男人av在线| xxxx性欧美| 国产精品一区hongkong| 91精品国产色综合久久不卡98口 | 精品久久久久久一区| 天堂av一区二区三区在线播放| 欧美男人的天堂| 日本精品黄色| 99国产精品白浆在线观看免费| 中文亚洲免费| 免费精品99久久国产综合精品应用| 国产一区二区三区黄视频| 激情av中文字幕| eeuss国产一区二区三区| youjizz.com国产| 国产网站一区二区三区| av最新在线观看| 五月天亚洲婷婷| 亚洲天堂男人网| 亚洲精品一区在线观看| 春暖花开成人亚洲区| 欧美老妇交乱视频| 在线中文字幕播放| 91九色国产视频| 台湾色综合娱乐中文网| 一区二区在线观| 亚洲三级毛片| 岛国av免费在线| 91年精品国产| 日韩高清dvd碟片| 精品久久久久久久久久久久久| 这里只有久久精品视频| 日韩女优电影在线观看| 懂色一区二区三区| 欧美激情一区二区三区久久久| 日本久久免费| 国产精品国产一区二区| 欧美jizz| 999精品网站| 成人黄色大片在线观看| 一起操在线播放| 日韩欧美国产一区二区| 国产 欧美 精品| 精品国偷自产在线视频99| 欧美大胆性生话| 99re视频| 91精品观看| 一路向西2在线观看| 99精品视频免费在线观看| 国产va在线播放| 欧美日本一区二区| 免费国产在线视频| 97久久久久久| 一区二区三区视频播放| 亚洲欧洲久久| 日韩在线观看一区二区| 欧洲一级黄色片| 亚洲超丰满肉感bbw| 国产福利资源在线| www.日韩系列| 国产a亚洲精品| 免费成人深夜夜行视频| 亚洲美女少妇无套啪啪呻吟| 绯色av蜜臀vs少妇| 亚洲色大成网站www久久九九| 最好看的日本字幕mv视频大全| 亚洲欧美日韩精品久久奇米色影视| av福利在线导航| 国产精品美女久久久久av福利| 亚洲成人日韩| 99精品视频国产| 亚洲四区在线观看| 国产理论片在线观看| 色爱av美腿丝袜综合粉嫩av| 日本一道高清亚洲日美韩| 欧美日韩一区二区三区在线视频 | aaa一级黄色片| 国产精品乱码人人做人人爱| 中国一级片黄色一级片黄| 一区国产精品视频| 九九九精品视频| 亚洲精品国产精品国自产观看 | 日本国产一区二区| 免费成人av电影| 国产精品久久久久久久久久久新郎 | 日韩精品在线第一页| 成年女人在线看片| 蜜桃av噜噜一区二区三| 免费在线成人| 人妻精品久久久久中文| 欧美在线999| 毛片在线视频| 99电影网电视剧在线观看| 欧美精品一卡| a级一a一级在线观看| 欧美午夜久久久| 福利视频在线导航| 成人精品一区二区三区| 欧美日韩免费| 精品无码在线视频| 欧美图片一区二区三区| 国产写真视频在线观看| 国产高清精品一区二区| 亚洲欧美日韩精品一区二区 | 天堂av电影在线观看| 日本一区二区在线播放| 日韩久久电影| 欧美一级片在线免费观看| 欧美日韩激情网| 国产女人在线观看| 亚洲影影院av| 亚洲免费高清| 99久久99久久精品免费看小说.| 欧美一区二区视频网站| av成人影院在线| 亚洲国产精品一区在线观看不卡| 国产高清在线观看免费不卡| 国产成人亚洲欧洲在线| 国产午夜精品一区理论片飘花| 日韩午夜电影免费看| 国内精品在线观看视频| 欧美韩日一区二区三区| 好吊视频一二三区| 国产精品久久久久久久久久小说 | 欧美日韩国产限制| 色综合久久影院| 国产欧美日韩综合一区在线观看| 日韩精品一二三区| 激情综合网五月天| 亚洲人成电影网| 日本一区二区三区视频在线看 | 桥本有菜av在线| 91在线观看高清| www.xxx国产| 国产精品视频网站| 亚洲国产精品第一区二区| 久久精品国产亚洲AV成人婷婷| 亚洲国产成人精品久久|