精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

多智能體強化學習算法評估Hard模式來了!浙大、南棲仙策聯手推出

人工智能 新聞
論文針對 SMAC 中使用的單一默認對手策略缺乏策略空間的多樣性問題,引入了支持對手腳本編輯、預定概率混合對手策略、和自博弈接口對齊的 SMAC-HARD 環境。

本文作者來自浙江大學、中國科學技術大學、中科院自動化所和南棲仙策。作者列表:鄧悅、喻言、馬瑋彧、王子瑞、朱文輝、趙鑒和張寅。第一作者鄧悅是浙江大學計算機系博士生。通訊作者是南棲仙策趙鑒博士和浙江大學計算機系教授張寅。

在人工智能領域,具有挑戰性的模擬環境對于推動多智能體強化學習(MARL)領域的發展至關重要。在合作式多智能體強化學習環境中,大多數算法均通過星際爭霸多智能體挑戰(SMAC)作為實驗環境來驗證算法的收斂和樣本利用率。然而隨著 MARL 算法的不斷進步,很多算法在 SMAC 環境上均表現出接近最優的性能,這使得對算法的真實有效性的評估變得更為復雜。盡管 SMACv2 環境在任務初始化時采用概率生成的方式以削弱開環控制的特性,但是兩個環境均是以默認的、單一的、且確定的腳本作為對手腳本。這使得智能體學習到的策略模型更容易過擬合到某一個對手策略,或利用對手策略的漏洞而擬合到取巧方法上。

圖片

圖一:SMACv1(左)和 SMACv2(右)的默認腳本。分別為:“操控所有玩家 2 的角色攻擊 Team1 位置” 和 “操控每個玩家 2 的角色攻擊玩家 1 的最近角色”。

為說明默認腳本帶來的影響,如下的三個視頻回放分別來自 SMACv1、SMACv2 的默認對手策略和合適的對手策略。

在 SMACv1 環境中,對手 zealot 被仇恨范圍和腳本卡在 Team1 的位置,脫離其他角色的戰斗。

在 SMACv2 環境中,因為默認對手策略為攻擊最近角色,對手 zealot 被 stalker 吸引,脫離其他角色的戰斗。

在 SMAC-HARD 中,豐富對手策略給智能體帶來更正常更大的挑戰。

近期,浙江大學和南棲仙策聯合推出了基于 SMAC 模擬環境的 SMAC-HARD 環境。該環境支持可編輯的對手策略、隨機化對手策略以及 MARL 自博弈接口,從而使智能體訓練過程能夠適應不同的對手行為進而提高模型的穩定性。此外,智能體還可以通過 SMAC-HARD 環境完成黑盒測試來評估 MARL 算法的策略覆蓋性和遷移能力,即智能體在訓練過程中僅通過與默認對手策略或自博弈模型進行推演,但在測試過程中與環境提供的腳本進行交互。

團隊在 SMAC-HARD 上對廣泛使用的先進算法進行了評估,展示了當前的 MARL 算法在面對混合可編輯對手策略時會得到更保守的行為價值,進而導致策略網絡收斂到次優解。此外,黑盒策略測試也體現了將所學策略轉移到未知對手身上的難度。團隊希望通過推出 SMAC-HARD 環境來為后續 MARL 算法評估提出新的挑戰,并促進多智能體系統社區中自博弈方法的發展。

圖片


  • 論文標題:SMAC-Hard: Enabling Mixed Opponent Strategy Script and Self-play on SMAC
  • 論文地址:https://arxiv.org/abs/2412.17707
  • 項目地址:https://github.com/devindeng94/smac-hard
  • 知乎鏈接:https://zhuanlan.zhihu.com/p/14397869903

環境介紹

就源代碼而言,基于 Python 的 pysc2 代碼包是對《星際爭霸 II》二進制游戲文件中的 sc2_protocol 的抽象。通過 pysc2 對 sc2_protocolAPI 的抽象,玩家可以操控游戲的進程。而 SMAC 框架是通過將 pysc2 的原始觀測數據轉化為標準化、結構化、向量化的觀測和狀態表示,進一步封裝了 pysc2 提供的 API。因此,《星際爭霸 II》環境本身既支持來自 SMAC 的標準化動作,也支持由 pysc2 腳本生成的動作,這為對手可編輯腳本提供了支持。如圖二所示,SMAC-HARD 修改了 SMAC 中的地圖(SC2Map)以啟用多玩家模式并禁用了默認攻擊策略以防止默認腳本策略中的行動干擾。除了對地圖的修改外,對原 SMAC 的 starcraft.py 文件也進行了修改,以容納兩個玩家進入游戲,檢索兩個玩家的原始觀測數據,并同時處理兩個玩家的行動。為了減輕行動執行順序的影響,環境對兩名玩家的行動步進過程進行了并行化處理。

圖片

圖二:SMAC-HARD 環境、對手策略腳本、自博弈接口封裝,與原始 SMAC、PySC2、StarCraftII 的關系示意圖。

除了為對手提供了決策樹建模外,當存在多個對手策略時,環境還引入了由預定義概率設置的隨機策略選擇功能以提升對手策略的豐富度。這些概率以浮點值列表的形式表示,默認設置為所有策略相等概率。此外,為了進一步擴大對手的策略豐富度,環境還根據智能體的觀測、狀態和可用行為等的封裝,為對手提供了類似的對稱接口以促進 MARL 自博弈模式的發展。用戶可以通過 "mode" 參數來控制使用自博弈模式或決策樹模式且該模式默認為決策樹模式。以此為前提,用戶將 import 中的 smac 更換為 smac_hard,即可將實驗環境從 SMAC 無縫過渡到 SMAC-HARD。

圖片

圖三:由大模型生成雙方策略腳本過程。在對稱的環境中,最終生成的雙方策略均被采用為可選備受策略。

雖然決策樹在面對不同對手策略時表現出更高的穩定性且可以提供更強的可解釋性。參考最近的工作 LLM-SMAC,對手策略的生成可以通過代碼大模型完成以輔助策略腳本編寫。如圖三所示:將角色信息、地圖信息、與任務描述合成為環境提示,并利用規劃大模型為雙方規劃策略架構。雙方分別利用代碼大模型實現各自的策略架構,并利用生成的代碼在 SMAC-HARD 中進行測評。再利用大模型作為批評家多輪分析測評結果和代碼,進而為規劃大模型和代碼大模型提供優化建議。

圖片

測試結果

經過對五個經典算法的測試,SMAC-HARD 環境表現出對基礎 MARL 算法更大的挑戰。在最初的 SMAC 任務中,幾乎所有算法都能在 1000 萬個時間步內實現接近 100% 的勝率,相比之下,SMAC-HARD 則引入了更高的難度和收斂挑戰。例如,如圖四和表一所示,2m_vs_1z 任務在原始 SMAC 環境中相對容易,但在 SMAC-HARD 中卻變成了超難任務。在 SMAC-HARD 中,Zealot 始終以一名 Marine 為目標,這就要求一名 Marine 負責移動躲避傷害,而另一名則專注于攻擊。這使得每個智能體需要連續做出正確的行為,這對 MARL 算法構成了巨大挑戰。

圖片

圖四:經典算法在 SMAC-HARD 環境中 10M 步的測試曲線。

圖片

表一:經典算法在 SMAC-HARD 環境中 10M 步的測試結果。

為測試 MARL 算法的策略覆蓋率和遷移能力,SMAC-HARD 提供了黑盒測試模式。MARL 算法面向默認對手策略訓練 10M 步后再針對混合對手策略進行測試,測試結果如表二所示。值得注意的是:與黑盒評估的勝率隨著任務難度的增加而增加,在 3s_vs_3z、3s_vs_4z 和 3s_vs_5z 任務中產生了相反的趨勢。在 Stalker 面對 Zealot 的時候,Stalker 角色可以通過更高的移速來 “風箏” Zealot 角色。3s_vs_5z 的環境更具挑戰性,智能體必須采用嚴格的 “風箏” 機制這一最優的應對策略才能獲勝。學習到了最佳應對策略的智能體更有可能在黑盒測試的對手腳本前取得成功。

圖片

表二:經典算法在 SMAC 環境中訓練 10M 步后在 SMAC-HARD 的黑盒模式測試結果。

除此之外,原 SMAC 環境中對于對手血量和盾量回復的獎勵結算錯誤,使得智能體容易陷入最大化獎勵的最優解,但是是勝率結算的次優解。而 SMAC 作為實驗環境已經測評了多個算法,所以雖然發現了 SMAC 的獎勵結算錯誤,SMAC 也不方便修正使實驗結果不具備可比性。由于提出了新的測評環境,SMAC-HARD 修正了這個來自 SMAC 的獎勵結算 bug。

圖片

圖五:SMAC 環境作者對獎勵結算問題的回應。

總結

綜上所述,論文針對 SMAC 中使用的單一默認對手策略缺乏策略空間的多樣性問題,引入了支持對手腳本編輯、預定概率混合對手策略、和自博弈接口對齊的 SMAC-HARD 環境。研究結果展示,即使是在傳統 SMAC 環境中性能近乎完美的流行的 MARL 算法,在 SMAC-HARD 環境中也難以保持高勝率。此外,環境還對使用 MARL 算法訓練的模型進行了黑盒評估,強調在面對單一、脆弱的對手策略時,MARL 策略的可轉移性有限。最后,環境將對手方的訓練接口與智能體方的訓練接口進行了對齊,為潛在的 MARL 自博弈領域研究提供了一個平臺。希望 SMAC-HARD 可以作為一個可編輯的且具有挑戰性的環境,為 MARL 社區研究做出貢獻。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-08-28 06:52:29

2021-03-05 15:03:36

算法強化學習技術

2024-10-12 17:14:12

2020-11-04 10:28:48

機器人人工智能系統

2021-09-10 16:31:56

人工智能機器學習技術

2020-05-06 16:07:05

百度飛槳

2020-06-05 14:49:51

強化學習算法框架

2025-07-04 08:53:00

大模型AI訓練

2023-05-04 15:53:34

強化學習開發

2018-12-14 09:25:28

量化評估算法拓展強化學習

2022-10-08 09:53:17

AI算法

2021-07-22 15:25:14

開源技術 框架

2024-08-28 13:53:42

多代理強化學習機器人

2024-11-13 14:25:00

模型架構

2025-04-01 09:10:00

2025-06-03 06:12:03

2017-06-10 16:19:22

人工智能智能體強化學習

2018-08-29 08:13:22

Google 學習框架技術

2024-07-23 14:10:48

2023-06-25 11:30:47

可視化
點贊
收藏

51CTO技術棧公眾號

韩国三级丰满少妇高潮| 亚洲啪啪av| 日韩av大片在线观看| 欧美猛男同性videos| 在线观看日韩一区| 欧美性受黑人性爽| 午夜视频免费看| 看电视剧不卡顿的网站| 久久久久久久国产精品视频| 国产精品密蕾丝袜| 欧美激情精品| 日本久久电影网| 国产91沈先生在线播放| 久久国产精品高清一区二区三区| 精品在线你懂的| 羞羞色国产精品| 婷婷社区五月天| 亚洲精品国产精品粉嫩| 欧美一级理论片| 欧美少妇性生活视频| 午夜小视频在线观看| 国产清纯白嫩初高生在线观看91 | 日产精品久久久一区二区| 国产又粗又长又黄| 久久一区欧美| 国内精品视频久久| 无码人妻精品一区二区三区夜夜嗨| 香蕉视频一区| 日韩精品一区二区三区老鸭窝| 日本美女高潮视频| 中文字幕在线看片| 亚洲主播在线观看| 成人在线免费观看网址| 91se在线| 久久久久国产成人精品亚洲午夜 | 欧美国产极品| 日韩免费高清av| 国产九九热视频| 少妇一区视频| 欧美日韩人人澡狠狠躁视频| 成年人视频网站免费| 黄色网在线播放| 国产精品色在线观看| 免费日韩电影在线观看| 天堂在线资源8| 成人a免费在线看| 不卡一卡2卡3卡4卡精品在| 国产又粗又猛又爽又黄的| 免费在线观看不卡| 国产精品免费在线免费| 高潮毛片又色又爽免费| 久久久久国产精品一区二区| 欧美在线中文字幕| 精品不卡一区二区| 久久99伊人| 国产suv精品一区二区三区88区| 黄色免费av网站| 亚洲综合精品四区| 日产精品99久久久久久| 69亚洲精品久久久蜜桃小说| 老司机亚洲精品| 国产精品成人v| 欧美性受xxx黑人xyx性爽| 免费人成精品欧美精品| 91精品国产自产在线| 国产精品毛片一区视频播| 国产美女精品人人做人人爽| av成人午夜| 手机在线观看毛片| 久久久久久久久一| 亚洲一区二区三区欧美| 亚洲制服国产| 午夜私人影院久久久久| 国产午夜大地久久| 欧美gay视频| 欧美日韩亚洲另类| 天天操夜夜操很很操| 91成人精品在线| 亚洲美女激情视频| 国产美女精品久久| 久久精品影视| 国内精品美女av在线播放| 99精品人妻国产毛片| 麻豆一区二区99久久久久| 3d动漫啪啪精品一区二区免费 | 成人免费视频视频在线观看免费| 国产欧美一区二区三区另类精品 | 欧美日韩成人网| 国产乡下妇女做爰毛片| 天堂成人免费av电影一区| 国产精品欧美风情| www.蜜臀av| 国产婷婷色一区二区三区| 中国人体摄影一区二区三区| 国产三级伦理在线| 一本久久综合亚洲鲁鲁五月天| 黄色手机在线视频| 国产香蕉精品| 精品国产拍在线观看| 日韩污视频在线观看| 日本视频免费一区| 国产手机精品在线| 免费在线看黄网站| 欧美日韩人人澡狠狠躁视频| 日韩成人av免费| 伊甸园亚洲一区| 久久91亚洲精品中文字幕奶水| 亚洲图片在线视频| 国产成人av资源| 亚洲精品高清视频| 91美女主播在线视频| 欧美日韩国产一区| 国产性生活毛片| 亚洲网色网站| 国产福利视频一区| 日本激情视频网站| 中文字幕制服丝袜一区二区三区| 国产美女主播在线播放| 国产91精品在线| 日韩精品久久久久久福利| 艳妇荡乳欲伦69影片| 日韩精品亚洲一区| 国产午夜精品在线| 午夜伦理在线视频| 欧美高清视频一二三区| 五月天精品视频| 国产视频欧美| 国产精品推荐精品| av毛片在线免费| 欧美日韩一级二级| 亚洲第一综合网| 久久一二三区| 久久99九九| 成人国产电影在线观看| 欧美α欧美αv大片| 日韩国产第一页| 久久黄色级2电影| 五月天综合网| 国模视频一区| 亚洲人成伊人成综合网久久久 | 好看不卡的中文字幕| 成人a在线视频| avav免费在线观看| 在线观看区一区二| 调教驯服丰满美艳麻麻在线视频| 久久一二三四| 日韩色妇久久av| 天然素人一区二区视频| 国产亚洲精品高潮| 免费观看日批视频| 国产喂奶挤奶一区二区三区| 漂亮人妻被中出中文字幕| 午夜欧洲一区| 国产成人精品亚洲精品| av在线日韩国产精品| 欧美日韩日日摸| 日本一级特级毛片视频| 国产乱码精品一区二区三区忘忧草| 一区二区三区四区视频在线 | 国产欧美日韩在线播放| 韩国成人二区| 亚洲精品久久视频| 国产又粗又爽视频| 国产午夜精品福利| 免费看涩涩视频| 91精品国产视频| 成人三级在线| 亚洲精品动漫| 最近2019年手机中文字幕| aaa国产视频| 亚洲一区二区3| 亚洲av无码国产精品久久| 久久一区二区三区四区五区| 一本色道久久综合亚洲精品婷婷| 久久久久久久久久久久电影| 欧美激情在线视频二区| 男人天堂资源在线| 欧美视频日韩视频在线观看| 青花影视在线观看免费高清| 成人sese在线| 亚洲色图38p| 久久久久久久久国产一区| 成人在线视频电影| 欧美一级大片| 欧美精品一二区| 日韩精品123| 欧美日韩国产免费一区二区| 久久激情免费视频| 久久九九久久九九| 四虎1515hh.com| 性8sex亚洲区入口| 精品少妇人妻av一区二区| 久久精品亚洲成在人线av网址| 日本电影亚洲天堂| 成人在线影视| 一区二区三区 在线观看视| 国产欧美综合视频| 欧美小视频在线观看| 91狠狠综合久久久| 久久综合九色综合97婷婷女人| 伊人影院综合在线| 亚洲免费婷婷| 日本美女爱爱视频| 成人羞羞视频播放网站| 高清国语自产拍免费一区二区三区| 美脚恋feet久草欧美| 理论片在线不卡免费观看| 青青草免费观看免费视频在线| 欧美卡1卡2卡| 午夜婷婷在线观看| 一区二区三区鲁丝不卡| 999福利视频| 久久久久久99久久久精品网站| 日本少妇一级片| 精品一区二区精品| 日本在线视频www| 在线观看日韩av电影| mm131午夜| 日韩欧美视频| 青娱乐一区二区| 青青一区二区| 成人欧美一区二区三区视频xxx| 亚洲我射av| 国产精品毛片a∨一区二区三区|国| 高清电影在线免费观看| 久久综合伊人77777| 国家队第一季免费高清在线观看| 亚洲精品一区二区三区香蕉 | 亚洲综合在线电影| 97精品国产91久久久久久| av网址在线免费观看| 最近2019免费中文字幕视频三| 国产日本在线| 日韩精品在线观看一区二区| 人妻一区二区三区免费| 日韩一区二区三区av| 国产精品亚洲lv粉色| 欧美日韩国产大片| 在线免费av网| 欧美精品日日鲁夜夜添| 日本三级一区二区三区| 色综合久久久久| 国产精品va无码一区二区三区| 精品福利免费观看| 日韩一区二区视频在线| 午夜精品福利一区二区三区蜜桃| 国产一级免费av| 亚洲国产精品人人做人人爽| 久青草视频在线观看| 亚洲综合丝袜美腿| 国产一级一片免费播放放a| 亚洲综合在线观看视频| 日本三级理论片| 婷婷中文字幕一区三区| chinese国产精品| 91精品福利视频| 伊人久久成人网| 91精品在线麻豆| 国产成人精品亚洲精品色欲| 日韩视频免费观看高清完整版| 性一交一乱一透一a级| 精品国产123| 青青青草原在线| 中文字幕综合一区| aa在线视频| 韩国v欧美v日本v亚洲| 国内精彩免费自拍视频在线观看网址 | 国产一区二区三区色淫影院| 农村少妇一区二区三区四区五区 | 亚洲欧美日韩动漫| 国产香蕉97碰碰久久人人| 1024视频在线| 欧美精品在线免费播放| 热色播在线视频| 国产精品久久久久久久天堂| 成人综合日日夜夜| 国产在线一区二区三区播放| 精品国产一区二区三区小蝌蚪 | 国产偷久久久精品专区| 国产日产精品一区二区三区四区的观看方式| 亚洲国产一区二区精品视频| 欧美伊人久久| 999精品网站| 国产麻豆成人传媒免费观看| 性农村xxxxx小树林| 久久九九全国免费| 欧美日韩亚洲国产另类| 日韩欧美国产成人| 91尤物国产福利在线观看| 欧美岛国在线观看| 国产小视频在线| 久久国产精品久久久久久久久久| sm久久捆绑调教精品一区| 国产精品久久久久久久久| 网站一区二区| 日本免费高清一区| 欧美特黄a级高清免费大片a级| 日韩人妻精品无码一区二区三区| 精品在线一区二区三区| 在线视频 日韩| 综合色天天鬼久久鬼色| 日本va欧美va国产激情| 91麻豆精品国产91久久久使用方法 | 国产成人亚洲综合色影视| 日本性高潮视频| 香港成人在线视频| 99久久精品国产色欲| 亚洲最新av在线| 91高清视频在线观看| 国产在线不卡精品| 久久综合色占| 欧美一级视频免费看| 精品一区二区三区av| 在线免费观看日韩av| 亚洲午夜久久久久| 国产精品久久久久久久成人午夜| 亚洲美女av黄| av影院在线免费观看| 亚洲r级在线观看| 欧美一区二区麻豆红桃视频| 欧美二区在线视频| 国产成都精品91一区二区三| 午夜国产福利视频| 欧美日韩中文字幕一区二区| 日本国产在线| 91国产视频在线| 国产成人精品亚洲线观看| 好吊色视频988gao在线观看| 精品一区二区三区免费视频| 亚洲区自拍偷拍| 色欧美乱欧美15图片| 丰满人妻一区二区| 欧美精品一区三区| 精品99re| 超碰97在线看| 国内一区二区在线| 麻豆精品一区二区三区视频| 欧美日韩成人综合天天影院| аⅴ资源新版在线天堂| 国产成人精品久久二区二区| 亚洲精品亚洲人成在线观看| 少妇性饥渴无码a区免费| 26uuu另类欧美| 亚洲影院在线播放| 国产亚洲视频在线观看| 成人软件在线观看| 亚洲精品久久区二区三区蜜桃臀 | 青青草97国产精品麻豆| 青青在线免费观看视频| 久久久久国产成人精品亚洲午夜| 日韩女优在线观看| 亚洲精品久久久久中文字幕欢迎你| 成人免费图片免费观看| 免费精品视频一区| 青草国产精品久久久久久| 神马久久久久久久久久久| 欧美在线观看一区| 在线日本中文字幕| 成人欧美一区二区三区黑人| 围产精品久久久久久久| 久久艹这里只有精品| 亚洲最大成人网4388xx| 无码精品黑人一区二区三区| 欧美一区二区.| 精品国产不卡| 亚洲男人天堂2021| 亚洲成人一区二区| 欧美一区二区三区少妇| 国产精品美女久久| 欧美 日韩 国产 一区| 色悠悠在线视频| 色视频成人在线观看免| 五月婷婷在线观看| 国产不卡一区二区在线观看| 日韩网站在线| 337人体粉嫩噜噜噜| 欧美一区二区三区在线| 松下纱荣子在线观看| 亚洲 国产 欧美一区| 国产精品综合在线视频| 日韩欧美亚洲视频| 中文字幕精品国产| 91精品短视频| 噼里啪啦国语在线观看免费版高清版| 一区二区中文视频| 色欲久久久天天天综合网| 国产精品第一页在线| 欧美一区高清| 成年人免费观看视频网站| 91麻豆精品国产91久久久久久| 激情黄产视频在线免费观看| 夜夜春亚洲嫩草影视日日摸夜夜添夜| 懂色av中文字幕一区二区三区 | 内射一区二区三区| 亚洲精品99久久久久中文字幕| 成人全视频免费观看在线看| 日本免费a视频| 亚洲欧洲日产国码二区| 欧美69xxxxx| 丁香五月网久久综合|