精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

使用 Python TorchRL 進行多代理強化學習

人工智能
隨著多代理系統的出現,強化學習的復雜性不斷增加。為了管理這種復雜性,像 TorchRL 這樣的專門工具提供了一個強大的框架,可以開發和實驗多代理強化學習(MARL)算法。本文將深入探討如何使用 TorchRL 解決 MARL 問題,重點關注多代理環境中的近端策略優化(PPO)。

隨著多代理系統的出現,強化學習的復雜性不斷增加。為了管理這種復雜性,像 TorchRL 這樣的專門工具提供了一個強大的框架,可以開發和實驗多代理強化學習(MARL)算法。本文將深入探討如何使用 TorchRL 解決 MARL 問題,重點關注多代理環境中的近端策略優化(PPO)。

我們將使用 VMAS 模擬器,這是一個多機器人模擬器并且可以在 GPU 上進行并行訓練。他的主要目標多個機器人必須導航到各自的目標,同時避免碰撞。

依賴

在開始之前,請確保安裝以下依賴項:

!pip3 install torchrl  
 !pip3 install vmas  
 !pip3 install tqdm

理解近端策略優化 (PPO)

PPO 是一種策略梯度算法,它迭代地從環境中采樣數據,并直接使用這些數據來優化策略。這個過程包括采樣和訓練兩個階段,數據在收集后立即進行訓練更新。這種在線方法確保策略根據與環境最近的交互持續改進。

在線學習

在 PPO 中,學習過程依賴于一個評論家(critic),它評估策略所采取行動的質量。評論家估計給定狀態的價值,通過比較預期回報與實際結果來指導策略優化。

在多代理設置中,我們部署多個策略,每個代理一個,通常以分散的方式運作。每個代理的策略僅根據其局部觀察來決定其行動。但是評論家可以是集中的或分散的:

  • MAPPO : 評論家是集中的,以全局觀察或連接的代理觀察作為輸入。這種方法在可獲得全局狀態信息的集中式訓練場景中有益。
  • IPPO : 評論家是分散的,僅依賴于局部觀察。這種設置支持分散式訓練,代理只需要局部信息。

集中式評論家有助于緩解多個代理同時學習時出現的非平穩性問題,但可能因輸入的高維度性而面臨挑戰。

TorchRL

TorchRL是一個基于PyTorch的強化學習(Reinforcement Learning, RL)庫,專為研究人員和開發者設計,旨在提供一個靈活、高效的框架來實現和實驗各種RL算法。

  1. 與PyTorch深度集成:TorchRL充分利用了PyTorch的生態系統,使用戶能夠無縫地將RL算法與深度學習模型結合。
  2. 模塊化設計:庫提供了可組合的組件,允許用戶輕松構建和定制RL算法。
  3. 高性能:TorchRL注重效率,支持GPU加速和并行化,以加快訓練和推理速度。
  4. 多環境支持:兼容多種RL環境,包括OpenAI Gym、DeepMind Control Suite等。
  5. 豐富的算法實現:內置多種流行的RL算法,如DQN、PPO、SAC等。
  6. 擴展性:易于擴展和添加新的算法、環境和功能。

下面代碼我們將使用TorchRL來完成我們的目標

1、設置超參數

我們從定義 MARL 設置的超參數開始。這些參數控制模擬和訓練過程的各個方面,如設備類型、批量大小、學習率和 PPO 特定設置。

import torch  
 from torch import multiprocessing  
   
 # 設置設備  
 is_fork = multiprocessing.get_start_method() == "fork"  
 device = torch.device(0) if torch.cuda.is_available() and not is_fork else torch.device("cpu")  
 vmas_device = device  # 運行 VMAS 模擬器的設備  
 # 采樣和訓練參數  
 frames_per_batch = 6000    
 n_iters = 10    
 total_frames = frames_per_batch * n_iters  
 # 訓練細節  
 num_epochs = 30    
 minibatch_size = 400    
 lr = 3e-4    
 max_grad_norm = 1.0    
 # PPO 參數  
 clip_epsilon = 0.2    
 gamma = 0.99    
 lmbda = 0.9    
 entropy_eps = 1e-4

2、創建環境

TorchRL 與 VMAS 的集成允許我們高效地創建和管理多代理環境。在我們環境中多個代理必須在 LIDAR 傳感器的引導下導航到各自的目標,同時避免碰撞。

from torchrl.envs.libs.vmas import VmasEnv  
   
 max_steps = 100    
 num_vmas_envs = frames_per_batch // max_steps    
 scenario_name = "navigation"  
 n_agents = 3  
 env = VmasEnv(  
     scenario=scenario_name,  
     num_envs=num_vmas_envs,  
     continuous_actions=True,  
     max_steps=max_steps,  
     device=vmas_device,  
     n_agents=n_agents,  
 )

3、策略設計

策略網絡在 PPO 中至關重要,它負責根據代理觀察生成動作。鑒于環境中的連續動作空間,我們將使用 Tanh-Normal 分布來模擬動作,這樣還可以決定是否在代理之間共享參數,在計算效率和行為多樣性之間權衡。

from torch.nn import Sequential, Tanh  
 from tensordict.nn import TensorDictModule  
 from torchrl.modules import MultiAgentMLP, ProbabilisticActor, TanhNormal  
 from tensordict.nn.distributions import NormalParamExtractor  
   
 share_parameters_policy = True  
 # 定義策略網絡  
 policy_net = Sequential(  
     MultiAgentMLP(  
         n_agent_inputs=env.observation_spec["agents", "observation"].shape[-1],  
         n_agent_outputs=2 * env.action_spec.shape[-1],  
         n_agents=env.n_agents,  
         centralised=False,  
         share_params=share_parameters_policy,  
         device=device,  
         depth=2,  
         num_cells=256,  
         activation_class=Tanh,  
    ),  
     NormalParamExtractor(),  
 )  
 # 將網絡包裝在 TensorDictModule 中  
 policy_module = TensorDictModule(  
     policy_net,  
     in_keys=[("agents", "observation")],  
     out_keys=[("agents", "loc"), ("agents", "scale")],  
 )  
 # 創建概率性行動者  
 policy = ProbabilisticActor(  
     module=policy_module,  
     spec=env.unbatched_action_spec,  
     in_keys=[("agents", "loc"), ("agents", "scale")],  
     out_keys=[env.action_key],  
     distribution_class=TanhNormal,  
     distribution_kwargs={  
         "low": env.unbatched_action_spec[env.action_key].space.low,  
         "high": env.unbatched_action_spec[env.action_key].space.high,  
    },  
     return_log_prob=True,  
     log_prob_key=("agents", "sample_log_prob"),  
 )

4、評論家網絡設計

評論家網絡評估狀態值,指導策略更新。可以根據使用 MAPPO 還是 IPPO 來選擇集中式或分散式評論家。在代理之間共享參數可以加速訓練,但是可能導致同質化策略。

share_parameters_critic = True  
 mappo = True  # 設置為 False 以使用 IPPO  
   
 critic_net = MultiAgentMLP(  
     n_agent_inputs=env.observation_spec["agents", "observation"].shape[-1],  
     n_agent_outputs=1,    
     n_agents=env.n_agents,  
     centralised=mappo,  
     share_params=share_parameters_critic,  
     device=device,  
     depth=2,  
     num_cells=256,  
     activation_class=Tanh,  
 )  
 critic = TensorDictModule(  
     module=critic_net,  
     in_keys=[("agents", "observation")],  
     out_keys=[("agents", "state_value")],  
 )

5、數據收集

TorchRL 中的數據收集通過設計用于自動處理環境重置、動作計算和環境步進的類得到簡化。所以我們可以直接使用 SyncDataCollector 來收集訓練數據。

from torchrl.collectors import SyncDataCollector  
   
 collector = SyncDataCollector(  
     env,  
     policy,  
     device=vmas_device,  
     storing_device=device,  
     frames_per_batch=frames_per_batch,  
     total_frames=total_frames,  
 )

6、訓練循環

訓練循環將環境、策略、評論家和數據收集器結合在一起,通過采樣和訓練階段的迭代來優化代理的性能。

from torchrl.data.replay_buffers import ReplayBuffer  
 from torchrl.data.replay_buffers.samplers import SamplerWithoutReplacement  
 from torchrl.data.replay_buffers.storages import LazyTensorStorage  
 from torchrl.objectives import ClipPPOLoss, ValueEstimators  
 from tqdm import tqdm  
   
 # 重放緩沖區設置  
 replay_buffer = ReplayBuffer(  
     storage=LazyTensorStorage(  
         size=frames_per_batch,  
         device=device,  
    ),  
     sampler=SamplerWithoutReplacement(),  
 )  
 # PPO 損失設置  
 ppo_loss = ClipPPOLoss(  
     actor=policy,  
     critic=critic,  
     clip_epsilon=clip_epsilon,  
     entropy_bonus=entropy_eps,  
     value_loss_coef=0.5,  
     gamma=gamma,  
     lam=lmbda,  
     advantage_normalization=True,  
 )  
 # 訓練循環  
 for i in tqdm(range(n_iters)):  
     batch = collector.next()  
     replay_buffer.extend(batch)  
     for _ in range(num_epochs):  
         for minibatch in replay_buffer.sample(minibatch_size):  
             loss = ppo_loss(minibatch)  
             loss.backward()  
             torch.nn.utils.clip_grad_norm_(ppo_loss.parameters(), max_grad_norm)  
             optimizer.step()  
             optimizer.zero_grad()

這樣我們完整的代碼就完成了,可以看到通過TorchRL,可以減少我們很多的代碼開發工作。

總結

本文提供了使用 TorchRL 和 PPO 實現 MARL 解決方案的全面指南。通過這些步驟,可以在多代理環境中訓練代理以導航復雜任務,同時利用 GPU 加速模擬和并行計算的力量。無論選擇集中式還是分散式評論家,TorchRL 都提供了設計和實驗不同 MARL 架構,可以幫助你解決多代理強化學習的復雜性。

責任編輯:華軒 來源: DeepHub IMBA
相關推薦

2024-10-12 17:14:12

2023-08-28 06:52:29

2024-05-30 16:37:29

2025-03-28 10:16:15

2023-03-09 08:00:00

強化學習機器學習圍棋

2020-08-10 06:36:21

強化學習代碼深度學習

2020-06-05 08:09:01

Python強化學習框架

2023-11-07 07:13:31

推薦系統多任務學習

2023-10-31 16:40:39

機器學習強化學習

2025-06-03 08:49:00

2021-09-17 15:54:41

深度學習機器學習人工智能

2020-11-12 19:31:41

強化學習人工智能機器學習

2024-04-03 07:56:50

推薦系統多任務推薦

2022-11-02 14:02:02

強化學習訓練

2025-05-08 09:16:00

模型強化學習訓練

2025-06-03 06:12:03

2025-05-06 08:40:00

2024-12-09 08:45:00

模型AI

2023-07-20 15:18:42

2023-04-23 10:12:14

算法強化學習
點贊
收藏

51CTO技術棧公眾號

亚洲国产视频a| 国产一区二区精品在线观看| 亚洲欧美三级伦理| 九九视频精品在线观看| 日本电影在线观看网站| 国产精品白丝av| 欧美亚洲免费电影| 快灬快灬一下爽蜜桃在线观看| 91麻豆精品一二三区在线| 亚洲亚洲精品在线观看| 欧美成人综合一区| 国产精品系列视频| 欧美日韩国产亚洲一区| 亚洲视频欧美视频| 中文字幕在线观看视频www| 亚洲一级少妇| 亚洲专区一二三| 午夜视频久久久| 可以免费看毛片的网站| 免播放器亚洲一区| 97超碰国产精品女人人人爽| 国产黄a三级三级| 久久久久久毛片免费看| 欧美精品欧美精品系列| av免费播放网址| 2020国产在线视频| 国产日韩欧美a| 国产精品青青草| 国产又大又黑又粗| 老司机一区二区三区| 欧美放荡办公室videos4k| 天天躁夜夜躁狠狠是什么心态| 91精品国产乱码久久久竹菊| 欧美精品视频www在线观看 | 视频在线不卡| 国产精品香蕉一区二区三区| 国产精品视频精品| 国产精品suv一区| 99精品视频免费全部在线| zzijzzij亚洲日本成熟少妇| 黄免费在线观看| 久久精品色综合| 欧美成人aa大片| 日本中文字幕在线不卡| 国产人妖一区| 欧美性色黄大片| 亚洲熟妇av一区二区三区| 女子免费在线观看视频www| 日韩美女精品在线| 一区二区三区av在线| 成人影视在线播放| 国产偷国产偷精品高清尤物| 欧美福利一区二区三区| 日本黄在线观看| 99riav久久精品riav| 国产伦一区二区三区色一情| 韩国av免费在线| 国产成人精品一区二区三区网站观看| 国产欧美日韩丝袜精品一区| 伊人精品在线视频| 久久91精品国产91久久小草| 成人国产精品一区| 国产农村妇女毛片精品| 国产精品12区| 国产精品国产一区二区| 日本激情视频网站| av在线播放一区二区三区| 狠狠色综合色区| 欧美伦理影视网| 欧美国产精品劲爆| 中文字幕一区二区三区四区五区 | 久热精品视频在线| 永久免费看黄网站| 亚洲无线视频| 2019av中文字幕| 中文字幕一区二区人妻视频| 欧美aaaaaa午夜精品| 成人高清视频观看www| 国产欧美综合视频| 成人av在线影院| 蜜桃视频日韩| a√资源在线| 伊人夜夜躁av伊人久久| 精品视频免费在线播放| 日韩精品第一| 日韩午夜激情免费电影| 插我舔内射18免费视频| 伊人久久大香线蕉无限次| 中文字幕免费国产精品| 强乱中文字幕av一区乱码| 日韩午夜电影| 国产精品美女在线| 亚洲国产成人一区二区| 久久日韩精品一区二区五区| 中文字幕久久综合| 日本三级一区| 欧美乱妇15p| 欧产日产国产精品98| 成人综合专区| 国内精品久久久久久久久| 中文字幕精品视频在线观看| 国产一区二区三区高清播放| 精品一区二区久久久久久久网站| h视频在线观看免费| 一区二区免费看| 色一情一乱一伦一区二区三区日本| 亚洲精品无播放器在线播放| 日韩精品黄色网| 亚洲 欧美 变态 另类 综合| 亚洲尤物影院| 99中文字幕| 爱爱爱免费视频在线观看| 亚洲自拍偷拍网站| 少妇激情一区二区三区| 成人免费直播在线| 日韩一区二区av| 狠狠人妻久久久久久综合| 国产剧情av麻豆香蕉精品| 青青草成人激情在线| 欧美人与牲禽动交com | 亚洲国产精品久久久久久久| 日本一区二区三区视频视频| 欧美日韩福利在线| 91成人小视频| 一区二区三区四区视频| 日本网站免费观看| 国产剧情av麻豆香蕉精品| 亚洲高清在线观看一区| 欧美片第1页| 亚洲国产免费av| 欧美日韩精品亚洲精品| 美国一区二区三区在线播放| 欧美日韩一区二区三区免费| 国产一线二线在线观看| 日韩一级免费观看| 国产激情无码一区二区三区| 喷水一区二区三区| 欧美精品123| 亚洲人成午夜免电影费观看| 亚洲成人aaa| 免费在线观看黄色av| 国产美女主播视频一区| 中文字幕日韩一区二区三区| 欧美成人三级| 色妞一区二区三区| 欧美日韩在线视频播放| 久久久久久久久久电影| 日韩avxxx| 牲欧美videos精品| 国内精品久久久久久久| 手机av免费在线观看| 一区二区三区精密机械公司| 亚洲综合伊人久久| 亚洲高清影视| 91网免费观看| 狂野欧美激情性xxxx欧美| 欧美成人a在线| 日本熟妇成熟毛茸茸| www.日韩av| 人妻有码中文字幕| 国产探花一区在线观看| 国产精品人成电影| 久草免费在线| 日韩西西人体444www| 国产性70yerg老太| 不卡大黄网站免费看| 国产 日韩 亚洲 欧美| 欧美黄色网视频| 国产成人精品午夜| 三区四区电影在线观看| 日韩一区二区三区视频在线观看| 妺妺窝人体色www婷婷| a美女胸又www黄视频久久| 欧美黄网站在线观看| 久久成人综合| 成人av电影免费| 黑人精品一区| 日韩中文在线中文网在线观看| 91tv国产成人福利| 亚洲一卡二卡三卡四卡| www.色多多| 麻豆国产欧美一区二区三区| 久久av高潮av| 美女久久久久| 成人夜晚看av| а√天堂资源官网在线资源| 亚洲深夜福利在线| 国产av无码专区亚洲a∨毛片| 亚洲成人免费在线观看| 人妻aⅴ无码一区二区三区| 精品在线免费视频| 日韩人妻无码精品久久久不卡| 国产精品午夜一区二区三区| 成人av电影天堂| 欧美久久天堂| 久久精品国产69国产精品亚洲| 国产 欧美 自拍| 欧美伊人久久大香线蕉综合69 | 999精品色在线播放| 国产精品久久久久久久久久直播 | 欧美激情偷拍| 久久资源亚洲| 国产一区一区| 国产精品国内视频| 好久没做在线观看| 一区二区三区在线播放欧美| 亚洲免费成人在线| 欧美无砖专区一中文字| 91午夜视频在线观看| 亚洲欧美综合另类在线卡通| 国产色视频一区二区三区qq号| 久草中文综合在线| 丁香啪啪综合成人亚洲| 激情久久婷婷| 天堂av在线中文| 红桃成人av在线播放| 国产女主播一区二区三区| 婷婷激情成人| 国产精品av电影| 久久青草伊人| 欧美日韩第一页| 亚洲s色大片| 一本久久综合亚洲鲁鲁| 亚洲欧美日韩成人在线| 日韩精品一区二区三区在线播放 | 999精品网| 久久精品中文字幕| 在线观看a视频| 亚洲午夜久久久影院| 五月婷婷免费视频| 精品久久一二三区| 国产av精国产传媒| 51午夜精品国产| 97超碰中文字幕| 欧美日韩国产另类一区| 日本欧美www| 91成人看片片| 无码人妻精品一区二| 日韩欧美国产黄色| 天天操天天摸天天干| 婷婷夜色潮精品综合在线| 久久精品性爱视频| 亚洲成人精品一区| 国产精品久久久免费视频| 午夜精品免费在线观看| 日韩成人免费在线观看| 亚洲香肠在线观看| 日韩黄色一级大片| 欧美日韩中文字幕综合视频| 日本特级黄色片| 欧美性猛xxx| 日本三级片在线观看| 午夜影院久久久| 精品在线播放视频| 欧美日韩国产精品专区| 九九九在线观看| 色综合久久九月婷婷色综合| 成人免费毛片视频| 精品视频一区三区九区| 一区不卡在线观看| 欧美一区二区久久久| www国产在线| 亚洲激情视频网站| 久久精品国产亚洲a∨麻豆| 亚洲香蕉成人av网站在线观看| 国产对白叫床清晰在线播放| 最新亚洲国产精品| 成年视频在线观看| 久久久久久91| 成人性生交大片免费观看网站| 国产精品va在线播放我和闺蜜| 99欧美精品| 成人午夜黄色影院| 99re91这里只有精品| 久久久久久艹| 91影院成人| www.九色.com| 美女尤物久久精品| 亚洲欧美日本一区二区三区| 国产黄人亚洲片| 国产男女猛烈无遮挡a片漫画| 国产精品色眯眯| 欧美成人手机视频| 色系网站成人免费| 国产三级按摩推拿按摩| 亚洲精品美女在线| 在线免费观看黄色av| 欧美激情a在线| 黑人巨大精品欧美一区二区桃花岛| 国产色视频一区| 国产精品自在| 亚洲图片小说在线| 亚洲日本激情| 艹b视频在线观看| av在线一区二区三区| 999精品在线视频| 精品久久久久久中文字幕大豆网| 国产精品欧美综合| 精品国产伦一区二区三区观看体验| 毛片免费在线观看| 欧美夫妻性视频| 日本中文字幕一区二区| 国产精华一区| 成人高清电影网站| 久久黄色片视频| 激情小说亚洲一区| 实拍女处破www免费看| 亚洲影院免费观看| 亚洲一级黄色大片| 日韩精品在线播放| 国产黄色在线观看| 国产精品久久久久久av福利软件 | 欧美一级二级三级乱码| 巨骚激情综合| 亚洲91av视频| 欧美午夜在线播放| 亚洲电影网站| 久久高清免费观看| 秘密基地免费观看完整版中文| 国产精品国产精品国产专区不片| 中文字字幕在线中文| 精品国产成人在线影院| 国产精品久久麻豆| 国产精品三级美女白浆呻吟| 亚洲精品小区久久久久久| 欧美黄色免费网址| 国产精品一区二区视频| 国产精品麻豆免费版现看视频| 日本久久一区二区三区| 婷婷国产在线| 午夜精品一区二区三区在线视频 | 日本欧美韩国一区三区| 影音先锋黄色资源| 亚洲一区影音先锋| www.超碰在线.com| 久久成人在线视频| 国产精品视频一区二区三区综合| 神马影院我不卡| 丝袜国产日韩另类美女| 亚洲国产无码精品| 欧美视频一区二区三区…| 亚州男人的天堂| 91国内揄拍国内精品对白| 任我爽精品视频在线播放| 欧美 日韩 激情| 91小视频在线| 免费视频久久久| 一区二区三区 在线观看视| 欧美123区| 亚洲一区二区精品在线| 久久国产精品色| 开心激情五月网| 91麻豆精品国产91久久久久久久久| 免费黄色网址在线观看| 亚洲jizzjizz日本少妇| 欧美激情1区| 欧美肉大捧一进一出免费视频 | 日韩一级黄色av| 亚洲精品伊人| 青青视频免费在线观看| 成人午夜激情在线| 日本三级一区二区| 亚洲性线免费观看视频成熟| 日韩av电影资源网| 中文字幕欧美日韩一区二区| 国产激情一区二区三区桃花岛亚洲| 久久国产一级片| 国产丝袜一区二区三区| 国产成人精品一区二三区在线观看| 亚洲国产精品一区在线观看不卡| 久国产精品韩国三级视频| 久久久久久久久久久久国产| 亚洲国模精品一区| 午夜精品成人av| 精品少妇人妻av一区二区| 成人午夜电影网站| 久久久久在线视频| 久久精品视频va| www国产精品| 熟女人妇 成熟妇女系列视频| 国产精品高潮久久久久无| 亚洲第一天堂在线观看| 日本成人激情视频| 亚洲精品成人无限看| 在线观看国产免费视频| 在线精品视频免费观看| av中文字幕在线播放| 久久久久久九九九九| 激情小说亚洲一区| 久久久精品福利| 久久国产精品久久久久久| 五月天亚洲一区| 伊人免费视频二| 日韩欧美有码在线| 国产精品剧情| 欧美一区二区三区在线免费观看| 国产在线一区二区综合免费视频| av大全在线观看| 久久99精品久久久久久琪琪| 国产真实有声精品录音|