精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

OpenAI提出強化學習新方法:讓智能體學習合作、競爭與交流

開發 開發工具
近日,OpenAI、麥吉爾大學和加州大學伯克利分校的幾位研究者提出了一種「用于合作-競爭混合環境的多智能體 actor-critic」。之后,OpenAI 發布博客對這項研究進行了解讀,機器之心對該解讀文章進行了編譯介紹。

讓智能體(agent)學會合作一直以來都是人工智能領域內的一項重要研究課題,一些研究者也認為合作能力是實現通用人工智能(AGI)的必要條件。而除了合作,讓智能體學會競爭可能也是實現這一目標的一大關鍵。近日,OpenAI、麥吉爾大學和加州大學伯克利分校的幾位研究者提出了一種「用于合作-競爭混合環境的多智能體 actor-critic」。之后,OpenAI 發布博客對這項研究進行了解讀,機器之心對該解讀文章進行了編譯介紹。

讓智能體能在其中為資源進行競爭的多智能體環境是實現通用人工智能之路的墊腳石。

多智能體環境(multi-agent environment)有兩個實用的屬性:***,存在一個自然的全套考驗——環境的難度取決于你的競爭者的能力(而且如果你正在和你的克隆體進行對抗的話,環境就可以精確地匹配出你的技術水平)。第二點,多智能體環境沒有穩定的平衡態(equilibrium):無論一個智能體多么聰明,總會有讓它變得更智能的壓力。這些環境和傳統環境相比有很大的不同,并且要想掌控它們我們還需要大量的研究。

我們已經設計了一個新算法 MADDPG(Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments),可用于多智能體環境中的中心化學習(centralized learning)和去中心化執行(decentralized execution),讓智能體可以學習彼此合作和競爭。

用來訓練 4 個紅色智能體追逐 2 個綠色智能體的 MADDPG

用來訓練 4 個紅色智能體追逐 2 個綠色智能體的 MADDPG。紅色智能體已經學會和「同伴」進行團隊合作來追逐單個綠色智能體,以獲得更高的獎勵。同時,綠色智能體學會了彼此分散,并且當它們中的一個正在被追逐時,另一個就會嘗試接近水源(藍色圓圈)以躲避紅色智能體。

MADDPG 對 DDPG(https://arxiv.org/abs/1509.02971)這種強化學習算法進行了延伸,并從 actor-critic 強化學習技術上獲得了靈感;也有其他研究團隊正在探索這些思路的變體和并行實現的方法,參閱以下論文:

  • Learning Multiagent Communication with Backpropagation:https://arxiv.org/abs/1605.07736
  • Learning to Communicate with Deep Multi-Agent Reinforcement Learning:https://arxiv.org/abs/1605.06676
  • Counterfactual Multi-Agent Policy Gradients:https://arxiv.org/abs/1705.08926

我們把仿真實驗中的每一個智能體都當作「演員(actor)」,并且每個演員都從「批評家(critic)」那里獲得建議,從而來幫助 actor 去決策哪些動作在訓練過程中應該被強化。傳統上,critic 會設法去預測在一個特定狀態中一個動作的價值(value,即將來期望得到的獎勵),這個獎勵會被智能體(actor)用來更新它自己的策略(policy)。和直接使用獎勵(reward)相比,這無疑是更加可靠的,因為它可以根據具體情況來進行調整。為了讓這種方法適用于多智能體全局協同(globally-coordinated)的情況,我們改進了我們的 critic,使它們可以獲得所有智能體的觀察結果和動作,如下圖所示。

我們的智能體無需在測試的時候有一個中心 critic;它們可以基于它們的觀察以及它們對其它智能體的行為的預測來采取行動。因為一個中心化的 critic 是為每個智能體獨立學習到的,所以我們的方法也可以在多智能體之間構造任意的獎勵結構,包括擁有相反獎勵的對抗案例。

我們在許多不同的任務上對我們的方法進行了測試,其在所有任務上的表現都優于 DDPG。在上面的動畫中你可以看到,從上到下:兩個 AI 智能體試圖到達特定地點,學會了分開行動以向其對手智能體隱藏其目標位置;一個智能體與另一個智能體溝通目標的名稱;三個智能體協調,在不碰撞彼此的情況下到達目標。

使用 MADDPG(上)訓練的紅色智能體表現出了比那些使用 DDPG(下)訓練的智能體更復雜的行為。其中,紅色智能體試圖通過綠色的森林來追逐綠色的智能體,同時繞過黑色的障礙。我們的智能體可以捕捉到更多智能體,而且也看得出來,我們的智能體比 DDPG 方法訓練的智能體合作能力更強。

傳統強化學習不給力的地方

傳統的去中心化強化學習方法(DDPG、actor-critic 學習和深度 Q 學習等等)難以在多智能體環境中學習,因為在每一個時間步,每個智能體都會嘗試學習預測其它智能體的動作,同時還要采取自己的行動。有競爭的情形中,尤其如此。MADDPG 使用了一種中心化的 critic 來為智能體提供補充,這些補充信息包括它們同伴的觀察和潛在動作,從而可以將一個不可預測的環境轉換成可預測的。

使用策略梯度方法會帶來進一步的難題:因為這會帶來很高的方差,當獎勵不一致時很難學習到正確的策略。我們還發現添加 critic 雖然可以提高穩定性,但是仍然不能應對我們的部分環境,比如合作交流(cooperative communication)。似乎在訓練中考慮其它智能體的動作對學習合作策略來說非常重要。

初步研究

在我們開發 MADDPG 之前,在使用去中心化技術時,我們注意到如果說話者在表達自己的去處時不一致,那么聽話者智能體(listener agent)就常常會學會忽略說話者。然后該智能體會將所有與該說話者的信息關聯的權重設置為 0,從而有效地「靜音」。一旦這種情況發生,就很難通過訓練恢復了;因為缺乏任何反饋,所以該說話者將永遠無法知道它說的是否正確。為了解決這個問題,我們研究了最近一個分層強化學習項目

(https://arxiv.org/abs/1703.01161)中提出的技術,這可以讓我們迫使聽話者在其決策過程中整合該說話人的表述。但這個解決方案沒有作用,因為盡管其強迫聽話者關注說話者,但對說話者了解應該說什么相關內容卻毫無助益。我們的中心化 critic 方法有助于解決這些難題,可以幫助說話者了解哪些表述可能與其它智能體的動作相關。

下一步

在人工智能研究領域,智能體建模(agent modeling)可謂歷史悠久,很多場景都已經得到過了研究。過去的很多研究都只考慮了少量時間步驟和很小的狀態空間。深度學習讓我們可以處理復雜的視覺輸入,而強化學習可以給我們帶來學習長時間行為的工具。現在,我們可以使用這些能力來一次性訓練多個智能體,而無需它們都了解環境的動態(環境會在每個時間步驟如何變化),我們可以解決大量涉及到交流和語言的問題,同時學習環境的高維信息。以下為原論文的摘要:

論文:用于合作-競爭混合環境的多智能體 Actor-Critic(Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments)

論文地址:https://arxiv.org/pdf/1706.02275.pdf

用于合作-競爭混合環境的多智能體

我們探索了用于多智能體域(multi-agent domains)的深度強化學習方法。我們開始分析了傳統算法在多智能體案例中的困難:Q 學習(Q-learning)因為環境固有的非平穩性(non-stationarity)而受到了挑戰,而策略梯度(policy gradient)則飽受隨智能體數量增長而增大的方差之苦。然后我們提出了對 actor-critic 方法的一種調整,其考慮了其它智能體的動作策略(action policy),能夠成功學習到需要復雜多智能體協調的策略。此外,我們還引入了一種為每個智能體使用策略集成(ensemble of policies)的訓練方案,可以得到更加穩健的多智能體策略。我們表明了我們的方法相對于已有的方法在合作和競爭場景中的能力,其中智能體群(agent populations)能夠發現各種物理和信息的協調策略。

原文:https://blog.openai.com/learning-to-cooperate-compete-and-communicate/

【本文是51CTO專欄機構“機器之心”的原創譯文,微信公眾號“機器之心( id: almosthuman2014)”】

 

戳這里,看該作者更多好文

責任編輯:趙寧寧 來源: 51CTO專欄
相關推薦

2025-10-20 08:50:00

2025-10-10 08:33:49

2025-10-28 15:42:32

AlphaGo強化學習算法

2025-03-07 09:24:00

2023-08-28 06:52:29

2022-11-03 14:13:52

強化學習方法

2025-04-25 09:12:00

2020-04-15 16:44:38

谷歌強化學習算法

2023-10-05 06:05:54

谷歌時間訓練

2017-03-28 10:15:07

2025-01-23 10:08:00

虛擬數字AI

2025-11-10 04:15:00

2021-10-11 17:15:30

AI 數據人工智能

2019-12-30 09:41:59

機器學習人工智能計算機

2025-04-01 09:32:00

模型訓練AI

2022-11-02 14:02:02

強化學習訓練

2022-11-27 12:50:01

AI算法MIT

2023-08-16 15:25:43

2017-08-22 15:56:49

神經網絡強化學習DQN

2017-08-17 09:15:23

強化學習KerasOpenAI
點贊
收藏

51CTO技術棧公眾號

成人三级黄色免费网站| 日本一级黄色录像| 国产成人免费精品| 国产精品久久午夜| 成人黄色av网站| caoporn91| 国产亚洲精品美女久久| 色婷婷久久久亚洲一区二区三区 | av电影在线观看一区| 国产成人精品视频| 日日噜噜夜夜狠狠久久波多野| 国产成人澳门| 欧美日韩三级一区| 黄色a级片免费看| 国产午夜精品一区理论片| 激情成人综合网| 91国产精品视频在线| 国产精品18在线| 国产色噜噜噜91在线精品| 在线观看国产91| 亚洲精品蜜桃久久久久久| 国产高清一区在线观看| 国产成人亚洲综合a∨婷婷图片| 欧美在线视频免费| 欧美日韩综合一区二区| 韩日一区二区三区| 亚洲成人免费在线视频| 国产亚洲视频一区| 国产免费不卡| 亚洲国产视频直播| 在线视频欧美一区| 每日更新av在线播放| 国产精品一区在线观看你懂的| 久久久久久久999精品视频| 黑人狂躁日本娇小| 欧美禁忌电影| 日韩激情av在线播放| 特种兵之深入敌后| 亚洲资源在线| 欧美图区在线视频| 97av视频在线观看| 98色花堂精品视频在线观看| 一区二区成人在线视频| 亚洲图片欧洲图片日韩av| 性xxxx视频播放免费| 国产精品一区二区男女羞羞无遮挡| 日本不卡高字幕在线2019| 国产精品成人av久久| 中文无码久久精品| 欧美成人合集magnet| 成人黄色短视频| 欧洲杯半决赛直播| 亚洲人成啪啪网站| 欧美黑人欧美精品刺激| 欧美18免费视频| 亚洲成色www8888| 亚洲成a人无码| 综合激情网...| 日韩一区二区在线播放| 久久久久久久久久久久久久久国产| 自拍偷自拍亚洲精品被多人伦好爽 | 成人国产在线激情| 中文字幕第一页在线播放| 三级一区在线视频先锋| 人妖精品videosex性欧美| 五月婷婷亚洲综合| 鲁大师成人一区二区三区 | 国产91亚洲精品一区二区三区| 艳妇乳肉豪妇荡乳av| 奇米影视7777精品一区二区| 国产精品精品久久久| 中文字幕av影视| 热久久一区二区| 国产精品欧美日韩一区二区| 中文字幕+乱码+中文乱码91| 蜜桃久久久久久久| 日本国产精品视频| 一级黄色大片视频| 日韩激情av在线| 国产精品视频资源| 国产麻豆免费视频| 成人手机电影网| 99re在线| 日本高清视频www| 91亚洲男人天堂| 日韩欧美第二区在线观看| 色开心亚洲综合| 亚洲免费观看高清| 久久综合色视频| 成人国产精品一区二区免费麻豆 | av黄色在线播放| 日韩专区中文字幕一区二区| 91久久久国产精品| 天堂网av2014| 亚洲国产高清不卡| 精品国产av无码一区二区三区| 欧美18av| 7777精品伊人久久久大香线蕉| 曰本三级日本三级日本三级| 人人精品视频| 日韩中文字幕视频在线| 欧美性生给视频| 亚洲国产精品一区| 国产精品影片在线观看| 超碰在线人人干| 久久精品视频免费| 欧美少妇一级片| 在线免费av资源| 欧美电影一区二区| 好吊一区二区三区视频| 成人网18免费网站| 国内精品久久久久久久| 在线免费观看av片| av中文一区二区三区| 亚洲一区二区三区午夜| 超碰成人av| 欧美日韩不卡一区| 亚洲天堂网一区二区| 一区二区国产在线| 国产999精品久久久影片官网| 国产免费一区二区三区免费视频| 91蜜桃在线观看| 宅男噜噜99国产精品观看免费| 久草在线中文最新视频| 欧美一区二区成人| 日本理论中文字幕| 亚洲一区二区免费看| www日韩av| 国产三区在线观看| 欧美日韩一级二级| 免费在线观看你懂的| 欧美日韩亚洲一区三区| 国产成人+综合亚洲+天堂| 粉嫩av一区二区夜夜嗨| 国产精品国产三级国产普通话99 | 日韩电影免费在线看| 成人xxxxx色| 欧美三级黄网| 在线看不卡av| 美女爆乳18禁www久久久久久 | 国产免费av一区二区| 国产高清精品久久久久| 在线视频不卡一区二区| 国产一区高清| 一区国产精品视频| 最近免费中文字幕大全免费版视频| 丁香天五香天堂综合| 日本一道在线观看| 国产精品毛片aⅴ一区二区三区| 这里只有精品视频在线| 69视频免费在线观看| 91浏览器在线视频| 欧美爱爱视频免费看| 好吊妞视频这里有精品 | av中文在线资源| 欧美电视剧在线看免费| 久久久久久久久久91| 粉嫩av一区二区三区在线播放| 欧美做暖暖视频| 欧美中文高清| 欧美福利视频在线| 亚洲欧美另类视频| 性做久久久久久免费观看欧美| 久久国产劲爆∧v内射| 国产一区二区三区四区三区四| 成人午夜电影免费在线观看| 蜜乳av一区| 亚洲国产欧美自拍| 少妇太紧太爽又黄又硬又爽| 久久婷婷综合激情| 一级特黄性色生活片| 久久在线播放| 成人国产精品免费视频| 亚洲按摩av| 亚洲国产91色在线| 五月天婷婷导航| 国产精品网站在线| 欧美xxxx黑人| 一本一本久久| 日韩精品极品视频在线观看免费| 成人在线视频观看| 久久婷婷国产麻豆91天堂| 丰满岳乱妇国产精品一区| 欧美日韩国产区| 黄色aaa视频| 久久99精品一区二区三区三区| 黄色一级视频播放| 欧美日韩夜夜| 国产精品成人一区| av官网在线播放| 日韩成人免费视频| 91福利在线观看视频| 亚洲午夜私人影院| 波多野在线播放| 国产高清精品网站| 青青草国产精品视频| 免费成人三级| 国产精品av在线| 免费黄色网址在线观看| 欧美精品一区二区高清在线观看| 久久久免费高清视频| 亚洲视频狠狠干| 最近中文字幕无免费| 蜜桃av噜噜一区| 欧美精品久久久久久久自慰| 成人3d动漫在线观看| 国产69精品久久久久9999apgf | 久久国产精品久久久| 三级网站在线看| 欧美日韩国产精品自在自线| 国产黄色片视频| 国产精品视频免费看| 欧美双性人妖o0| 麻豆精品一区二区av白丝在线| 秋霞无码一区二区| 我不卡伦不卡影院| 欧美日韩国产综合视频在线| 亚洲精品高潮| 国产精品爽爽爽爽爽爽在线观看| 国产理论在线| 久久精视频免费在线久久完整在线看| 午夜av免费在线观看| 91精品欧美久久久久久动漫| 无码人妻精品一区二区三区9厂 | 欧美高清激情brazzers| av黄色在线看| 亚洲一级不卡视频| 亚洲av无一区二区三区| 久久久久久久网| 国产人妻黑人一区二区三区| 国产黄色91视频| 欧美特黄aaa| 蜜臀久久久99精品久久久久久| 欧美日韩二三区| 欧美精品国产一区| 99久久久无码国产精品性色戒| 精品国产成人| 欧美日韩三区四区| 91在线一区| 亚洲综合视频1区| 亚洲欧美专区| 国产精品美女免费视频| 97成人资源| 欧美亚洲在线播放| 欧美办公室脚交xxxx| 久久99久久99精品免观看粉嫩 | 欧美xxxx吸乳| 日韩av有码| 日本一区二区三区视频在线观看| 日韩精品a在线观看91| 国内一区二区在线视频观看| 第四色在线一区二区| 国产精品 日韩| 99ri日韩精品视频| 国产精品一区视频| 日本成人7777| 久久精品中文字幕一区二区三区| 欧美日韩精品一区二区三区在线观看| 国产日本一区二区三区| 久久91在线| 国产一区免费观看| 色婷婷久久久| 快播日韩欧美| 精品久久影院| 一本一本a久久| 天天射天天综合网| 超薄肉色丝袜足j调教99| 欧美视频久久| 青青草精品视频在线| 国产精品毛片| 国产福利影院在线观看| 美女在线视频一区| 又黄又爽又色的视频| 成人午夜视频在线| 久久精品成人av| 国产精品视频在线看| 日韩精品一区二区亚洲av性色| 一区二区在线观看免费视频播放| 久久激情免费视频| 色综合久久综合中文综合网| 少妇高潮av久久久久久| 欧美日韩亚洲丝袜制服| 国产视频手机在线| 精品免费日韩av| 青青草视频免费在线观看| 在线播放国产一区二区三区| 操你啦视频在线| 97视频在线观看视频免费视频| 欧美片第一页| 91欧美精品午夜性色福利在线| 999在线精品| 欧美一区1区三区3区公司| 国产韩国精品一区二区三区| 无码人妻精品一区二区蜜桃网站| 亚洲精品人人| 男操女免费网站| 国产成人欧美日韩在线电影| 欧洲av一区二区三区| 亚洲精品免费播放| 亚洲av无码精品一区二区| 欧美一区三区四区| 免费在线一级视频| 久久97久久97精品免视看| 成人av免费电影网站| 亚洲伊人一本大道中文字幕| 亚洲视频分类| 欧美一级中文字幕| 日韩av高清在线观看| 亚洲av综合色区无码另类小说| 国产午夜精品久久| 精品少妇一二三区| 欧美日韩亚洲丝袜制服| 三级视频网站在线| 久久99久国产精品黄毛片入口| 天然素人一区二区视频| 超碰97在线播放| 久久理论电影| 日韩av片在线看| 国产成都精品91一区二区三| 国产一二三av| 色综合亚洲欧洲| 国产自产一区二区| 久久视频国产精品免费视频在线| 春暖花开亚洲一区二区三区| 国产精品一区二区欧美| 91精品观看| jizz18女人| 久久精品水蜜桃av综合天堂| 成人免费看片98欧美| 精品国产免费人成电影在线观看四季 | 国产无套精品一区二区三区| 国产精品久久久久久久午夜片| 亚洲日本视频在线观看| 亚洲电影中文字幕| 男人天堂亚洲| 91在线短视频| 91成人影院| 国产原创精品在线| 欧美高清在线一区二区| 亚洲黄色小说图片| 日韩av在线免播放器| 福利小视频在线| 97视频中文字幕| 欧美一区二区三区另类| 91丨九色丨蝌蚪| 亚洲欧洲日韩一区二区三区| 日韩av免费播放| 国产亚洲日本欧美韩国| 中韩乱幕日产无线码一区| 欧美一区二区综合| 日韩高清不卡一区二区| b站大片免费直播| 91久久精品国产91性色tv| 欧洲毛片在线| 日韩美女在线播放| 经典一区二区| 黄色三级视频片| 国产日本一区二区| 精品国产青草久久久久96| 在线日韩av观看| 久久女人天堂| 青青草影院在线观看| 国产成人aaa| 亚洲男人第一av| 日韩二区三区在线| 视频在线日韩| 亚洲欧美影院| 国产一区视频在线看| 免费又黄又爽又色的视频| 亚洲国产欧美一区二区丝袜黑人 | 神马久久久久久| 日韩成人精品一区二区三区| 中文字幕第一页亚洲| 成年人国产精品| 一本一道无码中文字幕精品热| 国产亚洲免费的视频看| 精品国产美女a久久9999| 日韩成人午夜影院| 99久久久免费精品国产一区二区| 欧美一区二区激情视频| 在线免费看av不卡| 秋霞一区二区| 3d动漫一区二区三区| 欧美高清在线视频| www.97超碰| 欧美自拍大量在线观看| 日本午夜一区| 不卡的一区二区| 色综合久久久久| 婷婷成人激情| 国产一区二区三区四区五区加勒比| 久久国产欧美| 91杏吧porn蝌蚪| 亚洲精选一区二区| 9999精品| 日韩少妇内射免费播放18禁裸乳| 欧美激情一区在线观看| www.天堂av.com| 国产不卡av在线| 欧美成人一品|