精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

深度策略梯度算法是真正的策略梯度算法嗎?

開發 開發工具 機器學習 算法
來自 MIT 和 Two Sigma 的研究者重新檢驗了深度強化學習方法的概念基礎,即目前深度強化學習的實踐多大程度上反映了其概念基礎框架的原則?該研究重點探討深度策略梯度方法。

近期深度強化學習取得了很多成功,但也存在局限性:缺乏穩定性、可復現性差。來自 MIT 和 Two Sigma 的研究者重新檢驗了深度強化學習方法的概念基礎,即目前深度強化學習的實踐多大程度上反映了其概念基礎框架的原則?該研究重點探討深度策略梯度方法。

[[250025]]

深度強化學習是現代機器學習最為人所知的成就,它造就了 AlphaGO 這樣廣為人知的應用。對很多人來說,該框架展示了機器學習對現實世界的影響力。但是,不像當前的深度(監督)學習框架,深度強化學習工具包尚未支持足夠的工程穩定性。的確,近期的研究發現當前***的深度強化學習算法對超參數選擇過于敏感,缺乏穩定性,且可復現性差。

這表明或許需要重新檢驗深度強化學習方法的概念基礎,準確來說,該研究要解決的重要問題是:目前深度強化學習的實踐多大程度上反映了其概念基礎框架的原則?

該論文重點研究深度策略梯度方法,這是一種廣泛使用的深度強化學習算法。研究目標是探索這些方法的當前***實現多大程度上體現了通用策略梯度框架的關鍵基元。

該論文首先檢驗重要的深度策略梯度方法近端策略優化(PPO)。研究發現 PPO 的性能嚴重依賴于非核心算法的優化,這表明 PPO 的實際成功可能無法用其理論框架來解釋。

這一觀察促使研究者進一步檢查策略梯度算法及其與底層框架之間的關系。研究者對這些算法在實踐中展示的關鍵強化學習基元進行了細致地檢查。具體而言,研究了:

  • 梯度估計(Gradient Estimation):研究發現,即使智能體的獎勵有所提升,用于更新參數的梯度估計通常與真實梯度不相關。
  • 價值預測(Value Prediction):實驗表明價值網絡能夠訓練并成功解決監督學習任務,但無法擬合真正的價值函數。此外,將價值網絡作為基線函數僅能稍微降低梯度估計的方差(但能夠顯著提升智能體的性能)。
  • ***化 Landscape:研究發現***化 Landscape 通常無法反映其真正獎勵的潛在 Landscape,后者在相關的采樣方案(sample regime)中通常表現不佳。
  • 置信域:研究發現深度策略梯度算法有時會與置信域產生理論沖突。實際上,在近端策略優化中,這些沖突來源于算法設計的基礎問題。

研究者認為以上問題以及我們對相關理論知識的缺乏是深度強化學習脆弱性和低復現性的主要原因。這表明構建可信賴的深度強化學習算法要求拋棄之前以基準為中心的評估方法,以便多角度地理解這些算法的非直觀行為。

論文:Are Deep Policy Gradient Algorithms Truly Policy Gradient Algorithms?

論文:Are Deep Policy Gradient Algorithms Truly Policy Gradient Algorithms?

論文鏈接:https://arxiv.org/pdf/1811.02553.pdf

摘要:本文研究了深度策略梯度算法對促進其發展的底層概念框架的反映程度。我們基于該框架的關鍵要素對當前***方法進行了精細分析,這些方法包括梯度估計、價值預測、***化 landscape 和置信域分析。我們發現,從這個角度來看,深度策略梯度算法的行為通常偏離其概念框架的預測。我們的分析開啟了鞏固深度策略梯度算法基礎的***步,尤其是,我們可能需要拋棄目前以基準為中心的評估方法。

檢查深度策略梯度算法的基元

1. 梯度估計的質量

策略梯度方法的核心前提是恰當目標函數上的隨機梯度上升帶來優秀的策略。具體來說,這些算法使用(代理)獎勵函數的梯度作為基元:

梯度

這些方法的理論背后的底層假設是,我們能夠獲取對梯度的合理估計,即我們能夠使用有限樣本(通常大約 103 個)的經驗平均值準確估計上面的期望項。因此研究者對實踐中該假設的有效性很感興趣。

我們計算出的梯度估計準確度如何?為了解決該問題,研究者使用了評估估計質量最自然的度量標準:經驗方差(empirical variance)和梯度估計向「真正」梯度的收斂情況。

梯度

圖 2

圖 2:梯度估計的經驗方差在 MuJoCo Humanoid 任務中可作為狀態-動作對關于數量的函數,x 軸為狀態-動作對,y 軸是梯度估計的經驗方差。

圖 3

圖 3:MuJoCo Humanoid 任務中梯度估計向「真正」期望梯度的收斂情況。

2. 價值預測

策略梯度算法

圖 4

圖 4:對于訓練用于解決 MuJoCo Walker2d-v2 任務的智能體,在留出狀態-動作對上的價值預測質量(度量指標為平均相對誤差 MRE)。

3. 探索***化 landscape

策略梯度算法的另一個基礎假設是對策略參數使用一階更新可以帶來性能更好的策略。因此接下來我們就來看該假設的有效性。

圖 6:在 Humanoid-v2 MuJoCo 任務上,TRPO 的真正獎勵函數 Landscape。

圖 8:在 Humanoid-v2 MuJoCo 任務上,PPO 的真正和代理獎勵函數 Landscape。

4. 置信域的優化

圖 9

圖 9:對于訓練用于解決 MuJoCo Humanoid 任務的智能體,每一步的平均獎勵、***速率(maximum ratio)、平均 KL 和 maximum versus mean KL 情況。

為深度強化學習奠定更好的基礎

深度強化學習算法根植于基礎穩固的經典強化學習框架,在實踐中展示了巨大的潛力。但是,該研究調查顯示,該底層框架無法解釋深度強化學習算法的很多行為。這種分裂妨礙我們深入理解這些算法成功(或失敗)的原因,而且成為解決深度強化學習所面臨重要挑戰的極大障礙,比如廣泛的脆弱性和薄弱的可復現性。

為了解決這種分類,我們需要開發更加貼近底層理論的方法,或者構建能夠捕捉現有策略梯度算法成功原因的理論。不管哪種情況,***步都要準確指出理論和實踐的分岔點。這部分將分析和鞏固前一章的發現和結果。

  • 梯度估計。上一章的分析表明策略梯度算法使用的梯度估計的質量很差。即使智能體還在提升,此類梯度估計通常與真正的梯度幾乎不相關(見圖 3),彼此之間也不相關(見圖 2)。這表明遵循現有理論需要算法獲取更好的梯度估計。或者,我們需要擴展理論,以解釋現代策略梯度算法為什么在如此差的梯度估計情況下還能取得成功。
  • 價值預測。研究結果說明兩個關鍵問題。一,盡管價值網絡成功解決了接受過訓練的監督學習任務,但它無法準確建模「真正」的價值函數。二,將該價值網絡作為基線會降低梯度方差。但與「真」價值函數提供的方差減少程度對比來說則太少了。這些現象促使我們發問:建模真價值函數的失敗是在所難免的嗎?價值網絡在策略梯度方法中的真正作用是什么?
  • ***化 Landscape。由上一章可知,現代策略梯度算法的***化 Landscape 通常無法反映底層真正獎勵的 Landscape。事實上,在策略梯度方法使用的采樣方案中,真獎勵的 Landscape 有噪聲,且代理獎勵函數通常具備誤導性。因此我們需要深入理解為什么這些方有這么問題還能成功,更寬泛一點來看,如何更準確地展現真獎勵函數的 Landscape。
  • 置信域近似。該研究的發現表明策略需要局部類似可能存在大量原因,包括帶噪聲的梯度估計、較差的基線函數和代理 Landscape 未對齊。底層理論的置信域優化不僅未察覺到這些因素,將該理論轉換成高效算法也非常困難。因此深度策略梯度方法放松對置信域的約束,這使得其性能難以理解和分析。因此,我們需要一種更加嚴格地執行置信域的技術,或者對于置信域放松的更嚴謹理論。

【本文是51CTO專欄機構“機器之心”的原創譯文,微信公眾號“機器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責任編輯:趙寧寧 來源: 51CTO專欄
相關推薦

2023-06-25 11:30:47

可視化

2017-07-25 12:59:10

機器學習梯度下降算法

2023-03-23 16:30:53

PyTorchDDPG算法

2023-03-06 16:07:19

梯度提升算法機器學習

2022-08-05 11:01:18

梯度法MARLPG

2017-05-08 08:39:12

梯度算法Octave機器學習

2021-01-21 12:13:23

算法梯度下降網絡

2022-06-08 19:10:27

MarcusLeCun算法

2017-06-29 09:15:36

推薦算法策略

2019-04-10 19:05:00

云計算云端遷移

2017-04-24 08:35:09

深度學習神經網絡合成梯度

2016-11-28 09:24:08

Python內存技巧

2022-01-25 11:11:27

智能汽車技術

2024-08-08 16:17:29

2011-05-25 19:53:45

SEO

2011-11-09 09:53:40

算法

2025-10-27 08:44:00

2016-06-15 10:35:59

云計算

2011-07-22 09:31:11

2023-02-03 17:37:08

點贊
收藏

51CTO技術棧公眾號

青青草综合网| 男人亚洲天堂| 久久综合久久99| 国产成人精品在线播放| 欧美色图17p| 综合伊人久久| 91福利视频久久久久| 国产精品亚洲天堂| 五月婷婷深深爱| 日本不卡视频在线观看| 九九热这里只有在线精品视| 蜜桃传媒一区二区亚洲av| 国产精品伊人| 天天操天天色综合| 中文字幕一区二区三区四区五区六区| 亚洲av少妇一区二区在线观看| 亚洲在线观看| 久久久精品免费视频| 免费成人深夜夜行p站| 欧美日韩卡一| 疯狂做受xxxx高潮欧美日本| 中文视频一区视频二区视频三区| 亚州男人的天堂| 激情国产一区二区| 国产91精品在线播放| 国产精品白嫩白嫩大学美女| 精品国产一区二区三区香蕉沈先生 | 日韩免费看网站| 五月天婷婷激情视频| 国产福利在线免费观看| 国产精品久久久久久久久图文区 | 日韩免费特黄一二三区| 亚洲第一视频在线观看| 午夜福利123| 麻豆精品蜜桃| 日韩欧美精品网址| 五月丁香综合缴情六月小说| 免费在线观看av网站| 久久久久久99精品| 国产三区二区一区久久| 国产草草影院ccyycom| 久久se精品一区精品二区| 日韩69视频在线观看| 香蕉免费毛片视频| 韩日精品在线| 欧美黄色性视频| 麻豆精品一区二区三区视频| 99国产精品免费视频观看| 中文字幕日韩欧美在线| 成人国产精品久久久网站| 国产精品chinese在线观看| 日韩亚洲电影在线| 91网址在线观看精品| 亚洲色图综合| 91麻豆精品国产91久久久| 天天综合网日韩| 成人亚洲网站| 欧美日韩精品久久久| 欧美视频免费播放| 桃花岛成人影院| 91精品办公室少妇高潮对白| 久久国产乱子伦免费精品| 色戒汤唯在线| 色婷婷综合久久久久中文一区二区 | 亚洲天堂网一区二区| 日韩激情啪啪| 亚洲视频专区在线| 69xxx免费| 一本一本久久a久久综合精品| 精品国产欧美成人夜夜嗨| 熟女少妇a性色生活片毛片| 99久久精品网| 欧美第一淫aaasss性| 国产一级视频在线播放| 一区二区久久| 国产第一区电影| 在线免费看av的网站| 韩国v欧美v亚洲v日本v| 97神马电影| 日日夜夜精品免费| 91老师片黄在线观看| 午夜精品一区二区三区四区| 黄网页在线观看| 亚洲第一在线综合网站| 免费观看精品视频| 久久人人视频| 精品国产一区二区三区av性色| 欧美无人区码suv| jizzjizz欧美69巨大| 久久久91精品国产| 日韩欧美中文字幕一区二区| 日韩国产精品大片| 亚洲一区二区三区777| 天天摸天天干天天操| 国产免费成人在线视频| 蜜臀av性久久久久蜜臀av| 交100部在线观看| 欧美三级电影网站| 秘密基地免费观看完整版中文| 九九在线精品| 色综合男人天堂| 免费黄色片视频| 国产盗摄精品一区二区三区在线| 久久亚洲国产精品日日av夜夜| 一区二区高清不卡| 激情懂色av一区av二区av| 四季av一区二区三区| 久久精品亚洲成在人线av网址| 中文字幕av一区二区| 欧美另类一区二区| 国内精品免费**视频| 久久伦理网站| 91cn在线观看| 欧美日韩一区视频| 日韩 中文字幕| 在线观看日韩| 国产精品丝袜视频| 色吊丝在线永久观看最新版本| 亚洲视频一区在线| 亚欧在线免费观看| 亚洲v天堂v手机在线| 欧美激情中文字幕在线| 97超碰国产在线| 久久精品无码一区二区三区| 国内少妇毛片视频| 粉嫩av国产一区二区三区| 亚洲欧美国产高清va在线播| 日本熟妇毛茸茸丰满| 国产在线不卡视频| 亚洲一区尤物| 91福利精品在线观看| 亚洲老司机av| 国产精品第5页| 99riav一区二区三区| 无码人妻精品一区二区蜜桃网站| 99久久这里有精品| 中文字幕自拍vr一区二区三区| 黄色一级视频免费看| 97久久精品人人澡人人爽| 国产美女主播在线| 午夜久久av| 久久国产精品网站| 国产精品久久久久久免费播放| 中文字幕欧美激情| www日韩在线观看| 免费精品国产| 国产成人在线播放| 黄色在线视频观看网站| 色狠狠色狠狠综合| 国产真实乱人偷精品人妻| 久久美女性网| 视频一区视频二区视频| www.久久.com| 日韩中文字幕国产| 91theporn国产在线观看| 中文字幕亚洲一区二区av在线| jizz大全欧美jizzcom| 99tv成人| 亚洲aⅴ男人的天堂在线观看| 黄色网页在线看| 日韩精品一区二区三区swag| 中文字幕一区二区三区手机版| 成人午夜大片免费观看| 好吊妞无缓冲视频观看| 日本欧美高清| 国产精品久久视频| 欧美69xxxx| 欧美va亚洲va香蕉在线| 日韩久久久久久久久| www精品美女久久久tv| 91激情视频在线| 久久久久蜜桃| 国产精品美女诱惑| 丁香六月综合| 久久久999国产| 色香蕉在线视频| 色欧美88888久久久久久影院| 性爱在线免费视频| 国产aⅴ精品一区二区三区色成熟| 青青青青草视频| 欧美一区2区| 999国内精品视频在线| 亚洲黄色网址| 日韩中文字幕视频| 少妇精品高潮欲妇又嫩中文字幕| 色老综合老女人久久久| 男女羞羞免费视频| 久久免费精品国产久精品久久久久| www.天天射.com| 欧美久久视频| 日本一区视频在线播放| 成人乱码手机视频| 91高潮在线观看| 超碰超碰在线| 亚洲男人天堂网站| 国产v片在线观看| 日本久久精品电影| 欧美成人手机视频| 国产无人区一区二区三区| 亚洲 自拍 另类 欧美 丝袜| 午夜在线精品| 欧美大片免费播放| 丝袜久久网站| 91一区二区三区| 91成人在线| 庆余年2免费日韩剧观看大牛| 黄色免费在线观看网站| 亚洲日本中文字幕免费在线不卡| 国产成年妇视频| 欧美亚洲国产一区二区三区va | 91黄色精品| 精品视频在线一区二区在线| 久久久久国产精品www| 欧美极品视频| 亚洲天堂网在线观看| 亚洲国产精品久久久久久6q| 欧美伊人精品成人久久综合97| 国产无码精品在线播放| 亚洲人成亚洲人成在线观看图片| 白白色免费视频| 91蝌蚪porny九色| 亚洲乱妇老熟女爽到高潮的片| 韩国av一区二区三区四区| 国产极品美女高潮无套久久久| 欧美日本中文| 青青草影院在线观看| 精品日韩免费| 欧美美乳视频网站在线观看| 999在线精品| 亚洲一区二区三| 精品中文字幕一区二区三区四区 | 国产精品毛片一区视频播 | 亚洲色图制服诱惑| 快灬快灬一下爽蜜桃在线观看| 26uuu欧美日本| 强迫凌虐淫辱の牝奴在线观看| 国产一区二区美女诱惑| www.国产视频.com| 精品一区二区三区蜜桃| 欧美一级特黄a| 七七婷婷婷婷精品国产| 人人干人人视频| 六月婷婷一区| 国产免费成人在线| 香蕉久久久久久久av网站| 热99这里只有精品| 亚洲国产专区| 欧美 日韩 国产 高清| 亚洲激情另类| 欧美三级一级片| 久久福利精品| 欧美两根一起进3p做受视频| 久久久久.com| 欧美性生交xxxxxdddd| 欧美激情专区| 亚洲小说图片| 日本福利一区二区三区| 成人高清电影网站| 在线视频福利一区| 在线成人直播| 成年女人18级毛片毛片免费| 亚洲裸体俱乐部裸体舞表演av| 日韩人妻无码精品久久久不卡| 影音先锋中文字幕一区| 又粗又黑又大的吊av| 视频一区视频二区中文| 亚洲一区日韩精品| 国产毛片精品国产一区二区三区| 佐佐木明希电影| 91捆绑美女网站| 女人裸体性做爰全过| 亚洲精品免费视频| 日本少妇bbwbbw精品| 一本色道a无线码一区v| 一区二区三区免费在线视频| 日韩亚洲欧美在线| 日产精品久久久久久久性色| 色婷婷久久一区二区| 在线中文字幕电影| 91国自产精品中文字幕亚洲| 日本欧美不卡| 亚洲自拍小视频免费观看| 男人的天堂久久| 亚洲区一区二区三区| 国产精品二区影院| 欧洲av无码放荡人妇网站| 美女视频网站久久| 中文字幕99页| 亚洲国产精品激情在线观看| 五月婷婷一区二区| 色综合天天综合在线视频| 国产又大又黑又粗| 日韩av综合中文字幕| 麻豆影院在线| 4438全国成人免费| 韩国一区二区三区视频| 蜜桃av噜噜一区二区三区| 自拍欧美日韩| 国产极品美女高潮无套久久久| 国产一区二区三区蝌蚪| 熟女俱乐部一区二区| 一区二区三区美女视频| 无码人妻丰满熟妇区五十路| 日韩欧美成人一区二区| 国产在线视频网址| 欧美激情按摩在线| 日韩av超清在线观看| 国产乱子伦精品| 亚洲精品97| 999精品视频在线| 成人av网在线| 国产极品国产极品| 在线精品视频免费播放| 人妻精品无码一区二区| 久久影院模特热| 国产日韩另类视频一区| 国语精品免费视频| 欧美大片专区| 午夜精品免费看| 国产亚洲婷婷免费| 精品国产免费观看| 精品国产成人系列| 国产精品久久久久久福利| 国产精品mp4| 人妖一区二区三区| 成人一区二区免费视频| 国产精品一区不卡| 五月综合色婷婷| 欧美日韩一区二区在线视频| 欧美女子与性| 5278欧美一区二区三区| 国产精品久久久久av蜜臀| 欧美日韩午夜爽爽| 狠狠色丁香久久婷婷综合丁香| 大胸美女被爆操| 欧美午夜片在线看| wwwxxx在线观看| 国产精品久久9| 国产一区网站| 亚洲综合在线网站| 久久久久久99久久久精品网站| 国产午夜精品久久久久| 日韩精品在线观看一区二区| а√天堂资源官网在线资源| 国产99视频精品免费视频36| 激情久久久久久| 国产性生活毛片| 精品美女久久久久久免费| 午夜福利理论片在线观看| 国内精品一区二区三区| 国产精品黄网站| 男人日女人视频网站| 97久久人人超碰| 国产免费av一区| 国产亚洲精品一区二区| 国产超碰精品| 亚洲国产一区二区在线 | 亚洲一级片网站| 国产精品久久福利| 99热这里只有精品1| 欧美激情高清视频| 免费成人蒂法| 亚洲视频在线a| 国产精品久久久久毛片软件| 91激情在线观看| 欧美精品一本久久男人的天堂| 日韩一区二区三区精品| 福利视频一二区| 久久久青草青青国产亚洲免观| 中文字幕 日韩有码| 久久精品亚洲精品| 成功精品影院| 亚欧在线免费观看| 亚洲视频一区二区在线观看| 黑人操亚洲女人| 日本成人激情视频| 欧美r级电影| 久久久久中文字幕亚洲精品 | 国产蜜臀97一区二区三区 | 亚洲黄一区二区| 向日葵视频成人app网址| 一区二区免费在线视频| 粉嫩绯色av一区二区在线观看| 国产成人综合欧美精品久久| 在线看日韩av| 中文字幕一区二区三区中文字幕 | 久久91超碰青草在哪里看| 男女激烈动态图| 26uuu另类欧美亚洲曰本| 亚洲视频久久久| 午夜精品久久久久久99热| 青青草综合网| 一边摸一边做爽的视频17国产| 91搞黄在线观看| 欧美videos另类精品| 色视频一区二区三区| 高清av一区二区| 一级黄色小视频| 2020欧美日韩在线视频| 亚洲国产精品成人|