精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

流式深度學(xué)習(xí)終于奏效了!強(qiáng)化學(xué)習(xí)之父Richard Sutton力薦

人工智能 新聞
研究認(rèn)為批量深度強(qiáng)化學(xué)習(xí)之所以普遍,是因?yàn)樗臉颖拘矢摺A魇缴疃葟?qiáng)化學(xué)習(xí)存在樣本效率問題,經(jīng)常出現(xiàn)不穩(wěn)定和學(xué)習(xí)失敗的情況。這一現(xiàn)象稱為流式障礙。

自然智能(Natural intelligence)過程就像一條連續(xù)的流,可以實(shí)時(shí)地感知、行動(dòng)和學(xué)習(xí)。流式學(xué)習(xí)是 Q 學(xué)習(xí)和 TD 等經(jīng)典強(qiáng)化學(xué)習(xí) (RL) 算法的運(yùn)作方式,它通過使用最新樣本而不存儲(chǔ)樣本來模仿自然學(xué)習(xí)。這種方法也非常適合資源受限、通信受限和隱私敏感的應(yīng)用程序。

然而,在深度強(qiáng)化學(xué)習(xí)中,學(xué)習(xí)器(learners )幾乎總是使用批量更新和重放緩沖區(qū),這種方式使得它們?cè)谟?jì)算上很昂貴,并且與流式學(xué)習(xí)不兼容。

研究認(rèn)為批量深度強(qiáng)化學(xué)習(xí)之所以普遍,是因?yàn)樗臉颖拘矢摺A魇缴疃葟?qiáng)化學(xué)習(xí)存在樣本效率問題,經(jīng)常出現(xiàn)不穩(wěn)定和學(xué)習(xí)失敗的情況。這一現(xiàn)象稱為流式障礙。

就像下圖展示的,流式強(qiáng)化學(xué)習(xí)需要從即時(shí)單個(gè)樣本進(jìn)行更新,而無需存儲(chǔ)過去的樣本,而批量強(qiáng)化學(xué)習(xí)則依賴于存儲(chǔ)在重放緩沖區(qū)中的過去樣本的批量更新。

圖片

為了解決流式障礙,本文來自阿爾伯塔大學(xué)等機(jī)構(gòu)的研究者提出了 stream-x 算法,這是第一類深度強(qiáng)化學(xué)習(xí)算法,用于克服預(yù)測(cè)和控制流式障礙,并匹配批量強(qiáng)化學(xué)習(xí)的樣本效率。

圖片

  • 論文地址:https://openreview.net/pdf?id=yqQJGTDGXN
  • 項(xiàng)目地址:https://github.com/mohmdelsayed/streaming-drl
  • 論文標(biāo)題:Deep Reinforcement Learning Without Experience Replay, Target Networks, or Batch Updates

論文作者還提供了 stream-x 算法的最小實(shí)現(xiàn)(大約 150 行代碼),感興趣的讀者可以參考原項(xiàng)目。

圖片

本文證明了 stream-x 算法能夠克服流式障礙。

在電力消耗預(yù)測(cè)任務(wù)、MuJoCo Gym、DM Control Suite、MinAtar 和 Atari 2600 上的結(jié)果證明,該方法能夠作為現(xiàn)成的解決方案,克服流式障礙,提供以前無法通過流式方法實(shí)現(xiàn)的結(jié)果,甚至超越批量 RL 的性能。特別是,stream AC 算法在一些復(fù)雜的環(huán)境中達(dá)到了已知的最佳性能。 

如下所示,經(jīng)典的流方法(例如 Classic Q )和批處理 RL 方法的流式版本(例如 PPO1)由于流式障礙而表現(xiàn)不佳。相比之下, stream-x 算法(例如 stream Q )克服了流式障礙,并與批處理 RL 算法競(jìng)爭(zhēng),證明了其穩(wěn)定性和魯棒性。

圖片

這項(xiàng)研究得到了強(qiáng)化學(xué)習(xí)之父 Richard Sutton 的轉(zhuǎn)發(fā)和評(píng)論:

「最初的強(qiáng)化學(xué)習(xí)(RL)算法受自然學(xué)習(xí)的啟發(fā),是在線且增量式的 —— 也就是說,它們是以流的方式進(jìn)行學(xué)習(xí)的,每當(dāng)新的經(jīng)驗(yàn)增量發(fā)生時(shí)就學(xué)習(xí),然后將其丟棄,永不再次處理。

流式算法簡(jiǎn)單而優(yōu)雅,但在深度學(xué)習(xí)中,RL 的首次重大成功并非來自流式算法。相反,像 DQN(深度 Q 網(wǎng)絡(luò))這樣的方法將經(jīng)驗(yàn)流切割成單獨(dú)的轉(zhuǎn)換(transitions),然后以任意批次進(jìn)行存儲(chǔ)和采樣。隨后的一系列工作遵循、擴(kuò)展并完善了這種批量方法,發(fā)展出異步和離線強(qiáng)化學(xué)習(xí),而流式方法卻停滯不前,無法在流行的深度學(xué)習(xí)領(lǐng)域中取得良好效果。

直到現(xiàn)在,阿爾伯塔大學(xué)的研究人員已經(jīng)證明,在 Atari 和 Mujoco 任務(wù)上,流式強(qiáng)化學(xué)習(xí)(Streaming RL) 算法可以與 DQN 一樣有效。

在我看來,他們似乎是第一批熟悉流式強(qiáng)化學(xué)習(xí)算法的研究人員,認(rèn)真地解決深度強(qiáng)化學(xué)習(xí)問題,而不受批量導(dǎo)向的軟件和批量導(dǎo)向的監(jiān)督學(xué)習(xí)思維方式的過度影響。」

圖片

還有網(wǎng)友表示,流式算法確實(shí)塑造了強(qiáng)化學(xué)習(xí)的格局。

圖片

方法介紹

本文通過引入流式深度強(qiáng)化學(xué)習(xí)方法 ——Stream TD (λ)、Stream Q (λ) 和 Stream AC (λ),這些統(tǒng)稱為 stream-x 算法,并利用資格跡,來解決流式障礙問題。

該方法無需使用重放緩沖區(qū)、批量更新或目標(biāo)網(wǎng)絡(luò),即可從最新的經(jīng)驗(yàn)中進(jìn)行學(xué)習(xí)。與普遍認(rèn)知相反,本文證明了流式深度強(qiáng)化學(xué)習(xí)可以是穩(wěn)定的,并且在樣本效率上可與批量強(qiáng)化學(xué)習(xí)相當(dāng)。 

由于流式學(xué)習(xí)方法在使用樣本后必須將其丟棄,因此可能會(huì)導(dǎo)致樣本效率低下。為此,本文提出了兩種技術(shù)來提高流式學(xué)習(xí)方法的樣本效率:1)稀疏初始化,2)資格跡。 

算法 1 展示了本文提出的稀疏初始化技術(shù) — SparseInit。此稀疏初始化方案可用于全連接層和卷積層。

圖片

算法 3 展示了如何構(gòu)建一個(gè)優(yōu)化器,該優(yōu)化器使用有效步長(zhǎng)這一條件來控制更新大小。

圖片

下面為 stream-x 算法偽代碼。為了提高算法可讀性,作者使用了以下顏色編碼:紫色表示層歸一化,藍(lán)色表示觀測(cè)規(guī)一化,橙色表示獎(jiǎng)勵(lì)縮放,青色表示步長(zhǎng)縮放,棕色表示稀疏初始化。

圖片


圖片


圖片

實(shí)驗(yàn)結(jié)果

為了演示 Stream-x 算法的有效性,該研究首先展示了在不同環(huán)境中經(jīng)典方法失敗的流式障礙,而 Stream-x 算法克服了這一障礙,并且與其他批處理方法性能相當(dāng)。

克服流式障礙

流式深度強(qiáng)化學(xué)習(xí)方法經(jīng)常會(huì)遇到不穩(wěn)定和學(xué)習(xí)失敗的情況,稱為流式障礙。圖 2 顯示了三個(gè)不同的具有挑戰(zhàn)性的基準(zhǔn)測(cè)試任務(wù)中的流障礙:MuJoCo、DM Control 和 Atari。

圖片

Stream-x 算法的樣本效率

該研究通過比較不同算法的學(xué)習(xí)曲線來研究 stream-x 方法的樣本效率。圖 3 顯示了不同深度 RL 方法在四個(gè)連續(xù)控制 MuJoCo 任務(wù)上的性能。

圖片

圖 4 展示了流 Q (0.8) 與其對(duì)應(yīng)經(jīng)典方法以及 DQN1 和 DQN 在 MinAtar 任務(wù)上的性能。

圖片

Stream-x 算法在擴(kuò)展運(yùn)行中的穩(wěn)定性 

接下來,研究團(tuán)隊(duì)探究了 Stream-x 算法在長(zhǎng)時(shí)間運(yùn)行時(shí)的穩(wěn)定性,以有效地揭示方法是否可以長(zhǎng)時(shí)間運(yùn)行而不出現(xiàn)任何問題。實(shí)驗(yàn)結(jié)果如下圖 5 所示:

圖片

圖 6 顯示了不同智能體在總共經(jīng)歷 2 億幀的 Atari 游戲上的性能:

圖片

感興趣的讀者可以閱讀論文原文,了解更多研究?jī)?nèi)容。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-09-28 08:58:55

2024-11-01 09:39:26

強(qiáng)化學(xué)習(xí)AI

2025-08-20 09:15:00

2025-10-14 08:59:00

2020-08-16 11:34:43

人工智能機(jī)器學(xué)習(xí)技術(shù)

2020-08-14 11:00:44

機(jī)器學(xué)習(xí)人工智能機(jī)器人

2021-09-17 15:54:41

深度學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能

2021-06-11 09:28:04

人工智能機(jī)器學(xué)習(xí)技術(shù)

2025-06-10 11:22:09

強(qiáng)化學(xué)習(xí)AI模型

2025-03-06 07:35:30

2020-05-12 07:00:00

深度學(xué)習(xí)強(qiáng)化學(xué)習(xí)人工智能

2023-12-03 22:08:41

深度學(xué)習(xí)人工智能

2022-05-31 10:45:01

深度學(xué)習(xí)防御

2017-08-22 15:56:49

神經(jīng)網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)DQN

2022-09-04 14:38:00

世界模型建模IRIS

2022-03-25 10:35:20

機(jī)器學(xué)習(xí)深度學(xué)習(xí)強(qiáng)化學(xué)習(xí)

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2025-09-30 08:53:51

2023-01-04 10:02:53

強(qiáng)化學(xué)習(xí)自動(dòng)駕駛
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

欧美系列一区二区| 久久久久久久久99精品| 九九精品在线观看| bl动漫在线观看| 美女日韩欧美| 国产精品国产三级国产有无不卡| 91在线视频九色| 日韩av免费网址| 日韩激情一区| 精品国产一区二区三区四区四| 欧美a在线视频| 黄色网页网址在线免费| av动漫一区二区| 国产精品永久免费观看| 日本少妇xxxx动漫| 久久视频在线| 亚洲精品一区中文| 男生和女生一起差差差视频| 成人影院网站| 亚洲国产日韩a在线播放| 日韩在线观看电影完整版高清免费| 国产精品爽爽久久| 激情综合在线| 美女福利视频一区| 永久免费看mv网站入口78| 亚洲国产aⅴ精品一区二区| 91福利资源站| ww国产内射精品后入国产| 岛国中文字幕在线| 欧美激情中文字幕| 欧美精品一区二区三区久久| 亚洲欧美另类日韩| 国产一区二区三区四区五区入口| 欧美综合在线观看| 日本一二三区视频| 亚洲午夜久久久久久尤物| 久久久999成人| 亚洲精品国产精品国自| 亚洲人成伊人成综合图片| 精品国产乱码久久| 日本少妇xxxx软件| 嫩呦国产一区二区三区av| 欧美日韩国产精品成人| 日韩一级理论片| 欧美性xxx| 色综合久久九月婷婷色综合| 欧美一区二区三区爽大粗免费| 美洲精品一卡2卡三卡4卡四卡| 亚洲欧美怡红院| 一区二区三区欧美成人| yw193.com尤物在线| 国产亚洲制服色| 欧美日韩国产不卡在线看| 桃花色综合影院| 97se亚洲国产综合自在线不卡| 国产欧美一区二区三区另类精品 | 丝袜美腿亚洲综合| 欧美亚洲国产精品| 国产成人无码av| 另类av一区二区| 日韩美女视频免费看| 国产主播第一页| 日韩激情视频网站| 国产精品久久久久秋霞鲁丝| 日韩欧美一级大片| 久久国产精品色婷婷| 91久久久亚洲精品| www.久久综合| 99精品视频在线观看免费| 精品综合久久| 国产51人人成人人人人爽色哟哟| 国产精品网站在线播放| 中文字幕中文字幕在线中一区高清 | 国产99久久久久久免费看| 欧美三级特黄| 国色天香2019中文字幕在线观看| 久久高清免费视频| 亚洲综合激情| 国产美女精品视频| 国产黄色小视频在线观看| 国产成人在线免费观看| 精品国产91亚洲一区二区三区www| 少妇性bbb搡bbb爽爽爽欧美| 国产精品系列在线| 国产精品视频一二三四区| 精品丝袜在线| 欧美私人免费视频| 国内自拍偷拍视频| 免费电影一区二区三区| 久久天天躁夜夜躁狠狠躁2022| 免费人成在线观看| 久久精选视频| 444亚洲人体| 青草久久伊人| 亚洲美女视频在线| 一本大道熟女人妻中文字幕在线| 四虎精品在线观看| 日韩精品免费在线观看| 你懂得在线观看| 国产欧美欧美| 成人高清视频观看www| 欧美一级做性受免费大片免费| 国产午夜精品一区二区三区四区| 91精品一区二区三区四区| 中文字幕在线中文字幕在线中三区| 欧美日韩精品一区二区天天拍小说| 亚洲美女高潮久久久| 精品久久视频| 91国产美女在线观看| 中文字幕日韩第一页| 菠萝蜜视频在线观看一区| 伊人久久青草| 另类图片综合电影| 欧美成人福利视频| 亚洲欧美另类日本| 久久国产精品久久久久久电车| 91九色偷拍| 91美女视频在线| 欧美日韩黄色大片| www.555国产精品免费| 欧美国产一级| 国产成人精品a视频一区www| 高潮毛片7777777毛片| 国产精品欧美一级免费| 国产福利视频在线播放| 波多野结衣一区二区三区免费视频| 中文字幕精品一区二区精品| 天天操中文字幕| 国产成人综合自拍| 国产日韩视频在线播放| 精品国产欧美日韩一区二区三区| 日韩精品黄色网| 日本午夜精品理论片a级app发布| 国产一区在线精品| 正在播放一区二区三区| 免费在线观看一区| 亚洲一区二区福利| 天天干,天天干| 久久综合99re88久久爱| 女人和拘做爰正片视频| 极品国产人妖chinesets亚洲人妖| 另类天堂视频在线观看| 亚洲综合免费视频| 国产精品美女视频| 久久久精品麻豆| 在线一级成人| 欧美在线视频网| 污污的视频网站在线观看| 亚洲国产日韩一级| 成人啪啪18免费游戏链接| 狠色狠色综合久久| 国产精品成人一区二区三区| 亚洲第一图区| 精品国产亚洲在线| 日韩欧美亚洲一区二区三区| 不卡视频一二三| 欧美不卡在线播放| 先锋影音国产精品| 日韩美女中文字幕| 91精品大全| 欧美日韩国产精品成人| 五月天免费网站| 狠狠色狠狠色综合| 国产免费内射又粗又爽密桃视频| 日韩中文字幕一区二区高清99| 欧美极品美女电影一区| 国产自产一区二区| 欧美日韩国产专区| 国产伦精品一区二区三区视频女| 美女一区二区视频| 中文字幕第50页| 999国产精品一区| 欧美亚洲第一区| 在线观看a视频| 欧美一区在线视频| 日韩三级视频在线| 久久精品男人的天堂| 天堂视频免费看| 欧美国产高潮xxxx1819| 精品视频在线观看| 日韩高清在线| 久久视频国产精品免费视频在线| 亚洲精品视频91| 色综合视频一区二区三区高清| 国产精品久久久久久成人| 国产一区二区电影| 国产乱子伦农村叉叉叉| 色偷偷综合网| 国产伦精品一区二区三区高清版| 日韩成人动漫| 欧美超级免费视 在线| 性xxxxbbbb| 欧美日韩国产美女| 久草手机在线观看| 中文字幕一区二区三| 亚洲精品国产成人av在线| 日韩av一二三| 超碰成人免费在线| 日韩精品dvd| 久久国产精品久久| 国产人与zoxxxx另类91| 3344国产精品免费看| 91吃瓜网在线观看| 亚洲成人免费在线视频| 真实的国产乱xxxx在线91| 亚洲另类中文字| mm131丰满少妇人体欣赏图| 国产在线视视频有精品| 精品一卡二卡三卡| 亚洲精品在线观看91| 欧美不卡三区| 亚洲一区二区三区中文字幕在线观看 | 91在线播放视频| 男人皇宫亚洲男人2020| 欧美乱大交xxxxx| 日本在线观看| 亚洲人成在线免费观看| 国产91绿帽单男绿奴| 欧美久久免费观看| 黄色一级视频免费看| 亚洲国产综合在线| 九九精品视频免费| 国产婷婷色一区二区三区在线| 天天躁日日躁狠狠躁av麻豆男男| 国产毛片精品视频| 污网站免费在线| 丝袜亚洲精品中文字幕一区| 波多野结衣之无限发射| 亚洲欧美综合国产精品一区| 在线观看一区二区三区三州| 狠狠做深爱婷婷综合一区| 久久久国产精品一区二区三区| 精品午夜视频| 成人久久一区二区三区| 国产黄色一区| 国产精品第一视频| 国产精品av一区二区三区 | 亚洲系列中文字幕| 爽爽视频在线观看| 亚洲国产成人久久| 黑人精品一区二区三区| 欧美成人艳星乳罩| 国产浮力第一页| 日韩欧美成人激情| 亚洲AV无码国产精品午夜字幕| 在线91免费看| 91在线你懂的| 91精品欧美福利在线观看 | 亚洲第一黄色网| 日本黄色不卡视频| 亚洲第一福利网站| 天堂中文在线资| 亚洲午夜精品视频| 91av资源在线| 久久精品影视伊人网| 美女黄视频在线观看| 另类天堂视频在线观看| 欧美韩日亚洲| 97香蕉超级碰碰久久免费软件| 国产在线美女| 日韩女在线观看| 欧美日韩女优| 成人综合网网址| 亚洲一区二区三区四区电影| 国产在线观看一区| 竹菊久久久久久久| 亚洲午夜精品福利| 自产国语精品视频| 人妻激情另类乱人伦人妻| 激情视频一区二区三区| 欧美国产亚洲一区| 欧美aaa在线| xxx中文字幕| kk眼镜猥琐国模调教系列一区二区| 亚洲少妇18p| 中文字幕欧美激情一区| 国产高潮流白浆| 亚洲成a人片在线不卡一二三区| 国产www在线| 7777精品伊人久久久大香线蕉| 99久久久无码国产精品免费| 亚洲精品一线二线三线| 九色视频网站在线观看| 日韩中文字幕免费| 国产乱码精品一区二三赶尸艳谈| 日韩av手机在线看| 亚洲一区有码| 国产无套精品一区二区| 精品久久91| 久操手机在线视频| 日精品一区二区| 伦伦影院午夜理论片| 97精品久久久午夜一区二区三区| 波兰性xxxxx极品hd| 亚洲电影在线免费观看| 日本丰满少妇做爰爽爽| 日韩视频一区二区三区在线播放| 性xxxx18| 美日韩精品视频免费看| 在线观看福利电影| 亚洲a一级视频| 伊人春色精品| 欧美图片激情小说| 奇米综合一区二区三区精品视频| 中文字幕在线播放一区二区| 国产三区在线成人av| 精品无码av在线| 精品视频在线免费观看| 午夜一区在线观看| 久久在线观看视频| abab456成人免费网址| 狠狠综合久久av| 欧美精品二区| 超碰影院在线观看| 91美女片黄在线| 乱h高h女3p含苞待放| 欧美色图一区二区三区| 日韩国产福利| 久久久亚洲精选| 久久的色偷偷| 一道精品一区二区三区| 三级精品在线观看| 大乳护士喂奶hd| 亚洲第一久久影院| 国产强被迫伦姧在线观看无码| 国产亚洲精品久久久久久| 久久久男人天堂| 国产伦精品一区二区三区视频免费 | 久久久久久99久久久精品网站| 免费人成年激情视频在线观看| 欧美电影影音先锋| wwwww在线观看免费视频| 欧洲s码亚洲m码精品一区| 精品资源在线| 肉大捧一出免费观看网站在线播放| 日产欧产美韩系列久久99| 爱爱免费小视频| 色久优优欧美色久优优| 男女污视频在线观看| 97视频在线免费观看| 美国一区二区| 又粗又黑又大的吊av| 91一区一区三区| 国产www在线| 国产香蕉精品视频一区二区三区| 欧美91看片特黄aaaa| 免费看成人午夜电影| 亚洲一区日本| 加勒比综合在线| 欧美日韩一区二区三区在线看| 国产精品久久久久一区二区国产| 欧美中文在线字幕| 一区二区三区四区在线看| 欧美自拍小视频| 久久精品视频免费观看| 中文字幕丰满人伦在线| 色久欧美在线视频观看| 粉嫩av国产一区二区三区| 久久久国内精品| 成人av电影在线网| 日韩中文字幕在线观看视频| 亚洲天堂av在线播放| 91精品国产66| 浴室偷拍美女洗澡456在线| 国产乱码字幕精品高清av| 久久高清免费视频| 亚洲人成网站色ww在线| 欧美大片网站| 狠狠精品干练久久久无码中文字幕| 成人国产免费视频| 亚洲欧美偷拍视频| 日韩一区视频在线| 91精品久久久久久综合五月天| 尤物av无码色av无码| 久久精品欧美一区二区三区不卡| 97精品人妻一区二区三区| 久久久久久久久久久免费| 亚洲人成网77777色在线播放| 成人免费视频久久| 亚洲天堂网中文字| 天天干天天爽天天操| 国产精品揄拍500视频| 中文字幕一区二区三区乱码图片 | 日本中文字幕久久看| 视频在线不卡免费观看| 中国特级黄色片| 日本丶国产丶欧美色综合| 成人黄色网址| 欧美不卡在线一区二区三区| 久久精品国产一区二区三| 欧美日韩一级大片| 亚洲欧美综合v| 免费欧美网站| 欧美一级裸体视频| 亚洲国产乱码最新视频| 福利成人在线观看| 精品国产免费久久久久久尖叫| 毛片一区二区三区| 日韩在线观看第一页| 日韩有码在线视频|