精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

中科大提出動(dòng)作價(jià)值表征學(xué)習(xí)新方法,率先填補(bǔ)長期決策信息的缺失

人工智能 新聞
來自中科大的研究人員在信息瓶頸(Information Bottleneck)框架下,提出了一種新穎的魯棒動(dòng)作價(jià)值表征學(xué)習(xí)方法ROUSER。

在視覺強(qiáng)化學(xué)習(xí)中,許多方法未考慮序列決策過程,導(dǎo)致所學(xué)表征缺乏關(guān)鍵的長期信息的空缺被填補(bǔ)上了。

來自中科大的研究人員在信息瓶頸(Information Bottleneck)框架下,提出了一種新穎的魯棒動(dòng)作價(jià)值表征學(xué)習(xí)方法ROUSER。

作者從理論上證明了ROUSER能夠使用學(xué)習(xí)到的魯棒表征準(zhǔn)確估計(jì)動(dòng)作價(jià)值,從而避免了智能體在測試環(huán)境中的決策能力遭到削弱。

圖片

具體而言,ROUSER通過最大化表征與動(dòng)作價(jià)值之間的互信息,來保留長期信息;同時(shí),最小化表征與狀態(tài)-動(dòng)作對之間的互信息,以濾除無關(guān)特征。

由于動(dòng)作價(jià)值是未知的,ROUSER提出將狀態(tài)-動(dòng)作對的魯棒表征分解為單步獎(jiǎng)勵(lì)和下一狀態(tài)-動(dòng)作對的魯棒表征。

實(shí)驗(yàn)結(jié)果表明,在包括背景干擾與顏色干擾的12項(xiàng)任務(wù)中,ROUSER于其中的11項(xiàng)任務(wù)上優(yōu)于多種當(dāng)前的先進(jìn)方法。

傳統(tǒng)方法難以捕捉關(guān)鍵長期信息

視覺強(qiáng)化學(xué)習(xí)中的泛化問題近年來受到了廣泛關(guān)注,其研究潛力在于使智能體具備處理現(xiàn)實(shí)復(fù)雜任務(wù)的能力,并能在多樣化環(huán)境中表現(xiàn)良好。

這里的泛化能力是指智能體能夠?qū)⑵鋵W(xué)到的策略直接應(yīng)用于未知環(huán)境,即使這些環(huán)境中存在與訓(xùn)練階段不同的視覺干擾(如動(dòng)態(tài)背景或可控物體顏色變化)。

因此,具備良好泛化能力的智能體可以在面臨未見干擾的環(huán)境時(shí)依然保持高性能執(zhí)行任務(wù),無需大量的重新訓(xùn)練。

盡管現(xiàn)有方法以數(shù)據(jù)增廣、對比學(xué)習(xí)等技術(shù)增強(qiáng)了智能體面向環(huán)境視覺干擾的魯棒性,但值得注意的是,這類研究往往僅聚焦于如何從視覺圖像中提取魯棒的、不隨環(huán)境變化的信息,忽略了下游關(guān)鍵的決策過程。

這導(dǎo)致這些方法難以捕捉序列數(shù)據(jù)中關(guān)鍵的長期信息,而這正是視覺強(qiáng)化學(xué)習(xí)泛化能力的核心因素之一。

為了針對性地解決這類問題,作者在信息瓶頸(Information Bottleneck)框架下,提出了魯棒動(dòng)作價(jià)值表征學(xué)習(xí)方法(ROUSER),通過引入信息瓶頸來學(xué)習(xí)能有效捕捉?jīng)Q策目標(biāo)中長期信息的向量化表征。

分解狀態(tài)-動(dòng)作對魯棒表征

本文提出的ROUSER主要包括兩個(gè)核心思路:

一是為了學(xué)習(xí)能有效捕捉?jīng)Q策目標(biāo)中長期信息的向量化表征,ROUSER基于信息瓶頸框架,通過最大化表征與動(dòng)作價(jià)值之間的互信息,來保留長期信息;

同時(shí),最小化表征與狀態(tài)-動(dòng)作對之間的互信息,以濾除無關(guān)特征。

二是由于動(dòng)作價(jià)值是未知的,無法直接最大化表征與動(dòng)作價(jià)值之間的互信息,因此ROUSER提出將狀態(tài)-動(dòng)作對的魯棒表征分解為僅包含單步獎(jiǎng)勵(lì)信息的表征和下一狀態(tài)-動(dòng)作對的魯棒表征。

這樣一來,可以借助已知的單步獎(jiǎng)勵(lì),計(jì)算用于魯棒表征學(xué)習(xí)的損失函數(shù)。

方法架構(gòu)圖如下所示:

圖片

為實(shí)現(xiàn)上述思路,ROUSER主要包括兩個(gè)核心模塊——獎(jiǎng)勵(lì)模型(Reward Model)和魯棒損失(Robust Loss)。

其中獎(jiǎng)勵(lì)模型旨在學(xué)習(xí)僅包含單步獎(jiǎng)勵(lì)信息的表征。

具體來說,獎(jiǎng)勵(lì)模型基于信息瓶頸框架,最大化從狀態(tài)-動(dòng)作對中提取的獎(jiǎng)勵(lì)表征與單步獎(jiǎng)勵(lì)之間的互信息,同時(shí)最小化獎(jiǎng)勵(lì)表征與對應(yīng)狀態(tài)-動(dòng)作對之間的互信息,從而引導(dǎo)模型學(xué)習(xí)僅包含獎(jiǎng)勵(lì)信息的表征。

魯棒損失則旨在構(gòu)建可計(jì)算的損失函數(shù),學(xué)習(xí)能有效捕捉?jīng)Q策目標(biāo)中長期信息的向量化表征。

基于對狀態(tài)-動(dòng)作對的魯棒表征分解技術(shù),構(gòu)建遞歸式損失函數(shù),僅利用獎(jiǎng)勵(lì)模型編碼的表征即可直接計(jì)算該損失。

且該部分僅為損失函數(shù)的構(gòu)建,并沒有更改強(qiáng)化學(xué)習(xí)中批評家(Critic)模型的架構(gòu)。最終旨在學(xué)習(xí)的向量化表征為批評家模型的中間層嵌入(Embedding)。

本文理論證明了ROUSER能夠利用學(xué)習(xí)到的向量化表征準(zhǔn)確估計(jì)決策目標(biāo),即動(dòng)作價(jià)值。

基于這一理論結(jié)果,ROUSER能有效結(jié)合各類連續(xù)和離散控制的視覺強(qiáng)化學(xué)習(xí)算法,以提升其對動(dòng)作價(jià)值估計(jì)的準(zhǔn)確性,從而提升整體魯棒性。

實(shí)驗(yàn)結(jié)果

在視覺強(qiáng)化學(xué)習(xí)泛化性研究的12個(gè)連續(xù)控制任務(wù)中,ROUSER于11個(gè)任務(wù)上取得了最優(yōu)性能。

其中下圖的6個(gè)任務(wù)是智能體面向物體動(dòng)態(tài)顏色變化干擾的泛化性能。

圖片

下圖的6個(gè)任務(wù)展示了智能體面向背景干擾的泛化性能。

圖片

ROUSER方法的一大特點(diǎn)是可以兼容離散控制任務(wù),本文在Procgen環(huán)境中進(jìn)行了相關(guān)實(shí)驗(yàn)。

如下表所示,當(dāng)ROUSER與基于價(jià)值的VRL方法結(jié)合應(yīng)用于非連續(xù)控制任務(wù)時(shí),也能夠提升智能體的泛化性能。

圖片

更多內(nèi)容請參考原論文與項(xiàng)目主頁。

論文第一作者楊睿,中國科學(xué)技術(shù)大學(xué)2019級(jí)碩博連讀生,師從王杰教授、李斌教授,主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、自動(dòng)駕駛等。

論文地址:
https://openreview.net/pdf?id=PDtMrogheZ

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-10-21 10:35:00

2021-12-06 09:53:09

自然語言神經(jīng)網(wǎng)絡(luò)人工智能

2024-01-15 13:11:22

模型數(shù)據(jù)

2017-06-10 16:19:22

人工智能智能體強(qiáng)化學(xué)習(xí)

2023-12-04 13:23:00

數(shù)據(jù)訓(xùn)練

2024-11-04 13:30:00

模型AI

2023-12-18 13:11:00

AI論文

2025-05-26 09:41:26

2025-10-20 08:50:00

2023-10-05 06:05:54

谷歌時(shí)間訓(xùn)練

2024-12-09 10:15:00

AI技術(shù)

2025-01-16 10:20:00

AI生成動(dòng)畫

2021-05-07 09:34:20

量子芯片計(jì)算機(jī)

2019-12-30 09:41:59

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2024-11-04 08:30:00

2021-05-17 10:05:08

神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)圖形

2015-07-20 11:49:56

Wi-Fi

2025-03-03 08:00:00

小紅書AI圖像檢測模型AI

2011-12-01 14:15:19

信息優(yōu)化惠普

2013-06-19 11:32:32

計(jì)算性能ISCHPC
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

亚洲一区二区三区在线免费观看| 欧美性猛交xxxx乱大交极品| 国产精品视频一区国模私拍| 很污很黄的网站| 国产日韩在线观看视频| 香蕉久久一区二区不卡无毒影院| 91九色国产在线| 国产大片中文字幕在线观看| 蜜桃a∨噜噜一区二区三区| 欧美日韩精品一区视频| 免费看国产曰批40分钟| 免费在线黄色网址| 国产又粗又猛又爽又黄91精品| 在线视频中文亚洲| www.久久com| 二区三区不卡| 亚洲精品国产视频| 欧美一区激情视频在线观看| 国产三级小视频| 久久在线91| 欧美成人久久久| 亚洲精品国产91| 欧美2区3区4区| 欧美亚洲动漫精品| 一二三四视频社区在线| 麻豆免费在线视频| 不卡高清视频专区| 91免费在线视频| 亚洲av无码精品一区二区| 欧美特黄a级高清免费大片a级| 日韩一区二区三区观看| 草草草在线视频| av日韩中文| 一区二区三区在线免费| 神马影院一区二区| 偷拍自拍在线视频| 激情成人综合网| 国产精品久久视频| 超碰中文字幕在线| 亚洲人成人一区二区三区| 久久综合网hezyo| 久久久国产一级片| 你懂的视频欧美| 亚洲国产欧美在线成人app| 日本黄色三级网站| av在线国产精品| 欧美日韩五月天| www.色就是色| 天天综合网站| 91传媒视频在线播放| 妺妺窝人体色www在线小说| 不卡av免费观看| 亚洲一区二区三区四区的| 看全色黄大色大片| а天堂中文在线官网| 亚洲丝袜自拍清纯另类| 偷拍盗摄高潮叫床对白清晰| 欧美激情二区| 综合欧美亚洲日本| 国产精品亚洲天堂| 在线免费观看污| 一区二区三区丝袜| 精品一区二区三区无码视频| 爱情岛亚洲播放路线| 亚洲图片有声小说| av免费观看网| 国模套图日韩精品一区二区| 色婷婷精品大在线视频| 爱情岛论坛成人| 国产成人精品一区二区三区视频 | 亚洲伦伦在线| 久久久久五月天| 久久免费激情视频| 欧美一级专区| 国产精品成人va在线观看| 一区二区视频播放| 国产精品自在欧美一区| 国内一区在线| 久久国产精品高清一区二区三区| 国产一区二区免费在线| 99re在线播放| 亚洲欧洲精品视频| 久久亚洲欧美国产精品乐播| 视频在线精品一区| 91黄色在线| 天天做天天摸天天爽国产一区| 午夜久久久久久久久久久| 久草成色在线| 色综合天天综合在线视频| 日韩一级片播放| 精品国产亚洲一区二区在线观看 | www久久久久久| 成人黄色一级视频| 久久精品日韩精品| 麻豆视频在线观看免费| 精品毛片网大全| 在线观看免费的av| 久久综合社区| www.久久久久| 97超碰人人干| 国产在线精品免费| 免费久久久一本精品久久区| 黄色网址在线免费播放| 福利精品视频在线| 亚洲一区二区三区四区精品| 精品成人自拍视频| 久久精品最新地址| 中文字幕视频网| 国产精品一二三四| 日本在线观看一区二区三区| 久色国产在线| 欧美久久久久免费| 加勒比一区二区| 欧美日韩一视频区二区| 国产精品视频色| 青青草在线视频免费观看| 亚洲欧美日韩国产综合| 人人爽人人av| 欧美色图婷婷| 久久久亚洲福利精品午夜| 伊人影院中文字幕| 久久综合给合久久狠狠狠97色69| 欧美日韩在线一区二区三区| 尤物yw193can在线观看| 欧美日韩在线亚洲一区蜜芽| 熟妇人妻久久中文字幕| 欧美精品国产一区| 国产在线999| 国产精品免费观看| 精品久久久久久亚洲国产300| 免费无码毛片一区二三区| 国产在线不卡一区二区三区| 日韩一区在线视频| 中文字幕在线观看视频一区| 久久精品人人爽人人爽| 国产女大学生av| 欧美激情影院| 久久久久久久色| 亚洲黄色小说网址| 一区二区三区影院| 日韩av成人网| 国产一区久久| 国产乱码一区| 国产高清视频色在线www| 精品少妇一区二区三区日产乱码 | 成人午夜视频免费在线观看| 国产精品xxx在线观看| 欧美交受高潮1| 成人免费视频国产免费麻豆| 一区二区三区中文字幕电影| 18深夜在线观看免费视频| 欧美96在线丨欧| 91精品国产综合久久久久久丝袜 | 91免费黄视频| 超碰成人免费| 97精品国产97久久久久久| 天堂在线资源库| 欧美特级www| 少妇真人直播免费视频| 免费在线日韩av| 欧美一区2区三区4区公司二百| 亚洲小说区图片区都市| 日韩午夜av一区| 国产午夜小视频| 26uuu精品一区二区在线观看| av不卡在线免费观看| 亚洲国产伊人| 欧美人与性动交| 婷婷色在线观看| 在线免费不卡电影| 97精品在线播放| 国产大片一区二区| 国产69精品久久久久999小说| 成人福利片在线| www.日韩视频| 亚洲大尺度视频| 欧美午夜片在线免费观看| 女人黄色一级片| 另类综合日韩欧美亚洲| 久久av高潮av| 天堂成人娱乐在线视频免费播放网站| 欧美乱妇高清无乱码| 免费观看黄一级视频| 婷婷成人激情在线网| 麻豆视频免费在线播放| 国产精品一区二区在线播放| 欧美日韩性生活片| 久久中文字幕av一区二区不卡| 国产97在线|亚洲| 老司机在线永久免费观看| 日韩精品一区二区三区老鸭窝| 91动漫免费网站| 国产suv精品一区二区6| 欧美两根一起进3p做受视频| 7777久久香蕉成人影院| 蜜桃传媒一区二区| 日韩精品视频在线看| 日本高清久久天堂| av片在线观看网站| 亚洲欧美激情一区| 国产在成人精品线拍偷自揄拍| 国产精品入口麻豆原神| 在线精品视频播放| 麻豆成人久久精品二区三区小说| 欧美午夜精品久久久久免费视| 极品视频在线| 久久视频免费在线播放| 欧美性孕妇孕交| 日韩欧美黄色影院| 一区二区视频免费| 疯狂做受xxxx欧美肥白少妇| 成人观看免费视频| 国产精品美女一区二区三区| 亚洲av无码国产精品久久| 国产乱码一区二区三区| 亚洲一区二区三区四区五区xx| 精品久久久久久久久久久aⅴ| 欧洲亚洲女同hd| 欧美卡一卡二| 久久精品电影一区二区| 国产精品二线| 精品亚洲va在线va天堂资源站| 国产香蕉视频在线| 亚洲精品亚洲人成人网| 国产一区二区三区四区五区六区 | 成人黄色av免费在线观看| 欧美gv在线| 久久久久五月天| 大地资源网3页在线观看| 国产亚洲综合久久| 欧美扣逼视频| 日韩激情av在线免费观看| 性一交一乱一乱一视频| 制服丝袜av成人在线看| 国产女优在线播放| 91精品福利视频| 日日夜夜狠狠操| 欧美性xxxx极品高清hd直播| 日本在线视频免费| 亚洲一区二区欧美日韩 | www.激情五月.com| 欧美男人的天堂一二区| 中文永久免费观看| 欧美亚洲精品一区| 中文字幕日韩国产| 欧美天堂一区二区三区| 自拍偷拍第八页| 在线国产亚洲欧美| 无码人妻精品一区二区三区9厂 | av女优在线播放| 欧美三级乱码| 黄页网站大全在线观看| 极品尤物久久久av免费看| 国产高清免费在线| 亚洲香蕉av| 日韩在线视频在线| 宅男噜噜噜66国产日韩在线观看| 亚洲精品成人自拍| 久久中文字幕av| 色哺乳xxxxhd奶水米仓惠香| 海角社区69精品视频| h无码动漫在线观看| 亚洲美女黄网| 北条麻妃在线一区| 美女视频一区在线观看| 天堂网成人在线| 成人美女在线观看| 国产麻豆剧传媒精品国产av| 99热在这里有精品免费| 中文在线一区二区三区| 国产偷国产偷精品高清尤物| 日韩av片在线免费观看| 亚洲男人的天堂在线观看| 久久综合综合久久| 日韩欧美黄色动漫| 一区二区三区麻豆| 欧美一二三区在线观看| 午夜影院免费视频| 日韩中文理论片| 日本h片在线观看| 欧美一级视频免费在线观看| 国产一区一一区高清不卡| 91久久综合亚洲鲁鲁五月天| 97久久亚洲| 日韩不卡av| 欧美黄色大片网站| 欧美三级午夜理伦三级| 精品一区二区免费| 李丽珍裸体午夜理伦片| 国产精品久久久久一区二区三区 | 激情自拍一区| 欧美日韩一区二区在线免费观看 | 一区二区三区成人| 一级黄色免费网站| 欧美一区二区三区免费| 日韩一级免费毛片| 日韩在线小视频| 三妻四妾的电影电视剧在线观看| 欧美精品第一页在线播放| 欧美一区久久久| 成人av免费看| 日韩在线观看| 一本大道熟女人妻中文字幕在线 | 亚洲AV成人无码一二三区在线| 日韩视频123| 成人av毛片| 午夜精品一区二区三区在线播放| 欧美另类tv| 国产日韩精品在线| 伊人久久大香线蕉无限次| 亚洲一区精品视频| 毛片一区二区| av天堂一区二区| 国产精品盗摄一区二区三区| 久久免费激情视频| 亚洲成人精品视频在线观看| 99青草视频在线播放视| 欧美一级在线播放| 成人资源在线播放| 秋霞在线一区二区| 日本欧美在线观看| www.久久av| 精品久久久久久久久中文字幕| 日韩精品久久久久久免费| 欧美成人一级视频| 国产区在线观看| 国产精品久久中文| 久久成人av| 日本精品一区二区三区四区| 成人综合婷婷国产精品久久蜜臀| 人妻少妇精品视频一区二区三区| 久久影院电视剧免费观看| 日本少妇全体裸体洗澡| 欧美变态tickle挠乳网站| 91在线看片| 国产精品久久久久久网站| 天堂av一区二区三区在线播放| 中文字幕在线亚洲三区| 免费成人av资源网| 亚洲综合欧美综合| 在线视频中文字幕一区二区| 性插视频在线观看| 韩国欧美亚洲国产| 美女网站色精品尤物极品姐弟| 日韩精彩视频| 老司机精品导航| 91成人在线免费视频| 欧美视频一区在线观看| 亚乱亚乱亚洲乱妇| 成人国产亚洲精品a区天堂华泰| 香蕉久久99| 国产成人无码av在线播放dvd| 国产精品一二三区| 伊人365影院| 欧美mv日韩mv国产网站| 鲁鲁在线中文| 久久久久久一区| 日韩电影在线免费看| 日本污视频网站| 91精品国产综合久久福利| 18av在线播放| 精品国产免费一区二区三区 | 久久精品国产69国产精品亚洲| www视频在线观看| 久中文字幕一区| 青青草91视频| 男女性高潮免费网站| 日韩免费看网站| 亚洲插插视频| 亚洲成人午夜在线| 国产精品一二一区| 国产精品黄色网| 国产一区二区三区视频在线观看| 电影k8一区二区三区久久 | 亚洲大片免费观看| 国产一区二区三区在线观看视频| 波多野结衣中文在线| 麻豆成人小视频| 久久精品国产**网站演员| 欧美成人精品欧美一级私黄| 亚洲第一福利视频| 99精品国自产在线| youjizz.com在线观看| xfplay精品久久| 国产孕妇孕交大片孕| 欧美一区二区大胆人体摄影专业网站| 国产免费区一区二区三视频免费| 先锋影音网一区| 粉嫩av一区二区三区粉嫩| 久久人妻免费视频| 美女久久久久久久| 亚洲裸色大胆大尺寸艺术写真| 日本欧美视频在线观看| 日本一区二区三区高清不卡| 99热精品在线播放| 国产第一区电影| 今天的高清视频免费播放成人| 国产成人精品一区二区三区在线观看 | 日韩视频在线一区二区三区| 成人做爰69片免网站|