精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

率先突破大規模多類數據損壞問題!中科大離線強化學習新方式入選NeurIPS 2024

人工智能 新聞
中科大王杰教授團隊 (MIRA Lab) 提出了一種變分貝葉斯推斷方法,有效地提升了智能決策模型的魯棒性。

機器人控制和自動駕駛的離線數據損壞問題有解了!

中科大王杰教授團隊 (MIRA Lab) 提出了一種變分貝葉斯推斷方法,有效地提升了智能決策模型的魯棒性。

論文發表在CCF-A類人工智能頂級會議NeurIPS 2024。

圖片

現實世界的離線數據集(如機器人控制、自動駕駛等)常常因傳感器故障或惡意攻擊而受到數據損壞(如數據帶有噪聲或對抗性攻擊)的影響。

盡管現有離線強化學習(offline RL)方法在魯棒性方面已取得了進展,但它們仍難以處理因離線數據的各類元素(即狀態、動作、獎勵和轉移動態)均部分損壞所引入的高不確定性。

作者針對離線數據的各類元素均有受損這一復雜的實際問題,提出了一種魯棒的變分貝葉斯推斷方法TRACER

在面臨各類數據損壞時,該方法于所有實驗中均實現了最優,相對于現有的SOTA方法提升了高達+21.1%的決策性能,并在24組僅有單類數據損壞的實驗中仍實現了16組的最優性能

TRACER主要具有以下三點優勢:

  • TRACER首次將貝葉斯推斷引入到抗損壞的離線強化學習(corruption-robust offline RL)中。通過將所有離線數據作為觀測值,TRACER捕捉了由各類損壞數據所導致的動作價值函數中的不確定性。
  • 通過引入基于熵的不確定性度量,TRACER能夠區分損壞數據和干凈數據,從而調控并減弱損壞數據對智能體模型訓練的影響,以增強魯棒性。
  • 作者在機器人控制(MuJoCo)和自動駕駛(CARLA)仿真環境中進行了系統性地測試,驗證了TRACER在各類離線數據損壞、單類離線數據損壞的場景中均顯著提升了智能體的魯棒性,超出了多個現有的SOTA方法。

注:下文中公式若顯示不完整,請嘗試左右滑動查看

背景與問題

貝葉斯強化學習

即最大化證據下界(ELBO):

數據損壞下的離線強化學習

基于上述公式,作者的目的是基于損壞數據學習魯棒的策略

方法介紹

總的來說,該方法將所有類別的數據損壞視為行動價值函數(action-value function)中的不確定性,并使用所有類別的離線數據作為觀測值,以估計行動價值函數的后驗分布。

這顯著增強了智能體對所有類別數據損壞的魯棒性

此外,考慮到受損數據通常會引起更高的不確定性和熵,該方法引入了基于熵的不確定性度量,進而能有效區分損壞數據和干凈數據

基于這類度量,該方法能調節并減弱損壞數據對智能體模型訓練的負面影響,進而顯著提高模型在干凈測試環境中的魯棒性和性能。

動機

使用多種受損數據估計累積獎勵函數(即動作值函數)會引入很高的不確定性,原因主要有兩個方面:

  • 一是多種類型的損毀會向數據集的所有元素引入較高的不確定性;
  • 二是每個元素與累積獎勵(即動作值、Q值)之間存在明確的相關性關系。

下圖為決策過程的概率圖模型。實線連接的節點表示數據集中的數據,而虛線連接的Q值(即動作值、累積回報)不屬于數據集。這些Q值通常是算法旨在估計的任務目標。

圖片

為了處理這類由多種數據損毀(即狀態、動作、獎勵、狀態轉移數據受損)導致的高不確定性問題,基于上圖所示的概率圖模型,作者提出利用數據集中的所有元素作為觀測數據。

這樣做的目的,是利用這些觀測數據與累積獎勵之間的高度相關性,來準確地識別動作值函數的不確定性。

基于受損數據的貝葉斯推斷

作者提出使用離線數據集的所有元素作為觀測值,利用數據之間的相關性同時解決不確定性問題。

通過引入貝葉斯推理框架,該步的目標是逼近動作價值函數的后驗分布。

基于熵的不確定性度量

為了進一步應對各類數據損壞帶來的挑戰,作者思考如何利用不確定性進一步增強魯棒性。

鑒于目標是提高在干凈環境中的智能體性能,作者提出減少損壞數據的影響,重點是使用干凈數據來訓練智能體。

因此,作者設計了一個兩步計劃——先區分損壞數據和干凈數據;再調控與損壞數據相關的損失,減少其影響,從而提升在干凈環境中的表現。

對于第一步數據的區分,由于損壞數據通常會造成比干凈數據更高的不確定性和動作價值分布熵,因此作者提出使用熵來量化損壞數據和干凈數據的不確定性。

因此,在學習過程中,TRACER 能夠調控與損壞數據相關的損失,并專注于最小化與干凈數據相關的損失,從而增強在干凈環境中的魯棒性和性能。

算法架構

TRACER的框架圖如下所示。

圖片

可見相對于傳統的離線強化學習算法,作者的提出方法修改了批評家(critic)模型,將其改為用于分布強化學習(distributional RL)的動作值分位數回歸的架構。

此外,作者還添加了一個新的集成模型(ensemble model)

數據受損,依然保持魯棒性

為了模擬數據受損的情形,作者對數據集的部分數據加入隨機噪聲或對抗攻擊來構建損壞數據。

在實驗中,作者對30%的單類數據進行損壞。

在機器人控制(MuJoCo)仿真環境測試中,作者選擇了常用的3個機器人控制環境(Halfcheetah,Walker2d,Hopper)

這些環境的狀態為仿真機器人各個部位(如腿部、關節等)的不同物理量(如位置、角度、速度等),控制動作為機器人特定部位(如腿部、頭部)的力。

所有類型數據元素均存在隨機損壞(random)或對抗損壞(advers)時的實驗結果見下表。

可以看到,TRACER在所有控制環境中均獲得了較為明顯的性能提升,提升幅度達+21.1%,在所有環境中都獲得了最高的平均得分。

這一結果展現了TRACER對大規模、各類數據損壞的強魯棒性。

圖片

單種類型數據元素存在損壞的部分實驗結果見表2和表3。

而在單類數據損壞中,TRACER于24個實驗設置里實現16組最優性能,可見TRACER面向小規模、單類數據損壞的問題也能有效地增強魯棒性。

存在隨機損壞時,TRACER在8個實驗設置中獲得了最高的平均得分。

圖片

同樣地,單類元素存在對抗損壞時,TRACER在8個實驗設置中也獲得了最高的平均得分。

圖片

作者簡介

本論文作者楊睿是中國科學技術大學2019級碩博連讀生,師從王杰教授、李斌教授,主要研究方向為強化學習、自動駕駛等。

他曾以第一作者在 NeurIPS、KDD 等頂級期刊與會議上發表論文兩篇,曾獲滴滴精英實習生(16/1000+)

論文地址:https://openreview.net/pdf?id=rTxCIWsfsDGitHub:
https://github.com/MIRALab-USTC/RL-TRACER

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-11-18 07:45:00

2025-04-01 09:32:00

模型訓練AI

2021-12-06 09:53:09

自然語言神經網絡人工智能

2020-10-15 19:22:09

Menger機器學習強化學習

2023-04-06 16:29:18

模型AI

2020-11-16 08:54:05

Google 開源技術

2017-02-27 11:36:31

阿里

2025-03-14 10:22:03

2023-12-04 13:23:00

數據訓練

2017-06-10 16:19:22

人工智能智能體強化學習

2022-11-03 14:13:52

強化學習方法

2025-10-27 09:15:00

2024-12-09 10:15:00

AI技術

2025-10-20 08:50:00

2025-03-03 09:12:00

2021-07-22 15:25:14

開源技術 框架

2025-06-09 09:32:35

2024-10-28 14:20:00

2020-04-15 16:44:38

谷歌強化學習算法
點贊
收藏

51CTO技術棧公眾號

欧美丰满美乳xxx高潮www| 成人午夜看片网址| 精品国产一区二区三区久久| 97免费公开视频| www.51av欧美视频| 日本一区二区三区四区| 91文字幕巨乱亚洲香蕉| 久久一区二区三区视频| 日本欧美国产| 欧美大片在线观看一区| 女人另类性混交zo| av片在线观看| 久久久美女艺术照精彩视频福利播放| 成人黄色片网站| 偷偷操不一样的久久| 91成人看片| 亚洲人成自拍网站| 国产吃瓜黑料一区二区| 91在线成人| 亚洲成av人在线观看| 少妇精品久久久久久久久久| 亚洲免费不卡视频| 久久国产88| 九九热r在线视频精品| 免费看黄色三级| 8848成人影院| 欧美日本韩国一区| 黄色片一级视频| 久久免费电影| 亚洲三级免费观看| 欧美日韩一区在线观看视频| 少妇精品高潮欲妇又嫩中文字幕 | 日韩二区三区在线| 中文字幕永久有效| 亚洲成a人片| 香蕉加勒比综合久久| 先锋影音一区二区三区| 性一交一乱一伧老太| 国内不卡的二区三区中文字幕| 欧美一级片在线播放| 久久亚洲成人av| 亚洲成人一区| 精品国偷自产在线| 18啪啪污污免费网站| 国产欧美日韩视频在线| 亚洲美女性视频| 国产麻豆xxxvideo实拍| 18国产精品| 精品国免费一区二区三区| 中文字幕国产高清| 国产精品亚洲综合在线观看 | 中文字幕亚洲区| 日韩国产高清一区| 黄色网址在线播放| 国产日韩欧美电影| 亚洲成人第一| 老司机午夜在线| 亚洲欧美一区二区视频| 中文字幕中文字幕一区三区| 日韩成人影视| 中文字幕一区二区三区精华液| 亚洲欧洲一区二区| 免费大片黄在线观看视频网站| 国产精品传媒视频| 视色,视色影院,视色影库,视色网| 日本韩国在线视频爽| 久久蜜桃香蕉精品一区二区三区| 欧美日韩在线播放一区二区| 成年人在线看| 亚洲视频资源在线| 97超碰国产精品| 国产美女高潮在线| 欧美在线小视频| 中文字幕国产免费| 日本免费精品| 亚洲国产精品国自产拍av秋霞 | 超碰成人福利| 亚洲精品v欧美精品v日韩精品| 黄色录像a级片| 欧美精品久久久久久 | av剧情在线观看| 富二代精品短视频| 一区二区xxx| 亚洲日本va中文字幕| 亚洲精选在线观看| 少妇高潮一区二区三区喷水| 亚洲视频综合| 国产精品久久久久久久久久三级| 国产精品久久久久久久久久久久久久久久| 国产在线视视频有精品| 精品国产第一页| 午夜精品一区| 亚洲成av人影院| 亚洲精品一二三四五区| 美女精品久久| 亚洲色图综合久久| 久久免费在线观看视频| 三级影片在线观看欧美日韩一区二区| 国产中文字幕91| 五月婷婷狠狠干| 亚洲私人黄色宅男| 37pao成人国产永久免费视频| 精品一区二区三区四区五区| 亚洲男人第一av网站| 男人的天堂久久久| 久久免费黄色| 国产精品一国产精品最新章节| 啊v视频在线| 亚洲不卡在线观看| 国产aⅴ爽av久久久久| 日韩三级av| 欧美乱人伦中文字幕在线| 97人妻精品视频一区| 99久久精品免费| 丰满人妻一区二区三区53号| 巨胸喷奶水www久久久免费动漫| 欧美精品一区男女天堂| a一级免费视频| 视频一区二区不卡| 久久偷看各类wc女厕嘘嘘偷窃| www.在线视频| 欧美精品久久一区二区三区| 色哟哟精品观看| 亚洲第一精品影视| 99re国产| 国产不卡在线| 欧美日韩和欧美的一区二区| 右手影院亚洲欧美| 亚洲高清久久| 国产精品theporn88| 久草中文在线观看| 欧美日韩国产小视频在线观看| 精品人妻一区二区三区香蕉| 亚洲网站在线| 国产98在线|日韩| a免费在线观看| 7799精品视频| 日韩在线观看免| 久久福利资源站| 午夜精品一区二区三区四区 | 欧美午夜精品在线| 性欧美18—19sex性高清| 综合一区av| 51国产成人精品午夜福中文下载| 国产在线高清视频| 5月丁香婷婷综合| 国产传媒免费在线观看| 蜜桃av噜噜一区二区三区小说| 五月天亚洲综合情| 国产精品原创视频| 最近2019年中文视频免费在线观看| 成年人视频免费| 国产日韩欧美精品综合| 免费黄色一级网站| 成人同人动漫免费观看| 国产精品欧美激情| 欧美三级电影一区二区三区| 欧美日韩aaaaa| 中文字幕五月天| 国产v综合v亚洲欧| 久久久久久人妻一区二区三区| 国产无遮挡裸体免费久久| 91av福利视频| 国产黄色片在线观看| 欧美三日本三级三级在线播放| 色撸撸在线视频| 韩国三级电影一区二区| 国产制服91一区二区三区制服| 99精品在免费线中文字幕网站一区| 欧美黑人性生活视频| 五月婷婷久久久| 欧美在线观看视频一区二区三区| 秋霞欧美一区二区三区视频免费 | 欧美日韩精品在线视频| 女~淫辱の触手3d动漫| 日韩综合一区二区| 中文字幕色一区二区| 亚洲一区二区免费在线观看| 91高清视频免费| av免费在线一区二区三区| 在线成人免费视频| 欧美xxxx黑人xyx性爽| 99re8在线精品视频免费播放| 男人的天堂日韩| 91精品国产乱码久久久久久| 国外成人免费视频| 成人勉费视频| 久久成人精品视频| 无码h黄肉3d动漫在线观看| 在线精品观看国产| 国产suv一区二区三区| av电影在线观看不卡| 亚洲欧美国产日韩综合| 好看不卡的中文字幕| 日本不卡在线观看| 亚洲综合网站| 国产精品久久久久久久久久免费 | 精品久久中文| 91超碰rencao97精品| 午夜欧美巨大性欧美巨大| 久久久精品一区二区| 欧洲毛片在线| 日韩欧美一区在线| 日本中文字幕在线观看视频| 依依成人精品视频| 久久久久亚洲AV成人无在| 粉嫩一区二区三区在线看| 日本www.色| 一区二区三区福利| 福利在线小视频| 欧美丝袜一区| 麻豆成人av| 国产精品白丝一区二区三区| 国产欧美日韩丝袜精品一区| 草草视频在线| 欧美另类精品xxxx孕妇| 午夜免费视频在线国产| 亚洲人成在线观看网站高清| 欧美一级一区二区三区| 91精品国产综合久久福利软件 | 美女www一区二区| 中国一级黄色录像| 国产亚洲精品美女久久久久久久久久| 粉嫩av四季av绯色av第一区| 色综合久久久| 国产精品高潮呻吟久久av无限| 欧美aa在线观看| 欧美成人全部免费| 免费黄网站在线播放| 亚洲欧美激情四射在线日| 秋霞av鲁丝片一区二区| 日韩欧美一二三区| 国产人妖一区二区| 欧美精品久久天天躁| 在线观看中文字幕码| 日韩欧美有码在线| 91视频免费网址| 午夜亚洲福利老司机| 国产在线拍揄自揄拍| 玉米视频成人免费看| 青草草在线视频| 亚洲激情六月丁香| 少妇影院在线观看| 樱桃视频在线观看一区| 强行糟蹋人妻hd中文| 亚洲欧美日韩国产一区二区三区 | 亚洲成人久久精品| 日韩精品中文字幕在线不卡尤物 | 久久久久无码国产精品| 亚洲天堂成人在线观看| 亚洲熟女毛茸茸| 亚洲欧美在线aaa| 四虎永久免费在线| 亚洲一区视频在线| 国产乡下妇女做爰毛片| 亚洲va在线va天堂| 中文字幕免费在线观看视频| 日韩欧美在线字幕| 天堂网一区二区| 欧美在线观看视频一区二区 | 寂寞少妇一区二区三区| 四虎成人在线播放| 国产suv精品一区二区6| 性色av蜜臀av浪潮av老女人 | 欧美自拍偷拍网| 亚洲三级免费观看| 国产精品不卡av| 色综合视频在线观看| 在线视频播放大全| 日韩一区二区三免费高清| 亚洲成人一二三区| 亚洲精品自拍视频| a黄色在线观看| 久久99久久99精品免观看粉嫩| 2019中文字幕在线电影免费| 日本成人在线视频网址| 欧美亚洲福利| 国产精品.com| 成人短片线上看| 日韩在线视频在线| 亚洲精品精选| 污污网站免费看| 东方aⅴ免费观看久久av| 亚洲一区二区在线免费| 欧美激情一区二区| 精品爆乳一区二区三区无码av| 欧美日韩另类视频| 一本一道精品欧美中文字幕| 亚洲国产精品久久精品怡红院| 国产小视频在线| 欧美超级免费视 在线| 午夜影院在线播放| 成人h视频在线| 日本一区福利在线| 中文字幕免费高| 先锋a资源在线看亚洲| 中文字幕12页| 久久久久99精品国产片| 福利所第一导航| 色琪琪一区二区三区亚洲区| 国产黄a三级三级三级| 亚洲人成五月天| 免费影视亚洲| 国产乱人伦真实精品视频| 欧美美女在线直播| 青青草免费在线视频观看| 免费日韩视频| 一级少妇精品久久久久久久| 一区二区中文字幕在线| 国产一区二区视频网站| 精品精品欲导航| 国产在线激情| 国产精品香蕉av| 青青草原在线亚洲| 亚洲色婷婷久久精品av蜜桃| 免费在线欧美视频| 精品少妇人妻一区二区黑料社区 | 国产91精品免费| 国产精品麻豆一区| 一本大道久久a久久综合| 亚洲精品国产精品国| 久热在线中文字幕色999舞| 成人在线黄色| 日本不卡一区二区三区在线观看| 在线日韩中文| 最新国产精品自拍| 亚洲免费观看高清完整| 6—12呦国产精品| 中文字幕综合一区| 成人在线黄色| 视频二区一区| 丝袜亚洲另类欧美综合| 黄瓜视频污在线观看| 亚洲va欧美va天堂v国产综合| 99在线小视频| 美女av一区二区| 日韩黄色三级| 亚洲综合激情五月| 激情六月婷婷综合| 日本福利片在线观看| 911国产精品| 中文字幕中文字幕在线中高清免费版| 成人精品一区二区三区电影黑人| 日本一区二区在线看| 激情 小说 亚洲 图片: 伦| 中文字幕第一区第二区| 国产成人av免费| 日韩中文字幕在线| 只有精品亚洲| 免费成人深夜夜行网站视频| 国产精品综合久久| 久草视频中文在线| 精品久久国产97色综合| 精品三级久久| 青娱乐一区二区| 奇米影视7777精品一区二区| 老司机精品免费视频| 91麻豆精品国产自产在线观看一区 | 久久影院一区二区| 精品福利视频一区二区三区| 黄色激情在线播放| 欧美一区二区综合| 老司机亚洲精品| 日韩精品久久久久久久的张开腿让| 欧美精品久久一区| 国产美女一区视频| 精品一区二区视频| 秋霞电影一区二区| 希岛爱理中文字幕| 亚洲国产天堂久久综合| 免费电影日韩网站| 亚洲一区三区| 懂色av中文一区二区三区| 国产成人亚洲精品自产在线| 亚洲乱码国产乱码精品精| 97精品国产99久久久久久免费| 国产高清精品软男同| www.av亚洲| 中国黄色一级视频| 久久久久久69| 国产精品午夜一区二区三区| 手机免费av片| 亚洲18色成人| 9i精品一二三区| 成人在线观看网址| 青娱乐精品视频| 久久黄色小视频| 国产一区二区三区高清在线观看| 成人动漫视频在线观看| 男人添女人下面高潮视频| 欧美国产一区二区在线观看| 亚洲va欧美va| 国产成人免费av| 欧美777四色影| 在线国产视频一区| 亚洲精品一区二区三区精华液| 精品九九久久| 18岁网站在线观看| 亚洲精品欧美在线| 九色在线观看视频|