精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

50%優勢,力壓OpenAI和DeepMind!清華DSAC系列算法全面解析

人工智能
清華大學團隊在強化學習領域取得重大突破,開發出DSAC及DSAC-T系列算法,有效解決強化學習中的過估計問題,提升學習效果穩定性;團隊還提出DACER算法,將擴散模型與在線強化學習結合,進一步刷新性能記錄;RAD優化器為強化學習訓練穩定性提供保障,相關成果將集成入開源軟件GOPS,推動具身智能發展。

在當今的人工智能浪潮中,如何讓機器獲得像人一樣的學習能力,是推動機器智能化水平不斷進化,最終實現具身智能甚至通用人工智能(AGI)的關鍵。

想象一下幼兒的成長過程,在不斷探索與試錯中積累經驗、提升智慧。這正是強化學習的核心思想:通過與環境的互動,不斷調整策略以最大化長期回報。

從上世紀末期以來,強化學習技術快速發展,2016年AlphaGo擊敗圍棋世界冠軍李世石展示出這項技術解決復雜問題的巨大潛力。

然而,將強化學習應用于機器人,在真實世界中產生智能,還面臨許多挑戰,主要是因為真實世界的環境更加復雜多變,現有技術難以應對這種復雜性,導致學習效果不穩定。

清華大學深度強化學習實驗室長期深耕強化學習的基礎理論和應用,于近期連續取得關鍵性技術突破!

研究人員模擬人類對自然世界的真實感知模式,突破傳統強化學習依賴點估計處理連續動作空間的局限,構建動作空間概率模型,在復雜環境中動態調整動作概率分布,開發出DSAC(Distributional Soft Actor-Critic)及DSAC-T系列算法。在基準測試環境中,該系列算法取得了大幅的性能提升,并以50%以上的優勢領先于OpenAI的PPO和Deepmind的DDPG算法。

在剛剛落幕的機器學習頂會NIPS2024中,團隊進一步將擴散模型與在線強化學習深度融合,發布了DACER算法。算法把擴散模型的反向過程定義為新策略近似函數,利用其強大表示能力提升性能,再次刷新了強化學習性能的世界記錄。

不同基準任務上的訓練曲線不同基準任務上的訓練曲線

為保證強化學習訓練效果的穩定性,團隊提出了強化學習專用的神經網絡優化器RAD。該優化器從動力學視角將神經網絡參數優化建模為多粒子相對論系統演化,賦予參數獨立自適應能力,確保訓練長時域穩定與快速收斂。

相較于9個主流神經網絡優化器,RAD優化器在12個測試環境及5種主流強化學習算法中綜合性能均排名第一。特別在圖像類標準測試環境Seaquest任務中,RAD性能達到當前流行的Adam優化器的2.5倍。

上述算法將逐步集成入團隊開源的最優控制問題求解軟件GOPS中。該軟件以強化學習為核心理論,擁有完全自主知識產權,兼容多種機器人和工業仿真環境,能夠有效地處理高維度、非線性、高動態等復雜場景的具身智能控制問題,目前已經應用于自動駕駛、物流機器人、特種作業機械臂、火箭回收等不同領域。

未來隨著GOPS軟件的進一步升級,現實世界的眾多機器將可能擁有像人一樣的智能,屆時將迎來一個全新的具身智能時代。

DSAC和DSAC-T系列算法解讀

從Q-learning算法開始,不少研究者均發現強化學習存在嚴重的過估計問題。由于Q學習算法中不斷的對下?時刻的狀態值進?max操作,任何引起的Q值誤差的因素如環境中的噪聲、?絡的近似誤差都會導致對Q值的偏?的估計,即過估計。

?在時間差分學習中,這種估計誤差?會被進?步放?,因為后?狀態的過估計誤差在更新過程中?會進?步傳播到前?的狀態中。

過估計原理過估計原理

為了解決過估計問題,研究者提出著名的Double DQN算法及諸多以其為基礎的變種,但是此類?法只能解決離散動作空間的問題。對于連續控制任務,以Clipped Double Q-learning為基礎的TD3和SAC等算法則?臨著低估問題。DSAC?次從理論層?發現和論證了分布式回報函數的學習降低Q值過估計的原理,并將分布式回報學習嵌?到Maximum Entropy架構中。

DSAC算法流程DSAC算法流程

事實上,?類?腦給出的獎勵并不是?個單?的信號,?是基于某種概率分布,這也顯示了分布式回報機制設計的合理性和巨?潛?。同時,與現有Distributional RL算法(如C51,IQN,D4PG等)不同的是,DSAC可以直接學習?個連續型分布式值函數,這避免了離散分布學習帶來的??設計分割區間需求。

圖片圖片

論文鏈接:https://arxiv.org/pdf/2001.02811.pdf

論文代碼:https://github.com/Jingliang-Duan/Distributional-Soft-Actor-Critic

視頻鏈接:https://www.bilibili.com/video/BV1fa4y1h7Mo#reply3178996263

Wikipedia簡介:https://en.wikipedia.org/wiki/Distributional_Soft_Actor_Critic

DSAC算法是一種off-policy算法,可以通過學習連續的高斯值分布來有效提高值估計精度。然而DSAC算法也存在學習不穩定、參數敏感等缺點。

針對該問題,團隊在DSAC算法的基礎上進一步提出了DSAC-T: Distributional Soft Actor-Critic with Three Refinements算法。相較于DSAC,DSAC-T算法主要做了三方面改進:Expected value substituting、Twin value distribution learning與Variance-based critic gradient adjusting。

Expected value substituting:傳統RL算法在策略評估階段利用下一時刻的回報均值(即Q值)構建TD error,而DSAC算法參與critic更新時利用隨機回報Z構建TD error,增加了critic更新梯度隨機性,降低了學習穩定性。為此,DSAC-T利用隨機回報Z和Q值的期望等價性,將值分布函數均值(即Q值)更新公式中下一時刻的隨機回報替換為其均值,實現了算法性能提升。

Expected value substitutingExpected value substituting

Twin value distribution learning:DSAC算法利用值分布學習極大抑制了過估計偏差,在此基礎上,為進一步減輕值函數過估計偏差,DSAC-T結合douple-Q learning,在已有的值分布網絡基礎上額外獨立訓練了一個參數化的值分布網絡。在進行actor和critic的梯度更新時,選擇均值較小的值分布網絡構建目標。

Twin value distribution learningTwin value distribution learning

Variance-based critic gradient adjusting:為防止梯度爆炸,DSAC算法對隨機TD error設置了固定的clipping boundary,該參數對任務reward量級極為敏感,嚴重依賴reward scaling的人工調校。

針對該問題,DSAC-T引入了方差相關的動態clipping boundary,實現了TD error邊界的動態調節。此外,值分布函數更新梯度與值分布方差平方項/立方項成反比,導致了其學習過程對方差敏感。為此,DSAC-T引入gradient scaler降低方差變化對梯度的影響,進一步減小了算法對不同任務的參數敏感性。

Variance-based critic gradient adjustingVariance-based critic gradient adjusting

圖片

論文鏈接:https://arxiv.org/abs/2310.05858

論文代碼:https://github.com/Jingliang-Duan/DSAC-v2

DACER算法解讀

在線強化學習(Online Reinforcement Learning, Online RL)作為人工智能領域解決復雜序列決策問題的核心方法之一,其應用范圍持續擴展。擴散模型作為一種生成模型因其強大的擬合多模態分布能力而廣為人知。它通過逐步添加和移除噪聲來學習原始數據分布,在圖像和視頻生成領域表現出色。

然而,擴散模型直接用于Online RL可能遇到的問題包括:1. 擴散模型的損失函數項本質上是一種模仿學習損失項,但與Offline RL不同,Online RL中并不存在可供模仿的數據;2. 擴散模型的反向過程無法進行解析求熵,這使得其難以與最大熵強化學習框架相結合,從而導致算法收斂性能不佳。

為了解決上述的問題,DACER(Diffusion Actor-Critic with Entropy Regulator)建立在去噪擴散概率模型(DDPM)的基礎上。擴散模型的表示能力主要來源于反向擴散過程而非正向,因此將擴散模型的反向過程重新概念化為一種新的策略近似函數,利用其強大的表示能力來提升RL算法的性能。這個新策略函數的優化目標是最大化期望Q值。

在RL中,最大化熵對于策略探索至關重要,但擴散策略的熵難以解析確定。因此,算法選擇在固定間隔處采樣動作,并使用高斯混合模型(GMM)來擬合動作分布,可計算每個狀態下策略的近似熵。這些熵的平均值之后被用作當前擴散策略熵的近似。最后,算法使用估計的熵來平衡擴散策略在訓練過程中的探索與利用。

1. 擴散策略表征

將條件擴散模型的反向過程用作參數化策略

圖片圖片

采樣過程可以重新表述為:

圖片圖片

2. 擴散策略學習

在Online RL中,由于沒有可供模仿的數據集,算法放棄了行為克隆項和模仿學習框架。策略學習的目標是最大化由擴散網絡在給定狀態下生成的動作的期望Q值:

圖片圖片

此外,算法使用先前提出的分布式Q學習的方法來緩解值函數的過估計問題。然而,直接使用上述擴散策略學習方法進行訓練時,會因策略動作過于確定性而導致性能不佳。

3. 擴散策略與熵調節器

對于每個狀態,我們使用擴散策略來采樣N個動作,然后使用高斯混合模型(GMM)來擬合策略分布。可以通過以下方式估計對應于該狀態的動作分布的熵:

圖片圖片

類似于最大化熵的RL,根據估計的熵學習一個參數α:

圖片圖片

最終,使用下式在訓練的采樣階段調整擴散策略的熵。熵調節機制是解鎖探索潛能的關鍵。

圖片圖片

DACER算法整體流程如下:

DACER算法流程DACER算法流程

圖片圖片

論文鏈接:https://arxiv.org/pdf/2405.15177

論文代碼:https://github.com/happy-yan/DACER-Diffusion-with-Online-RL

RAD優化器解讀

價值函數和策略函數是RL算法的關鍵部件,二者交替迭代更新是RL訓練的核心步驟。當前主要以深度神經網絡作為價值函數和策略函數的載體,其訓練過程通常依賴于神經網絡優化器以實現參數更新。

然而,目前主流的神經網絡優化器(如SGD-M、Adam和AdamW等)雖然在緩解局部最優和加速收斂方面有所幫助,但其算法設計和參數選擇均依賴于人工經驗和實用技巧,缺乏對優化動態特性的解釋與分析,難以從理論上保障RL訓練的穩定性。

研究者從動力學視角出發,將神經網絡參數的優化過程建模為多粒子相對論系統狀態的演化過程,通過引入狹義相對論的光速最大原理,抑制了網絡參數的異常更新速率,同時提供了各網絡參數的獨立自適應調節能力,從理論上引入了對RL訓練穩定性和收斂性等動態特性的保障機制。

圖片圖片

進而,研究者提出了既具備穩定動力學特性又適用于深度神經網絡非凸隨機優化的RAD優化器。特別的,當速度系數δ設為1且保辛因子ζk固定為小常數ε時,RAD優化器將退化為深度學習中廣泛采用的Adam優化器。這一發現也為從動力學視角探究其他主流自適應梯度優化方法(如AdaGrad、NAdam、AdamW和Lion等)開辟了全新路徑。

RAD算法流程RAD算法流程

圖片圖片

論文地址:https://ieeexplore.ieee.org/document/10792938

代碼倉庫:https://github.com/TobiasLv/RAD


責任編輯:武曉燕 來源: 新智元
相關推薦

2010-08-13 09:34:22

紅帽云計算

2024-11-11 17:20:52

2021-01-22 16:25:15

AI 數據人工智能

2024-07-29 14:22:13

2025-06-27 07:19:48

2017-04-10 18:34:16

AndroidNotificatio

2025-09-18 12:39:10

2024-10-05 11:03:10

2010-06-11 12:37:53

UML視圖

2009-12-30 17:30:43

EPON技術

2009-10-19 16:39:19

Linux虛擬化

2025-06-12 14:20:35

谷歌DeepMindAI

2024-08-29 08:28:17

2013-05-22 09:26:36

亞馬遜谷歌微軟

2024-05-13 10:38:08

2020-02-03 09:20:43

深度學習編程人工智能

2025-11-20 11:58:18

2023-03-06 10:15:31

論文谷歌

2010-07-22 09:25:09

telnet命令

2010-03-09 17:19:01

Linux時鐘
點贊
收藏

51CTO技術棧公眾號

国产精品久免费的黄网站| 国产一级片91| 久久久国产免费| 国产欧美日韩一区二区三区四区| 色婷婷精品大在线视频| 一区二区三视频| 风流少妇一区二区三区91| 国产欧美91| 色噜噜国产精品视频一区二区| 亚洲欧美久久久久| 老牛影视精品| 国产精品私人自拍| 国产精品swag| 亚洲天堂手机在线| 99pao成人国产永久免费视频| 在线观看国产精品淫| 日本精品一二三| 日本精品在线一区| 午夜欧美视频在线观看 | a级黄色片免费| 天天干天天爽天天操| 九色综合狠狠综合久久| 91精品国产91久久久久久最新 | 日本亚洲不卡| 欧美一级高清大全免费观看| 国产免费一区二区三区视频| а天堂中文在线官网| 久久免费午夜影院| 成人情视频高清免费观看电影| 亚洲精品国产精品乱码视色| 日韩网站在线| 欧美劲爆第一页| 男人晚上看的视频| 成人亚洲一区二区| 亚洲欧美日韩国产中文| 亚洲成a人片在线www| 亚洲青青久久| 欧美少妇一区二区| 亚洲自偷自拍熟女另类| 91福利在线尤物| 一区二区三区不卡在线观看 | 成人免费看吃奶视频网站| 天堂网中文字幕| 国产亚洲一级| 777午夜精品福利在线观看| 久久久久久天堂| 艳女tv在线观看国产一区| 中文欧美日本在线资源| 欧美性猛交xxxxx水多| 日韩一级免费看| 国产福利视频在线| 国产精品国产精品国产专区不蜜| 日本精品免费| 免费黄色在线视频网站| 91视频一区二区| 久久精品magnetxturnbtih| 婷婷视频在线观看| 26uuu国产电影一区二区| 久久精品日产第一区二区三区乱码 | 在线观看亚洲精品| 别急慢慢来1978如如2| 国产精品久久亚洲不卡| 欧美日韩卡一卡二| 国产成人美女视频| 国产精品一区二区精品视频观看 | 亚洲av永久无码国产精品久久 | 色欧美88888久久久久久影院| 久久国产精品视频在线观看| av中文字幕在线观看第一页| 午夜精品一区二区三区电影天堂| 777av视频| www.com.cn成人| 在线观看日韩一区| 性开放的欧美大片| 视频一区欧美日韩| 国产成人精品av| 姑娘第5集在线观看免费好剧| 日本不卡中文字幕| 成人h片在线播放免费网站| hs视频在线观看| 成人av免费观看| 日本一区二区免费看| a黄色在线观看| 亚洲欧美另类久久久精品| 99色这里只有精品| 丝袜老师在线| 欧美日韩激情一区二区三区| 国产黄色一区二区三区| 六月丁香久久丫| 亚洲一区二区精品| 波多野结衣爱爱视频| 国产亚洲福利| 国产日韩精品视频| 色婷婷av一区二区三区之e本道| 久久久不卡影院| 中文字幕色呦呦| 免费成人直播| 欧美一区二区私人影院日本| 一区二区三区少妇| 欧美xxxx中国| 4p变态网欧美系列| www.xxx国产| 国产香蕉久久精品综合网| 一本—道久久a久久精品蜜桃| av资源网在线播放| 欧美日韩国产一区| 亚洲第一黄色网址| 亚洲成人av| 国产成人亚洲综合91| www.成人免费视频| 国产精品久久久久久久久动漫| 黄色成人在线看| 国产精品免费精品自在线观看| 日韩激情av在线播放| 精品国产视频在线观看| 日韩中文字幕1| 精品一区二区不卡| 1区2区在线观看| 在线观看一区二区视频| 捆绑裸体绳奴bdsm亚洲| 亚洲国产精品久久久久蝴蝶传媒| 日本一欧美一欧美一亚洲视频| av在线免费在线观看| 欧美激情在线看| 黄网站欧美内射| 国产午夜久久av| 在线日韩第一页| 亚洲伊人成人网| 成人污污视频在线观看| 在线观看视频黄色| 欧美高清影院| 亚洲最新av在线网站| 91精品国产综合久久久蜜臀九色| 成人丝袜高跟foot| 日韩精品久久一区二区| 97久久中文字幕| 久久精品色欧美aⅴ一区二区| 这里只有精品免费视频| 91麻豆产精品久久久久久 | 午夜视频福利在线| 性感美女久久精品| 伊人久久一区二区三区| 国产精品v欧美精品v日本精品动漫| 成人女保姆的销魂服务| 免费网站黄在线观看| 欧美午夜精品一区二区三区| 一级黄色性视频| 久热国产精品| 欧美精品免费观看二区| 伊人久久视频| 亚洲午夜av久久乱码| 亚洲天堂一区在线| 久久久久久久久久久99999| av网站在线观看不卡| 嫩草一区二区三区| 国产精国产精品| a中文在线播放| 在线播放欧美女士性生活| 国产精品国产三级国产传播| 狠狠色伊人亚洲综合成人| 中文字幕人成一区| 日本一区二区三区播放| 欧美精品18videos性欧| 日韩亚洲视频在线观看| 色欧美片视频在线观看| jizz日本在线播放| 国产一区二区三区黄视频| av影院在线播放| 国产精东传媒成人av电影| 98精品在线视频| 精品影院一区| 欧美肥胖老妇做爰| 激情综合网五月天| 91理论电影在线观看| 91蝌蚪视频在线观看| 五月激情久久久| 动漫一区二区在线| av日韩亚洲| 久久久国产视频| www.超碰在线.com| 色诱亚洲精品久久久久久| 精品国产aaa| 国产一区二区三区av电影 | 国产欧美日韩综合精品二区| 中文字幕成在线观看| 中文字幕av一区二区三区谷原希美| 国产又黄又粗又长| 午夜精品国产更新| 人妻熟人中文字幕一区二区| 国产乱子伦视频一区二区三区 | 精品日韩在线观看| 四虎成人在线观看| 亚洲欧美电影一区二区| 欧美高清性xxxx| 九九精品视频在线看| 丁香六月激情婷婷| 久久国产电影| 国产日韩欧美一区二区| 成人全视频在线观看在线播放高清| 欧美多人爱爱视频网站| 国产精品天堂| 精品国产一区二区国模嫣然| 国产嫩bbwbbw高潮| 亚洲一区二区三区小说| 国产午夜福利一区| eeuss国产一区二区三区| 国内外成人免费在线视频| 日韩一级在线| 欧美另类videos| 国产亚洲欧美日韩在线观看一区二区 | 国产69精品久久久久777| 播放灌醉水嫩大学生国内精品| 无码一区二区三区视频| 日韩精品无码一区二区三区| 成人在线视频你懂的| 成人精品视频99在线观看免费| 亚洲精品福利电影| 欧美国产极速在线| 黄色成年人视频在线观看| 亚洲美女www午夜| 亚洲高清精品视频| 欧美久久久一区| 波多野结衣一本一道| 亚洲成av人**亚洲成av**| 极品久久久久久| 中日韩免费视频中文字幕| 亚洲色图14p| 成人激情小说网站| 韩国三级hd中文字幕有哪些| 久久成人免费网站| 免费涩涩18网站入口| 国产人成精品一区二区三| 青青在线视频免费观看| 久久资源中文字幕| 婷婷四月色综合| 激情综合网站| 欧洲精品久久| 精品中文字幕一区二区三区av| 好吊妞www.84com只有这里才有精品| 欧美a级大片在线| 91麻豆国产精品| 国产精品亚洲综合在线观看| 91热福利电影| 国产欧美视频在线| 91传媒在线免费观看| 欧美午夜在线播放| 18成人在线| 午夜久久av| yellow视频在线观看一区二区| 国产精品日本一区二区不卡视频 | 牛牛影视久久网| 国产视频精品网| 美国成人xxx| 欧美极品日韩| av永久不卡| 亚洲一区三区电影在线观看| 99久久婷婷这里只有精品| 一区在线电影| 欧美另类综合| 国产色一区二区三区| 99精品视频免费观看视频| 毛片在线视频播放| 久久精品国语| 第四色婷婷基地| 国产一区在线看| 最新日本中文字幕| 91蜜桃婷婷狠狠久久综合9色| 91精品人妻一区二区三区蜜桃欧美| 欧美极品aⅴ影院| 日韩福利小视频| 亚洲国产色一区| 欧美亚洲精品天堂| 欧美日韩在线综合| 国产欧美综合视频| 亚洲精品国精品久久99热一| 青青草视频在线观看| 日韩视频亚洲视频| 国产精品69xx| 国产成人精品在线| 欧州一区二区三区| 久久久久久久久久码影片| 波多野结衣一区| www.国产二区| 日韩一区欧美二区| 亚洲精品在线网址| 久久综合丝袜日本网| 91免费公开视频| 午夜精品久久久久久久久久久| 中文字幕91爱爱| 日韩欧美亚洲另类制服综合在线| 日本一二三区在线视频| 色噜噜国产精品视频一区二区| 1区2区3区在线| 国产女人18毛片水18精品| 中文字幕一区日韩精品| 日本一区二区精品视频| 黄色国产精品| 欧美日韩在线观看不卡| 成人午夜av电影| 国产午夜精品理论片在线| 欧美日韩免费在线| 国产剧情精品在线| 亚洲欧美国产精品| 日本aa在线| 国产精品久久久久久网站| 澳门久久精品| 天天干天天操天天干天天操| 亚洲永久字幕| 佐佐木明希电影| 中文字幕中文在线不卡住| 久久艹免费视频| 日韩精品在线一区| 在线激情免费视频| 国产97在线|日韩| 国产伦乱精品| 亚洲精品天堂成人片av在线播放 | 蜜桃视频在线入口www| 久久成人国产精品| 福利一区二区| 欧美日韩国产三区| 99在线精品免费视频九九视 | 国产特级淫片高清视频| 国产精品综合在线视频| xxxxx99| 在线免费观看日本欧美| 午夜av免费观看| 欧美国产日韩二区| 91精品亚洲一区在线观看| 神马影院我不卡| 久久久一二三| 亚洲黄色免费在线观看| 亚洲国产中文字幕| 国产成人精品免费看视频| 日韩一区在线视频| 日韩综合av| 亚洲一区二区三区免费观看| 日韩黄色在线观看| 谁有免费的黄色网址| 色一情一乱一乱一91av| 亚洲av片一区二区三区| 98视频在线噜噜噜国产| 欧美成人基地| 男女高潮又爽又黄又无遮挡| 99精品国产99久久久久久白柏| 国产真实乱偷精品视频| 欧美成人乱码一区二区三区| 污污的视频在线观看| 99免费在线观看视频| 欧美.日韩.国产.一区.二区| 51自拍视频在线观看| 亚洲欧美日韩一区二区| av中文字幕第一页| 欧美精品999| 日本亚洲不卡| 黄色三级视频片| 国产精品女主播av| ,亚洲人成毛片在线播放| 日韩中文字幕视频| 精品视频在线观看免费观看| 国产精品视频一二三四区| 成人性色生活片| 欧美videossex极品| 亚洲欧美色图片| 黄色日韩网站| 国产成人三级视频| 成人教育av在线| 亚洲国产精品无码久久久| 久久精品久久精品亚洲人| 人人爱人人干婷婷丁香亚洲| 五十路熟女丰满大屁股| 久久久av毛片精品| 91精品中文字幕| 欧美国产日韩一区二区在线观看| 免费看成人人体视频| 久久久国产欧美| 亚洲最色的网站| 污污网站免费在线观看| 国产精品第1页| 68国产成人综合久久精品| 在线黄色免费网站| 在线观看www91| 羞羞网站在线免费观看| 麻豆传媒一区二区| 久久av老司机精品网站导航| 久久综合激情网| 国产一区二区激情| 伊人精品综合| 国产又黄又猛又粗又爽的视频| 亚洲女同女同女同女同女同69| 天天综合网在线观看| 成人免费视频网| 久久精品中文| 天堂网avav| 国产丝袜一区视频在线观看| 四虎精品永久免费| 毛片在线视频播放| 有坂深雪av一区二区精品| 色鬼7777久久| 99久久精品久久久久久ai换脸| 久久九九精品|