精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

強化學習之父Richard Sutton給出一個簡單思路,大幅增強所有RL算法

人工智能 新聞
近日,強化學習之父、阿爾伯塔大學教授 Richard Sutton 的團隊低調更新了一篇論文,其中提出了一種新的通用思想 Reward Centering,并稱該思想適用于幾乎所有強化學習算法。這里我們將其譯為「獎勵聚中」。

在當今的大模型時代,以 RLHF 為代表的強化學習方法具有無可替代的重要性,甚至成為了 OpenAI ο1 等模型實現強大推理能力的關鍵。

但這些強化學習方法仍有改進空間。近日,強化學習之父、阿爾伯塔大學教授 Richard Sutton 的團隊低調更新了一篇論文,其中提出了一種新的通用思想 Reward Centering,并稱該思想適用于幾乎所有強化學習算法。這里我們將其譯為「獎勵聚中」。

該論文是首屆強化學習會議(RLC 2024)的入選論文之一。一作 Abhishek Naik 剛剛從阿爾伯塔大學獲得博士學位,他是 Sutton 教授的第 12 位博士畢業生。圖片

下面我們簡要看看 Reward Centering 有何創新之處。

圖片


  • 論文標題:Reward Centering
  • 論文地址:https://arxiv.org/pdf/2405.09999

獎勵聚中理論

智能體和環境之間的交互可以表述為一個有限馬爾可夫決策過程(MDP)(S, A, R, p),其中 S 表示狀態集,A 表示動作集,R 表示獎勵集,p : S × R × S × A → [0, 1] 表示轉換的動態。在時間步驟 t,智能體處于狀態 S_t,使用行為策略 b : A × S → [0, 1] 采取行動 A_t,然后根據轉換動態:

圖片

觀察下一個狀態 S_{t+1} 和獎勵 R_{t+1}。

這里研究的問題是持續性問題,即智能體和環境的交互會無限地進行。智能體的目標是最大化長期獲得的平均獎勵。為此,該團隊考慮了估計每個狀態的預期折扣獎勵總和的方法:

圖片

這里,折扣因子不是問題的一部分,而是一個算法參數。

獎勵聚中思想很簡單:從獎勵中減去實際觀察到的獎勵的平均值。這樣做會讓修改后的獎勵看起來以均值為中心。

這種以均值為中心的獎勵在 bandit 設置中很常見。舉個例子,Sutton 和 Barto 在 2018 年的一篇論文中表明,根據觀察到的獎勵估計和減去平均獎勵可以顯著提高學習速度。

而這里,該團隊證明所有強化學習算法都能享受到這種好處,并且當折現因子 γ 接近 1 時,好處會更大。

獎勵聚中之所以這么好,一個底層原因可通過折現價值函數的羅朗級數(Laurent Series)分解來揭示。

折現價值函數可被分解成兩部分。其中一部分是一個常數,并不依賴狀態或動作,因此并不參與動作選取。

用數學表示的話,對于與折現因子 γ 對應的策略 π 的表格折現價值函數圖片

圖片

其中 r(π) 是策略 π 獲得的獨立于狀態的平均獎勵,圖片是狀態 s 的微分值。它們各自對于遍歷 MDP 的定義為:


圖片

圖片則是一個誤差項,當折現因子變為 1 時變為零。狀態值的這種分解也意味著狀態-動作值有類似的分解。

這種 Laurent 級數分解能解釋獎勵聚中為何有助于解決 bandit 問題。

在完整的強化學習問題中,與狀態無關的偏移可能會相當大。舉個例子,圖 2 中展示的三狀態馬爾科夫獎勵過程。如果狀態從 A 變成 B,則獎勵是 +3,否則都是 0。平均獎勵為 r(π) = 1。右側表中給出了三個折現因子的折現狀態值。

圖片

現在,從每個狀態中減去常數偏移的折現值圖片,也被稱為聚中折現值。

可以看到,這個已經聚中的值在幅度上要小得多,并且當折現因子增大時,也只會發生輕微變化。這里還給出了微分值以供參考。

這些趨勢普遍成立:對于任意問題,折現值的幅度都會隨著折現因子接近 1 而急劇增加,而聚中折現值則變化不大,并接近微分值。

從數學上看,聚中折現值是平均聚中獎勵的預期折現和:
圖片

其中 γ ∈ [0, 1]。當 γ = 1 時,聚中折現值與微分值相同。更一般地說,聚中折現值是微分值加上來自羅朗級數分解的誤差項,如上圖右側所示。

因此,獎勵聚中能夠通過兩個組件(恒定平均獎勵和聚中折現值函數)捕獲折現值函數中的所有信息。這種分解非常有價值:

  • 當γ→1時,折現值趨于爆炸,但聚中折現值仍然很小且易于處理。
  • 如果問題的獎勵偏移了一個常數 c,那么折現值的幅度就會增加 c/(1 ? γ),但聚中折現值會保持不變,因為平均獎勵也會增加 c。

使用獎勵聚中時,還可以設計出在智能體的生命周期內可以改變折現因子(算法參數)的算法。對于標準折現算法來說,這通常是低效或無效的,因為它們的非聚中值可能會發生巨大變化。相比之下,聚中值可能變化不大,當折現因子接近 1 時,變化會變得微不足道。

當然,為了獲得這些潛在好處,首先需要基于數據估計出平均獎勵。

簡單獎勵聚中以及基于價值的獎勵聚中

估計平均獎勵最簡單的方法是根據之前已經觀察到的獎勵估計平均值。也就是說,如果圖片表示 t 個時間步驟后的平均獎勵估計,則圖片。更一般地,可以使用步長參數 βt 來更新該估計:圖片

該團隊表示,這種簡單的聚中方法適用于幾乎任何強化學習算法。舉個例子,獎勵聚中可以與傳統的時間差分(TD)學習組合起來學習一個狀態-價值函數估計:圖片

此外,他們還提出了基于價值的獎勵聚中。這種方法的靈感來自強化學習的平均獎勵公式。Wan et al. (2021) 表明,使用時間差分(TD)誤差(而不是 (4) 中的傳統誤差)可以對表格離策略設置中的獎勵率進行無偏估計。事實證明,平均獎勵公式中的這個思路在折扣獎勵公式中也非常有效。

該團隊表明,如果行為策略采取目標策略所做的所有操作,那么可以使用 TD 誤差很好地近似目標策略的平均獎勵:
圖片

由于這種聚中方法除了獎勵之外還涉及價值,因此他們將其稱為基于價值的聚中。不同于簡單的獎勵聚中,現在平均獎勵估計和價值估計的收斂是相互依賴的。

實驗

該團隊實驗了 (5) 式的四種算法變體版本,并測試了不同的折現因子。詳細過程請閱讀原論文,這里我們簡單看看結果。圖片

如圖 3 所示,當獎勵由一個 oracle 進行聚中處理時,學習曲線的起點會低得多。對于其它算法,第一個誤差都在 r(π)/(1 ? γ) 量級。

無聚中的 TD 學習(藍色)最終達到了與 oracle 聚中算法(橙色)相同的誤差率,這符合預期。

簡單聚中方法(綠色)確實有助于更快地降低 RMSVE,但其最終誤差率會稍微高一點。這也符合預期,因為平均獎勵估計會隨時間而變化,導致與非聚中或 oracle 聚中版本相比,更新的變數更大。當 γ 更大時也有類似的趨勢。這些實驗表明,簡單的獎勵聚中技術在在策略設置中非常有效,并且對于較大的折扣因子,效果更為明顯。

在學習率和漸近誤差方面,基于價值的獎勵聚中(紅色)在在策略問題上與簡單聚中差不多。但在離策略問題上,基于價值的聚中能以更快的速度得到更低的 RMSVE,同時最終誤差率也差不多。

總體而言,可以觀察到獎勵聚中可以提高折現獎勵預測算法(如 TD 學習)的學習率,尤其是對于較大的折扣因子。雖然簡單獎勵聚中方法已經相當有效,但基于價值的獎勵聚中更適合一般的離策略問題。

此外,該團隊還研究了獎勵聚中對 Q 學習的影響。具體的理論描述和實驗過程請訪問原論文。
圖片


圖片

總之,實驗表明,獎勵聚中可以提高 Q 學習算法的表格、線性和非線性變體在多種問題上的性能。當折現因子接近 1 時,學習率的提升會更大。此外,該算法對問題獎勵變化的穩健性也有所提升。

看起來,獎勵聚中這個看起來非常簡單的方法確實可以顯著提升強化學習算法。你怎么看待這一方法,會在你的研究和應用中嘗試它嗎?

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-11-29 16:33:24

2025-09-28 08:58:55

2025-08-20 09:15:00

2025-05-28 09:15:00

AI視覺模型

2025-04-18 10:01:41

2024-03-19 00:15:00

機器學習強化學習人工智能

2020-12-23 06:07:54

人工智能AI深度學習

2025-10-14 08:59:00

2024-12-09 08:45:00

模型AI

2025-11-07 08:51:41

2021-06-11 09:28:04

人工智能機器學習技術

2023-07-20 15:18:42

2025-10-11 04:00:00

2025-10-28 15:42:32

AlphaGo強化學習算法

2019-10-08 10:44:42

人工智能機器學習技術

2025-06-10 11:22:09

強化學習AI模型

2025-04-11 12:10:33

2020-06-05 14:49:51

強化學習算法框架

2025-07-14 09:26:45

2024-08-29 14:20:00

AI訓練
點贊
收藏

51CTO技術棧公眾號

日本亚洲欧美在线| 538任你躁在线精品免费| 亚洲欧美激情在线观看| 激情综合中文娱乐网| 精品国产凹凸成av人网站| 久久99久久久久久| 秋霞网一区二区| 毛片一区二区| 国产一区二区精品丝袜| 五月激情五月婷婷| 女囚岛在线观看| 成人sese在线| 91po在线观看91精品国产性色| 亚洲av无码成人精品国产| 欧美电影免费观看| 中文字幕巨乱亚洲| 99精品国产高清在线观看| 国产一级做a爰片在线看免费| 一区二区三区四区高清视频 | 欧美日韩成人综合天天影院 | 亚洲一级二级| 亚洲视频在线观看网站| 污污网站免费观看| 成人影音在线| 国产精品理论在线观看| 国产在线精品日韩| 国产精品人人爽| 国产精品五区| 免费99精品国产自在在线| 短视频在线观看| 亚洲一区 二区| 欧美中文字幕一二三区视频| 麻豆md0077饥渴少妇| 青春草在线观看| 精品一区二区三区影院在线午夜 | 高清不卡亚洲| 悠悠色在线精品| 特级西西444www大精品视频| 色欲av永久无码精品无码蜜桃| 麻豆91精品视频| 日本午夜精品理论片a级appf发布| 成人免费视频国产免费观看| 天堂网av成人| 欧美第一区第二区| gogogo高清免费观看在线视频| 日本不卡免费高清视频在线| 亚洲综合网站在线观看| 一区二区免费在线视频| 国产在线观看免费| 91蜜桃婷婷狠狠久久综合9色| 亚洲伊人久久综合| 中文字幕一区二区三区免费看 | 欧美极品aⅴ影院| 精品一区在线播放| 亚洲国产www| 国产在线播放一区| 91精品国产自产在线老师啪| 日本熟妇一区二区| 亚洲私拍自拍| 欧美成人一二三| 正在播放国产对白害羞| 免费电影一区二区三区| 亚洲激情视频在线播放| 高清中文字幕mv的电影| 91精品国产自产在线丝袜啪| 91精品黄色片免费大全| 中文字幕一区二区三区四| 欧美videos粗暴| 欧美在线|欧美| 91色国产在线| 国产香蕉精品视频| 手机福利在线| 欧美片网站免费| 欧美视频精品在线| 九九热在线免费| 美女av在线免费看| 精品久久久久久久久久久久久久| 无码人妻少妇伦在线电影| 国产精品一区hongkong| 亚洲成人手机在线| 成人精品视频在线播放| www成人免费观看| 高跟丝袜欧美一区| 国产日韩成人内射视频| 开心久久婷婷综合中文字幕| 69久久夜色精品国产69蝌蚪网| 激情五月婷婷基地| 日韩三级精品| 亚洲精品99久久久久| 久久97精品久久久久久久不卡| 国产欧美精品一二三| 国产精品777777在线播放| 日韩亚洲欧美成人一区| 国产又黄又粗又猛又爽的视频 | 91成人免费在线视频| 91 com成人网| 婷婷五月综合缴情在线视频| 色偷偷色偷偷色偷偷在线视频| 色国产精品一区在线观看| 亚洲天堂网一区| 看亚洲a级一级毛片| 亚洲福利在线看| 久久成人激情视频| 亚洲精品888| 韩日欧美一区二区| 中国女人一级一次看片| 国产酒店精品激情| 久久99精品久久久久久青青日本| 亚洲欧美日韩动漫| 中文字幕一区二区视频| 超薄肉色丝袜足j调教99| 国产一二在线播放| 在线看国产一区| 一区二区在线免费观看视频| 一区二区三区四区在线看 | 国产精品欧美亚洲| 波多野结衣在线一区| 视频一区亚洲| av免费不卡国产观看| 欧美亚洲图片小说| 精品国产aⅴ一区二区三区东京热| 一本色道久久综合亚洲精品酒店 | 亚洲AV午夜精品| 久久蜜桃av一区精品变态类天堂| 国产精品久久成人免费观看| 久久uomeier| 日韩精品中文字幕在线不卡尤物| 手机免费看av| 亚洲精品婷婷| 91香蕉国产在线观看| 香蕉视频黄色片| 亚洲毛片av在线| 欧美性猛交久久久乱大交小说 | 久久精品一区二区不卡| 欧美一级在线播放| 亚洲第一页在线观看| 国产精品网曝门| 国产成人黄色片| 97se亚洲| 欧美成人免费小视频| 在线免费看av片| 久久人人97超碰com| 国产日韩亚洲欧美在线| 免费观看性欧美大片无片| 在线免费观看羞羞视频一区二区| 91精品国产乱码久久久张津瑜| 久久精品72免费观看| 日本成人三级| 日韩大尺度黄色| 日韩av一区在线| 黄色一级视频免费| 国产伦精品一区二区三区视频青涩 | 精品人伦一区二区色婷婷| 久久国产美女视频| 精品一区二区成人精品| 午夜精品一区二区在线观看| 欧美电影网址| 亚洲老头老太hd| 国产精品视频123| 天堂精品久久久久| 国产三级精品视频| 污污污污污污www网站免费| avtt久久| 久久影院免费观看| 一级做a爰片久久毛片16| 国产精品理伦片| 色播五月激情五月| 午夜片欧美伦| 国产精品久久久久久中文字| 色综合888| 色8久久精品久久久久久蜜| 少妇久久久久久久久久| 国产偷自视频区视频一区二区| 国产私拍一区| 亚洲女同av| 国产亚洲精品久久久久动| 羞羞色院91蜜桃| 亚洲国产精品高清| 中文字幕中文在线| 欧美成人一品| 国产福利久久精品| 悠悠资源网亚洲青| 亚洲午夜性刺激影院| 综合久久中文字幕| 亚洲你懂的在线视频| www.桃色.com| 伊人久久婷婷| 欧美日韩精品一区| 成人四虎影院| 久久97精品久久久久久久不卡| 后进极品白嫩翘臀在线视频| 色综合久久久久久久| 中文字幕求饶的少妇| 国产成人精品三级麻豆| av天堂永久资源网| 99精品视频在线| 国内精品国语自产拍在线观看| 韩国成人漫画| 欧美成人一二三| 国产私人尤物无码不卡| 91精品久久久久久蜜臀| 99久热在线精品996热是什么| 亚洲欧洲在线观看av| 中文字幕一区二区三区乱码不卡| 久久在线精品| 国产在线观看欧美| 欧美色图激情小说| 亚洲a区在线视频| 欧美中文字幕精在线不卡| 久久的精品视频| 色鬼7777久久| 欧美mv日韩mv| 中文字幕乱码视频| 婷婷中文字幕综合| 动漫性做爰视频| 成人自拍视频网| 欧美一区二区三区色| 特黄视频免费看| 樱花草国产18久久久久| 一级在线观看视频| 99国产精品久久久久久久久久久 | 日韩理论片久久| 国产激情久久久久久熟女老人av| 欧日韩精品视频| 日韩成人免费在线视频| 亚洲欧洲日产国码二区| 国产毛片久久久久久久| 91丨porny丨在线| 4438x全国最大成人| 美国十次了思思久久精品导航| 免费在线观看亚洲视频| 国产精品www.| 992tv成人免费观看| 久久激情电影| 日本在线视频不卡| 亚洲婷婷丁香| 精品蜜桃一区二区三区| 成人激情自拍| 粉嫩高清一区二区三区精品视频 | 欧美大肚乱孕交hd孕妇| 国产熟女精品视频| 欧美精品在线观看播放| 中文字幕无码乱码人妻日韩精品| 91国产视频在线观看| 亚洲男人的天堂在线视频| 午夜伦欧美伦电影理论片| 69精品久久久| 亚洲成人www| 日韩精品一区二区三| 亚洲国产视频a| 国产亚洲成人av| 91精品国产91久久久久游泳池 | 最近日韩中文字幕| 人人艹在线视频| 国产精品欧美综合在线| 国产人与禽zoz0性伦| 国产精品不卡在线观看| 小早川怜子一区二区的演员表| 国产精品国产a级| 亚洲色偷偷综合亚洲av伊人| 最新成人av在线| 久草视频手机在线观看| 亚洲高清视频的网址| 日韩欧美性视频| 色激情天天射综合网| 高潮无码精品色欲av午夜福利| 欧洲另类一二三四区| 一本到在线视频| 欧美一级艳片视频免费观看| 亚洲第一天堂网| 日韩精品一二三四区| av网站在线免费观看| 久久人人爽亚洲精品天堂| 亚洲www色| 91精品国产一区| 日韩a**中文字幕| 成人久久18免费网站图片| 999久久精品| 精品无码久久久久久久动漫| 国产探花一区| eeuss中文| 99视频精品免费观看| 91看片在线免费观看| 国产一区二区福利| 中文视频在线观看| 日本一区二区动态图| 欧美三级一级片| 成年人免费在线视频| 尤物九九久久国产精品的特点 | 欧美日本高清视频| 一个人www视频在线免费观看| 国产精品免费一区豆花| 136福利精品导航| 欧美性天天影院| 欧美在线黄色| 日韩一级在线免费观看| 国产在线视频精品一区| 91视频在线免费| 国产精品污网站| 在线免费观看毛片| 在线精品国精品国产尤物884a| av在线亚洲天堂| 亚洲欧美国产制服动漫| 丝袜在线视频| 国产精品91久久久久久| silk一区二区三区精品视频| 视频一区视频二区视频三区视频四区国产 | 精品视频在线观看一区二区| 久久精品一区| 免费看91视频| 国产精品理论片在线观看| 国产精品美女久久久久av爽| 欧美一区二区三区白人| 国产在线91| 久久免费视频观看| 精品999日本久久久影院| 欧美系列一区| 国产一区二区三区的电影| 杨幂一区二区国产精品| 国产欧美日韩另类一区| 精品美女久久久久| 日韩一区二区三区观看| 亚洲人成色77777| 日韩av有码| 一本久道中文无码字幕av| av在线这里只有精品| 青青草手机视频在线观看| 欧美色精品在线视频| 裸体xxxx视频在线| 午夜精品在线视频| 97se亚洲| 欧美一级爱爱视频| 国产美女娇喘av呻吟久久| 无码人中文字幕| 欧美午夜在线一二页| 狠狠狠综合7777久夜色撩人| 青青a在线精品免费观看| 成人三级av在线| 久久精品无码中文字幕| 国产黄色精品视频| 无码人妻精品一区二区三区夜夜嗨 | 久久久久亚洲av无码专区喷水| 免费观看在线综合色| 欧美大波大乳巨大乳| 色综合久久久久综合99| 欧美新色视频| 欧美专区国产专区| 你微笑时很美电视剧整集高清不卡| 又粗又黑又大的吊av| 99re免费视频精品全部| 国产精品999在线观看| 亚洲电影免费观看| av在线小说| 精品乱色一区二区中文字幕| 一区二区三区四区五区在线| 99re久久精品国产| 精品久久香蕉国产线看观看亚洲 | 91蜜桃免费观看视频| 五月天婷婷导航| 尤物yw午夜国产精品视频| 欧美电影在线观看网站| 中文字幕制服丝袜在线| 国产成人h网站| 国产亚洲成人av| 日韩电影中文字幕在线观看| 69久成人做爰电影| 午夜精品一区二区三区在线观看| 麻豆成人久久精品二区三区红| www.5588.com毛片| 亚洲白虎美女被爆操| 午夜av不卡| 在线观看日韩羞羞视频| 国产成人在线影院| 日韩欧美成人一区二区三区| 在线一区二区日韩| 激情综合婷婷| 国产三区在线视频| 亚洲欧美在线视频观看| 蜜臀av午夜精品| 国产午夜亚洲精品午夜鲁丝片 | 亚洲一级二级在线| 青青操在线视频| 亚洲一区二区三区久久| 在线视频免费在线观看一区二区| 欧美激情 一区| 精品美女一区二区三区| 国产精品久久久久av电视剧| 日日噜噜夜夜狠狠久久丁香五月| av在线不卡免费看| 一级特黄aaa大片在线观看| 97国产精品视频人人做人人爱| 精品理论电影| 免费观看污网站| 欧美亚洲精品一区| aa视频在线观看| 一区二区冒白浆视频| 91亚洲精品久久久蜜桃| 国产精品免费无遮挡| 日本久久久久久久久| 欧美涩涩网站|