精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

為什么明明很準,獎勵模型就是不work?新研究:準確度 is not all you need

人工智能 新聞
訓練狗時不僅要讓它知對錯,還要給予差異較大的、不同的獎勵誘導,設計 RLHF 的獎勵模型時也是一樣。

我們知道,一個 RLHF 算法是否成功的一大關鍵在于其獎勵模型(RM)的質量。但是,我們應該如何衡量 RM 的質量呢?近日,普林斯頓大學一個研究團隊發現,如果僅用準確度來衡量 RM 的質量,可能無法完全體現一個獎勵模型作為有效教師的特性。為此,他們選擇了從優化角度來研究這個問題。

圖片


  • 論文標題:What Makes a Reward Model a Good Teacher? An Optimization Perspective
  • 論文鏈接:https://arxiv.org/pdf/2503.15477

在這篇論文中,他們證明:無論獎勵模型有多準確,如果它會導致獎勵方差較低,那么 RLHF 目標優化起來就會比較緩慢。即使是完全準確的獎勵模型也會導致優化速度極其緩慢,性能表現趕不上會導致獎勵方差較高但準確度較低的模型。

他們還表明,對一種語言模型有效的獎勵模型可能會讓另一種語言模型的獎勵方差較低,從而導致優化過程變得緩慢。

這些結果說明:如果在設計獎勵模型時僅基于準確度或不考慮具體的語言模型,那么就會遭遇一些根本性的限制。總體而言,除了準確度之外,獎勵模型還需要誘導出足夠的方差才能實現有效優化。

考慮到強化學習與生物大腦學習機制具有一定的共通性,于是我們求助了 Claude,讓它通過「人訓練狗」的類比給我們提供了更為直觀易懂的解釋:

圖片

看起來這個解釋還不錯?

這項工作吸引了不少研究者的注意。其中,來自斯坦福大學的 AI 研究者Rajan Vivek 不止肯定了該工作的價值,還給出了一些讓獎勵更加細粒度(誘導獎勵方差)的技巧,包括:

  1. 在最小對比對上進行訓練:可以人工合成這些對比對,要求獎勵模型能夠可靠地為其中一個輸出賦予略高的分數。
  2. 從生成式獎勵模型中計算連續獎勵:通過取 token 概率和分數的加權和來實現。
  3. 結合監督微調(SFT)、均方誤差(MSE)和偏好損失:這些方法使模型能夠生成推理依據,優化其連續獎勵,并有效地從最小對比對中學習!

圖片

下面繼續來看原論文給出的更為技術化的描述。

從優化視角看如何設計優良的獎勵模型

該團隊研究的是通過策略梯度最大化 RLHF 目標(如下 (1) 式)時預期的真實獎勵 r_G 增加到所需量所需的時間。這個時間越短越好。

圖片

他們證明,如果獎勵模型 r_RM 會為初始策略引入較低的獎勵方差,則由于目標圖景平坦,r_RM 和 r_G 都會以較慢的速度增加。因此,為了實現高效優化,r_RM 需要確保獎勵方差不會太低。

之后,他們確立了獎勵方差和優化率之間關系的兩個主要含義。

1、由于獎勵方差與準確度沒有綁定,因此更準確的獎勵模型不一定是更好的教師。

2、由于相同的獎勵模型可能會給一種策略引入較高的獎勵方差,但為另一種策略引入較低的獎勵方差,因此對于不同的初始策略,使用不同的獎勵模型會有更好的效果。

圖 1 展示了準確度與獎勵方差對 RLHF 目標圖景的影響。

圖片

具體來說,準確度和獎勵方差體現了獎勵模型的不同方面:前者控制著與 ground truth 獎勵的對齊,而后者決定了目標圖景的平坦度。

準確度越低,獎勵模型越容易受到獎勵 hacking 攻擊 —— 獎勵模型認為有益的方向可能并不會提升 ground truth 獎勵。另一方面,即使獎勵模型完全準確,低獎勵方差也意味著平坦的圖景有礙策略梯度方法的效率。

低獎勵方差意味著最大化獎勵的速度緩慢

這里將預期獎勵所需的時間下限設為一個加法常數。定理 1 表明,這個時間的增長與 圖片 成反比,這是  r_RM 針對初始策略與訓練集 S 中的提示詞得到的平均獎勵方差。這樣一來,如果提示詞 x ∈ S 的圖片 較低(即當 r_RM 無法充分地分離在初始策略下可能的輸出時),則策略梯度就會出現優化速度慢的問題。

圖片

定理 1 是原論文中定理 4 的精簡版,對其的證明請訪問原論文附錄部分。

眾所周知,低獎勵方差意味著通過 softmax 產生下一 token 分布的策略出現了梯度消失現象。

具體而言,對于任何提示詞 x 和策略 π_θ,圖片 都會隨著 圖片 衰減。然而,僅憑這一點并不能得到令人滿意的獎勵最大化率下限,因為如果沒有進一步的知識,梯度范數可能會在訓練過程中迅速增加。

但研究表明情況并非如此:當獎勵方差較低時,RLHF 目標的高階導數會與梯度一起消失,從而阻止梯度范數的快速增加。這會限制策略參數 θ(t) 的移動,從而導致獎勵增長率的下限。

更準確的獎勵模型不一定是更好的教師

上一小節表明:低獎勵方差會阻礙策略梯度的效率。值得注意的是,獎勵方差與通常用于評估獎勵模型的指標(準確度)無關。準確度僅取決于獎勵模型如何排序不同的輸出,而不考慮其獎勵之間的分離程度,而獎勵方差則由這種分離程度決定。定理 2 確定的一個關鍵含義是:準確的獎勵模型 r_RM 也可能有較低的獎勵方差。

需要明確一下,定理 2 考慮了兩點:(i) 存在 r_RM 完全準確而 r′_RM 幾乎完全不準確的極端情況;(ii) 對于提示詞 x 和獎勵模型 r_RM,關于無序輸出對的均勻分布的準確度用 accx (rRM) 表示。關于該定理的詳細版本(定理 5)的證明請訪問原論文附錄。

圖片

該團隊指出,定理 2 并不意味著高準確度的獎勵模型就一定是糟糕的教師。事實上,在幾乎任何準確度水平上,一些獎勵模型都會導致優化低效,而其他獎勵模型則表現良好。定理 2 只是形式化了準確度本身不足以評估 RLHF 中的獎勵模型的原因。

盡管如此,準確度仍是一個需要努力追求的屬性,因為更準確的模型通常不太容易受到獎勵 hacking 攻擊。也就是說,當使用不完美的獎勵模型進行訓練時,由于兩個獎勵不匹配,最終 ground truth 獎勵可能會開始減少。因此,通常的做法是只運行幾個 epoch 的策略梯度。定理 2 體現到了這種情況,其中準確度較低的獎勵模型可以通過推動 ground truth 獎勵的更快增加而勝過更準確的獎勵模型。

準確度的作用取決于對齊方法。雖然準確度本身并不能保證 RLHF 的有效性,但其重要性因對齊方法而異。例如,在 Best-of-N 采樣中,很容易證明完全準確的獎勵模型始終是最佳的。

對于不同的初始策略,不同的獎勵模型更好

獎勵方差取決于獎勵模型和策略。特別是,對一個策略產生高獎勵方差的獎勵模型可能會對另一個策略產生低獎勵方差。因此,獎勵方差和優化之間的聯系意味著對于不同的初始策略,使用不同的獎勵模型會更好,見定理 3。這表明,為了忠實地評估 RLHF 的獎勵模型,需要考慮正在對齊的策略。

圖片

實驗結果

在實驗部分,作者驗證了從理論分析中得出的結論在實踐中是成立的。

首先,他們表明,在策略梯度期間,獎勵方差與獎勵最大化率密切相關。具體來說,在固定訓練預算下,更準確的獎勵模型如果產生較低的獎勵方差,反而可能導致性能下降。更令人意外的是,這一現象甚至適用于真實(ground truth)獎勵本身:作者發現,即使能夠直接獲取真實獎勵,在某些情況下使用代理獎勵模型反而能取得更好的效果。 

如下圖 2 所示,作者使用一些獎勵模型,通過策略梯度方法(RLOO)訓練了一個 Pythia-2.8B 語言模型。這些獎勵模型的特性如表 1 所示。作為對比,作者還直接使用真實獎勵進行了策略梯度訓練。圖 2 展示了代理獎勵(左圖,即用于訓練的獎勵)和真實獎勵(右圖)隨訓練輪數增加的變化情況。與定理 2 一致,一個完美、準確但導致低獎勵方差的獎勵模型(紅色標記)的表現不如一些準確度較低的模型。更有趣的是,在最初幾輪訓練中,使用代理獎勵模型的效果甚至優于直接優化真實獎勵。

圖片

圖片

圖 7 展示了一個這種差距更為明顯的實驗。

圖片

接下來,作者證明了對于不同的語言模型,不同的獎勵模型會帶來更高的真實獎勵。如下圖 3 所示,作者使用公開可用的獎勵模型,通過策略梯度方法(RLOO)在 UltraFeedback 的提示上訓練了不同的語言模型;獎勵模型的特性見表 9。圖中數據顯示,與定理 3 一致,能夠產生最高真實獎勵的獎勵模型會隨著初始策略的不同而變化。

圖片

圖片

有關這些實驗的更多詳情以及定理證明請參閱原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-06-30 18:05:51

訓練模型圖像

2022-04-27 09:33:01

EasyNLP開源框架

2022-01-24 15:07:59

量子

2025-06-09 09:04:00

2025-06-13 14:27:05

AI模型智能體

2024-06-20 10:52:27

2025-05-30 02:00:00

獎勵模型RRMAI

2024-10-14 14:10:00

大模型AI開源

2024-06-11 07:05:34

2024-01-22 00:25:00

GPT-4ChatGPTQA 模型

2025-09-26 02:11:00

2023-12-19 13:28:06

2023-12-17 13:07:11

訓練數據

2020-09-24 06:41:33

通信IT行業

2022-01-11 10:30:22

惡意軟件樹莓派檢測系統

2025-03-31 10:00:00

AI模型預測

2024-10-08 13:38:56

2024-08-02 14:30:00

AI訓練

2024-12-05 12:26:53

點贊
收藏

51CTO技術棧公眾號

天堂社区 天堂综合网 天堂资源最新版| 欧美一区二区免费观在线| 日韩视频免费观看高清完整版在线观看| 成人午夜黄色影院| 波多野结衣久久久久| 精品视频91| 图片区日韩欧美亚洲| 欧美日本国产精品| 99久久久久久久| 国产精品白浆| 国产精品成人一区二区艾草 | 成人在线app| 国产成人免费视频一区| 97视频在线观看视频免费视频| 亚洲va综合va国产va中文| 伊人在我在线看导航| av成人免费在线| 欧美一级淫片丝袜脚交| 亚洲激情图片网| 成人h动漫免费观看网站| 久久女同精品一区二区| 国产精品亚洲网站| 久久久久黄色片| 51一区二区三区| 亚洲最新在线观看| 亚洲最大av网站| 伊人中文字幕在线观看| 午夜av一区| 日韩欧美第一区| 亚洲五月天综合| 欧美熟妇精品一区二区| 久草视频免费在线| 亚洲精品一区| 亚洲视频免费在线观看| 精品午夜一区二区三区| 91在线视频国产| 亚洲一区二区成人| 久久国产精品久久国产精品| 99在线免费视频观看| 国产日本在线视频| 成人午夜av影视| 久久精品国产99国产精品澳门| 日韩精品你懂的| 午夜影院在线观看国产主播| 一区二区成人在线| 免费观看中文字幕| 国产天堂在线| 91蜜桃网址入口| 国产成人精品福利一区二区三区 | 国产亚洲一区精品| 色婷婷av777| 成人短视频app| 精品福利一区二区| 久久精品视频16| 中文字幕乱码免费| 国产免费叼嘿网站免费| 激情都市一区二区| 亚洲一区二区久久久久久| 国产有码在线观看| 国产一区二区三区免费在线观看| 91免费视频国产| www.欧美国产| 成人免费高清在线观看| 精品一区二区三区免费毛片| 日本福利片在线| 国产三级精品三级| 国产精品偷伦一区二区| 中文字幕在线播放av| 好吊日精品视频| 午夜精品蜜臀一区二区三区免费 | 91福利视频网站| 麻豆一区二区三区在线观看| 污污视频在线| 亚洲mv在线观看| 中文字幕乱码一区二区三区 | 综合久久国产九一剧情麻豆| 成人免费看片视频在线观看| 国产在线xxx| 日韩欧亚中文在线| 国产精品国产福利国产秒拍| 99免费视频观看| 精品无人乱码一区二区三区 | 亚洲综合在线观看视频| 成年人网站国产| 九九九伊在线综合永久| 日韩一级成人av| 素人fc2av清纯18岁| 欧美3p视频| 午夜精品一区二区三区av| 337p粉嫩色噜噜噜大肥臀| 亚洲综合五月| 欧美一级片在线播放| 97精品久久人人爽人人爽| 成人免费视频播放| 色综合666| ririsao久久精品一区| 国产精品成人一区二区三区夜夜夜| 50度灰在线观看| 最近在线中文字幕| 欧美一级精品大片| 最近中文字幕在线mv视频在线 | 久久青草欧美一区二区三区| 欧美日韩在线免费观看视频| www视频在线观看| 777精品伊人久久久久大香线蕉| 成人福利在线视频| 亚洲av成人无码一二三在线观看| 欧美军人男男激情gay| 欧美成人免费播放| 中文字幕欧美色图| 99精品国产91久久久久久 | 亚洲黄网站黄| 91老司机在线| 成人亚洲性情网站www在线观看| 成人黄色小视频在线观看| 午夜欧美性电影| 欧美激情20| 精品国偷自产国产一区| 久久久视频6r| 亚洲三级色网| 成人久久18免费网站漫画| 日韩在线免费电影| 色婷婷久久综合| 国产精品手机在线观看| 欧美日韩免费观看一区=区三区| 国产精品最新在线观看| 韩国三级在线观看久| 欧美视频中文在线看| fc2成人免费视频| 欧美1区免费| 欧美激情日韩图片| 国产又大又黄的视频| 国产蜜臀97一区二区三区 | 亚洲欧美中文日韩在线v日本| 熟女丰满老熟女熟妇| 在线欧美三区| 国产超碰91| 国产亚av手机在线观看| 欧美va亚洲va在线观看蝴蝶网| 国产午夜精品理论片| 麻豆中文一区二区| 亚洲乱码一区二区三区三上悠亚 | 色综合天天综合网天天看片| 久久久久国产精品无码免费看| 亚洲电影成人| 国产日产精品一区二区三区四区| 国产蜜臀在线| 亚洲福利视频久久| 免费在线不卡视频| 99国产精品99久久久久久| 亚洲 自拍 另类小说综合图区| baoyu135国产精品免费| 久久久女人电视剧免费播放下载 | 欧美日韩 一区二区三区| 久久久一区二区| 国产又黄又猛视频| 国产欧美日韩一区二区三区四区| 国产91色在线免费| 成人一区二区不卡免费| 欧美精品在线视频| 欧美成人免费看| 成人免费视频国产| caoporn国产精品| 激情五月宗合网| 国产91一区| 国产欧美精品日韩精品| 好吊日视频在线观看| 日韩精品一区二区三区四区| 国产91av视频| 国产片一区二区三区| 亚洲最大天堂网| 国内精品久久久久久久影视蜜臀 | 在线观看国产91| 亚洲国产123| 成人h动漫精品一区二区| 97国产精东麻豆人妻电影| 日韩欧美一区二区三区在线观看| 亚洲夜晚福利在线观看| 国产乱码精品一区二区| 亚洲国产aⅴ天堂久久| 国产一区二区麻豆| 国产一区二区三区香蕉| 妞干网在线观看视频| 欧美极品在线观看| 91亚洲国产精品| 黑森林国产精品av| 色琪琪综合男人的天堂aⅴ视频| 朝桐光av在线一区二区三区| 综合伊思人在钱三区| 欧美日韩精品在线播放| 粗暴91大变态调教| 久久久人成影片免费观看| 国产精品自拍首页| 久久亚洲人体| 伊人久久久久久久久久久久久| 国产精品女人久久久| 疯狂欧美牲乱大交777| 99精品中文字幕| 美国欧美日韩国产在线播放| 300部国产真实乱| 国产一区二区三区91| 国产精品麻豆免费版| 成人在线免费av| 91av在线免费观看视频| 国产二区三区在线| 国产一区二区三区高清在线观看| 黄色片一区二区三区| 欧美日韩在线直播| 毛片在线免费视频| 一区二区三区在线观看网站| 精品人体无码一区二区三区| 91色乱码一区二区三区| 亚洲热在线视频| 麻豆91小视频| 日本999视频| 亚洲理伦在线| 国产又粗又猛又爽又黄的网站| 色喇叭免费久久综合网| 国产美女精品视频免费观看| 午夜影院在线播放| 欧美激情免费视频| 成人免费看片| 免费污视频在线一区| 亚洲色图美腿丝袜| 黄片毛片在线看| 欧美一区二区三区不卡| 国产女优在线播放| 国产精品久久久久久亚洲毛片| 色婷婷精品久久二区二区密| 国产成人在线免费| 亚洲国产午夜精品| 激情综合视频| 久久国产精品免费观看| 91免费精品| 亚洲视频精品一区| 日韩三级在线| 亚洲精品久久区二区三区蜜桃臀| 久久99精品久久久久久园产越南| 精品久久久久久一区| 国内精品偷拍| 国产欧美一区二区三区另类精品| 91精品啪在线观看国产爱臀| 97影院在线午夜| 成人直播在线观看| 国产日韩欧美一区二区| 久久夜色精品国产噜噜av小说| 国产在线精品一区| 亚洲天堂中文字幕在线观看| 91久久爱成人| 国产精品乱战久久久| 国产伦精品一区二区三区视频免费| 天堂久久av| 国产精品精品软件视频| 久久丝袜视频| 日本一区二区久久精品| 精品国产精品| 亚洲资源在线网| av电影在线观看| 白白色 亚洲乱淫| 日韩av福利在线观看| 国产精品77777| 国产 xxxx| 久久精品水蜜桃av综合天堂| 国产精品视频在| 亚洲精品日韩一| 国产精品第一页在线观看| 欧美午夜无遮挡| 中文av免费观看| 日韩三级.com| 天堂成人在线| 在线不卡的av| 国产黄色片网站| 亚洲福利视频网| 国产日韩精品在线看| 久久视频在线播放| 爱啪啪综合导航| 国产精品电影一区| 高清不卡一区| 精品日本一区二区| 色乱码一区二区三区网站| 欧美日韩dvd| 裸体一区二区| 深爱五月综合网| 99re热视频精品| 殴美一级黄色片| 亚洲第一久久影院| 五月天中文字幕| 欧美成人r级一区二区三区| 色在线免费视频| 日韩中文字幕在线视频| 2001个疯子在线观看| 国产精品美女网站| 2023国产精华国产精品| 日本一区视频在线观看| 欧美日本一区二区视频在线观看| 人妻内射一区二区在线视频| 色老头在线观看| 中国china体内裑精亚洲片| 在线中文字幕电影| 国产精品高清在线| 欧美黑人做爰爽爽爽| 一区二区不卡在线视频 午夜欧美不卡'| 欧美激情在线| 亚洲一级免费在线观看| av午夜精品一区二区三区| 手机在线免费看片| 色欧美片视频在线观看在线视频| 国产丰满美女做爰| 中文字幕av一区| 在线看片福利| 丁香婷婷久久久综合精品国产 | 老司机2019福利精品视频导航| 亚洲影院高清在线| 欧美三级三级| 日韩精品视频一区二区在线观看| 国产一区激情在线| 国产aaaaaaaaa| 91久久香蕉国产日韩欧美9色| 丁香六月天婷婷| 欧美精品在线播放| 亚州欧美在线| 亚洲v国产v| 日韩高清不卡一区二区| 污视频在线观看免费网站| 国产精品美日韩| 天堂免费在线视频| 亚洲精品视频久久| 福利影院在线看| 成人动漫视频在线观看免费| 婷婷综合五月| 在线观看免费不卡av| 欧美激情在线一区二区| 亚洲精品视频在线观看免费视频| 精品国内二区三区| 色呦呦久久久| 国产精品网站在线播放| 黄色在线观看av| 欧美日韩精品在线观看| 五月天久久久久久| 性欧美xxxx交| 另类在线视频| 久久久一本二本三本| 亚洲永久字幕| 亚洲黄色免费在线观看| 午夜久久久影院| 四虎在线视频免费观看| 亚洲天堂网站在线观看视频| 亚洲优女在线| 久久综合九色综合久99| 99久久亚洲精品蜜臀| 亚洲最大成人在线观看| 中文字幕+乱码+中文字幕一区| 国产精品第6页| 色吧影院999| 国产精品成人3p一区二区三区| 国产成人精品免费看在线播放| 国产在线精品一区二区不卡了| 久久国产精品国语对白| 精品久久国产老人久久综合| av电影免费在线看| 久久久99爱| 奇米四色…亚洲| 日韩精品123区| 欧美日本乱大交xxxxx| 超碰在线免费播放| 国产免费高清一区| 天堂成人国产精品一区| 农村老熟妇乱子伦视频| 日韩一区二区免费在线观看| 国产蜜臀在线| 日本福利一区二区三区| 黄色精品一二区| 国产精品成人国产乱| 亚洲男人天堂2019| 9.1麻豆精品| 日韩欧美国产综合在线| 国产性色一区二区| 99久久久国产精品无码网爆| 久久久在线视频| av亚洲在线观看| 亚洲成人亚洲激情| 天堂在线中文网官网| 亚洲精品影院| 成人一级黄色片| 久久久精品毛片| 精品国产乱码久久久久久老虎| h片在线观看视频免费| 日韩福利在线| 国产福利一区二区三区视频在线 | 啪啪一区二区三区| 亚洲国产精品成人va在线观看| av高清一区| 国产aaa免费视频| 欧美激情在线观看视频免费| 成 人 免费 黄 色| 国产精品久久久久久久久久新婚| 综合久久综合| 午夜精产品一区二区在线观看的| 日韩欧美国产高清| 成人免费视频观看|