精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

周志華團隊新作:LLM中存在獎勵模型,首次理論證明RL對LLM有效性

人工智能 新聞
來自南京大學的研究者發現,一個強大的通用獎勵模型并非需要構建,而是可以挖掘出來的, 因為它已經潛在地存在于通過標準的下一個 Token 預測訓練的任何語言模型中,稱之為「內源性獎勵(endogenous reward)」。

將大語言模型(LLMs)與復雜的人類價值觀對齊,仍然是 AI 面臨的一個核心挑戰。當前主要的方法是基于人類反饋的強化學習(RLHF)。該流程依賴于一個通過人類偏好訓練的獎勵模型來對模型輸出進行評分,最終對齊后的 LLM 的質量在根本上取決于該獎勵模型的質量。

因此,創建一個先進的獎勵模型需要建立龐大且高質量的人類偏好數據集,而這一過程通常既緩慢、昂貴,又難以擴展。 

這種對人類標注數據的依賴促使研究者探索其他對齊方法。一個重要的研究方向是基于 AI 反饋的強化學習(RLAIF)。該方法利用強大的專有大語言模型生成獎勵信號或偏好標簽,從而規避人類標注需求。雖然成本效益顯著,但這些方法缺乏嚴謹的理論基礎,且容易繼承評判模型本身的風格偏差與固有偏見。這引發了一個關鍵問題:高質量獎勵信號是否必須依賴外部來源?

來自南京大學的研究者發現,一個強大的通用獎勵模型并非需要構建,而是可以挖掘出來的, 因為它已經潛在地存在于通過標準的下一個 Token 預測訓練的任何語言模型中,稱之為「內源性獎勵(endogenous reward)」。

本文的核心貢獻是為這一觀點提供嚴格的理論基礎。本文證明了可以從標準的下一個 Token 預測目標中恢復出一種特定形式的離線逆強化學習(IRL)獎勵函數,該目標用于預訓練和監督微調(SFT)。這一見解能夠超越啟發式方法,并建立一種原則性的方法,來引出語言模型在訓練過程中隱式學習到的獎勵函數。

具體來說,本文展示了語言模型的 logits 可以直接解釋為 soft Q 函數,通過逆 soft 貝爾曼算子可以從中恢復出獎勵函數。 

至關重要的是,這一理論聯系不僅僅提供了一種獎勵提取的方法。本文還證明了,使用模型自身的內源性獎勵進行微調可以使策略在誤差界限上優于基線模型。強化學習過程有效地修正了標準模仿學習(即下一個 Token 預測)中的累積誤差,將性能差距從任務視野的二次依賴關系 O (H2) 降低到優越的線性關系 O (H)。

據了解,這是首次理論證明強化學習在 LLM 中的有效性。廣泛實驗驗證了這一理論,表明這種內源性獎勵不僅優于現有的 LLM-as-a-judge 方法,而且可以超越那些通過昂貴的人類標注數據顯式訓練的獎勵模型的表現。

image.png

  • 論文標題: GENERALIST REWARD MODELS: FOUND INSIDE LARGE LANGUAGE MODELS 
  • 論文鏈接:https://arxiv.org/pdf/2506.23235

這篇論文提出了解決 LLM 的對齊問題,通過利用模型內部的獎勵機制,而不是依賴外部的人類反饋,這可能會改變未來 LLMs 的開發和應用方式。

本文在實驗中旨在評估以下核心問題:

Q1:在與啟發式基線方法和顯式訓練的最新獎勵模型對比時,免訓練內源性獎勵模型(EndoRM)在常見獎勵模型基準測試中的表現如何?

Q2:內源性獎勵是否具備強大的指令遵循能力,能否作為可通過提示詞調用的通用獎勵模型?

Q3:基于內源性獎勵的強化學習能否產生更優策略,實現理論預測的自我改進效果?

多樣偏好對上的獎勵準確率(Q1)

為回答 Q1,本研究通過預測 RM-Bench 中被選中的回復來評估獎勵模型性能。更高的準確率意味著獎勵質量更優。

由于本評估的方法無需訓練,因此本評估將其與其他無需訓練的方法進行對比:生成式驗證器(Generative Verifier)、GenRM-Pairwise 和 GenRM-Pointwise 。

所有基線方法及本評估的 EndoRM 均采用 Qwen2.5-7B-Instruct 作為基礎模型以確保公平比較。此外,本評估還列出了四個顯式訓練的高性能獎勵模型的結果作為參考。

image.png

表 1 中的結果顯示,EndoRM 不僅顯著優于所有使用相同基礎模型的無需訓練基線方法,還以更高的平均得分超越了最先進的顯式訓練獎勵模型。

這一發現表明,EndoRM 相比依賴高成本偏好數據篩選和訓練的獎勵模型更具有效性。

圖 1 中進一步展示了 Multifaceted-Bench 的實驗結果,從中可以觀察到 EndoRM 在五個領域上始終優于所有基線方法??紤]到 Multifaceted-Bench 中可能包含數以千計的偏好對,這一結果證明了即使在任務復雜度和偏好多樣性增加的情況下,EndoRM 仍能實現可擴展的魯棒性。

這一發現進一步驗證了本評估的核心假設:強大的獎勵信號已潛在存在于基礎模型之中。

image.png

驗證指令遵循能力(Q2)

一個關鍵論點是內源性獎勵并非靜態的,而是可以通過提示來引導。

為驗證這一點,本文使用了 DSP 數據集,該數據集包含四個不同的領域。本評估通過將 DSP 論文中相應的系統提示作為輸入,創建了四個特定領域的版本的內源性獎勵。

然后,本評估測試每個特定領域的內源性獎勵在所有四個測試集上的響應分類準確率。

表 2 中的結果顯示出強烈的對角模式:每個 EndoRM 在其自身領域上表現最佳。例如,EndoRM-Academy 在學術數據上達到了其最高準確率(76.89%)。

這證實了內源性獎勵不是一個固定的評估器,而是一個動態的、可提示的評判器,繼承了基礎大型語言模型強大的指令遵循能力。

image.png

通過強化學習實現自我提升(Q3)

最后,本評估測試了定理 2 中的核心理論主張:帶有內源性獎勵的強化學習可以通過減輕復合誤差來改進基礎策略。

本評估在 MATH-lighteval 數據集上通過強化學習對基礎模型 Qwen2.5-Math-7B 進行訓練。內源性獎勵模型同樣是 Qwen2.5-Math-7B,在策略學習期間其參數保持固定。提示和響應的最大長度均設為 1024,KL 系數設為 0.01。

表 3 中的結果表明,帶有內源性獎勵的強化學習微調有助于模型在所有五個基準測試中一致地優于基礎模型。

本評估還在附錄 E 中給出了模型在強化學習前后的響應示例,從中可以看出,對于同一個問題,在基于內源性獎勵進行優化之前,模型無法解決問題,并且隨著響應的進行開始胡言亂語,甚至輸出 Python 代碼。

相比之下,本評估的方法提供了一個清晰簡潔的解決方案。

image.png

了解更多內容,請參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-06 04:10:00

LLM人工標注RL

2025-05-29 09:14:17

2023-10-31 19:14:28

2025-02-13 09:10:00

2024-03-25 12:39:00

AI數據

2017-06-05 16:17:50

深度學習算法神經網絡

2021-03-08 10:48:04

AI

2025-04-23 09:36:23

2023-06-19 16:05:22

大型語言模型人工智能

2023-10-06 20:30:33

大模型LLMtoken

2024-10-14 09:25:00

2025-08-22 14:57:36

2024-01-02 13:19:00

AI模型

2025-06-03 09:02:00

2025-06-03 08:38:00

2010-07-19 15:07:23

SQL Server評

2023-06-01 17:06:49

模型思維

2025-07-28 08:53:00

2024-06-18 14:01:17

2025-02-13 11:00:30

點贊
收藏

51CTO技術棧公眾號

天堂综合在线播放| 免费观看成年在线视频网站| 外国成人免费视频| 欧美大胆一级视频| 成人在线看视频| 性开放的欧美大片| 成人午夜激情片| 国产成人激情视频| 国产波霸爆乳一区二区| 中文精品一区二区| 日韩精品在线看片z| 日韩视频在线免费看| 超碰免费公开在线| 久久伊人蜜桃av一区二区| 3d精品h动漫啪啪一区二区| 好吊妞视频一区二区三区| 国产精品7m凸凹视频分类| 亚洲国产精品小视频| 中文字幕国内自拍| 2018av在线| 亚洲欧美另类图片小说| 日本一区二区三区在线视频| 高潮毛片7777777毛片| 蜜臀av性久久久久蜜臀aⅴ流畅| 欧美极品第一页| 国产一二三av| 久久不卡国产精品一区二区 | 99视频热这里只有精品免费| 国产美女久久精品| 日韩欧美在线观看免费| 在线亚洲伦理| 久久久综合免费视频| 亚洲天堂黄色片| 色综合狠狠操| 一区二区三区国产视频| 国产肉体xxxx裸体784大胆| 18国产精品| 91精品视频网| 不卡的av中文字幕| 色8久久影院午夜场| 天天操天天干天天综合网| 日本黄xxxxxxxxx100| 日本韩国在线视频爽| 中文字幕国产一区二区| 日韩偷拍一区二区| 国产色在线 com| 国产人成亚洲第一网站在线播放| 免费国产在线精品一区二区三区| 天堂影院在线| 96av麻豆蜜桃一区二区| 精品久久久久久乱码天堂| 囯产精品久久久久久| 国产成人一级电影| http;//www.99re视频| 国产手机视频在线| 国产精品中文欧美| 99九九视频| 亚洲黄色在线观看视频| 成人丝袜高跟foot| 精品国产综合久久| 嫩草研究院在线观看| www亚洲一区| 欧美在线激情| 色哟哟免费在线观看| 亚洲欧美在线观看| 99久久免费观看| 超碰97免费在线| 午夜电影网一区| 免费毛片小视频| 日韩一级二级| 91精品国产欧美日韩| xxxx国产视频| 日韩av不卡一区| 亚洲香蕉伊综合在人在线视看 | 亚洲人成网www| 亚洲天堂av综合网| 国产又黄又粗又猛又爽的| 91欧美在线| 欧美日韩爱爱视频| 黄色大片网站在线观看| 日韩成人精品在线观看| 成人黄色在线免费| 色综合视频在线| 日本一区二区三区久久久久久久久不| 中文字幕欧美人与畜| 久久99亚洲网美利坚合众国| 欧美性感美女h网站在线观看免费| 日本va中文字幕| 中文字幕日本一区| 亚洲精品国产成人| 麻豆视频免费在线播放| 欧美激情视频一区二区三区免费| 97超碰国产精品女人人人爽 | 九九热国产精品视频| 一区二区三区福利| 国产在线视频欧美| 五月婷婷深深爱| 综合av第一页| 国产又黄又大又粗视频| www一区二区三区| 日韩精品免费一线在线观看| 亚洲精品一区二区三区在线播放| 欧美精品国产| 国产精品1234| 亚洲伦理在线观看| 中文字幕第一区综合| 岛国大片在线播放| 国产精品原创视频| 亚洲精品国产美女| avove在线播放| 日本一区中文字幕| 国内视频一区二区| 久热国产在线| 91官网在线免费观看| 欧美一区二区三区影院| 色综合天天爱| 国产v综合ⅴ日韩v欧美大片| 粉嫩av一区二区夜夜嗨| 亚洲视频狠狠干| 男人舔女人下面高潮视频| 成人高潮a毛片免费观看网站| www亚洲精品| 国产午夜无码视频在线观看| eeuss影院一区二区三区| 国产树林野战在线播放| 欧美大片1688网站| 亚洲免费成人av电影| 日本少妇bbwbbw精品| 国产在线精品一区二区不卡了 | 伊人久久综合| 3d动漫啪啪精品一区二区免费| 91视频在线观看| 在线一区二区三区四区五区| 中文字幕国产综合| 国产日韩综合| 精品视频一区二区| av资源在线播放| 精品剧情v国产在线观看在线| 夫妻性生活毛片| 久久99这里只有精品| 日本10禁啪啪无遮挡免费一区二区 | 在线观看国产精品入口男同| 国产日韩欧美精品一区| av免费在线播放网站| 亚州综合一区| 欧美中文字幕在线观看| 日本大臀精品| 欧美在线视频不卡| www亚洲色图| 日本欧美韩国一区三区| 日本一区二区三区四区在线观看| 欧美xxxx做受欧美护士| 国产亚洲一区二区精品| 中文天堂在线资源| 中文字幕乱码一区二区免费| 欧美精品久久久久久久久25p| 日韩国产综合| 成人中文字幕+乱码+中文字幕| 黄色网页在线播放| 日韩午夜三级在线| 久青草视频在线观看| 不卡视频一二三四| 国产黄色一级网站| 久久综合亚洲| 国产在线日韩在线| 男女视频在线| 日韩成人性视频| 天天综合久久综合| 亚洲欧洲精品天堂一级| 在线观看网站黄| 亚洲国产第一| 青青影院一区二区三区四区| 婷婷久久免费视频| 久久国产精品网站| 六月丁香综合网| 一本大道久久a久久综合婷婷| 人与嘼交av免费| 国产精品一区二区男女羞羞无遮挡| 丁香花在线影院观看在线播放| 丝袜连裤袜欧美激情日韩| 国产精品视频网| 黄色污污视频在线观看| 亚洲人av在线影院| 国产一区二区三区成人| 亚洲高清在线精品| 亚洲第一综合网| 国产成人免费视频网站高清观看视频 | 欧美色倩网站大全免费| 五月天丁香激情| 国产亚洲欧美色| 国产一精品一aⅴ一免费| 午夜在线精品偷拍| 欧美另类videosbestsex日本| 亚洲丁香日韩| 99r国产精品视频| 久久99久久99精品免观看软件| 久久天天躁夜夜躁狠狠躁2022| 天天综合在线视频| 91麻豆精品国产无毒不卡在线观看| 日本道在线观看| 亚洲欧美乱综合| 最新中文字幕av| 成人av网站大全| 天天干天天操天天做| 亚洲综合三区| 奇米777四色影视在线看| 成人3d动漫在线观看| 国产原创精品| 日本高清久久| 91精品国产综合久久香蕉的用户体验 | 麻豆app在线观看| 亚洲国产精品yw在线观看| 一区二区乱子伦在线播放| 亚洲动漫第一页| 日本中文在线视频| 国产人成亚洲第一网站在线播放| 欧美夫妇交换xxx| 国产一区二区三区在线看麻豆| 动漫av免费观看| 国产欧美午夜| 99热久久这里只有精品| 在线一区电影| 夜夜爽www精品| 不卡中文字幕| 日本在线观看一区二区| 亚洲成a人片77777在线播放| 国产精品一区二区免费看| 国产免费av国片精品草莓男男| 国产精品黄视频| 亚洲伦乱视频| 国产精品久久久久久久久免费| 性欧美又大又长又硬| 97色伦亚洲国产| 成av人片在线观看www| 久久久久这里只有精品| 秋霞在线午夜| 欧美大学生性色视频| 黄色片免费在线观看| 久久精品免费播放| 免费黄色在线网站| 精品国产一区二区三区久久久| yjizz视频网站在线播放| 国产亚洲一区二区在线| a√资源在线| 丝袜美腿精品国产二区| 欧美成人xxx| 久久精品久久久久久| av毛片在线看| 欧美国产日韩精品| 55av亚洲| 日本aⅴ大伊香蕉精品视频| 亚洲校园激情春色| 国产国产精品人在线视| 超碰这里只有精品| 国产精品三级在线| aa亚洲一区一区三区| 亚洲free嫩bbb| 亚洲一区二区三区在线免费| 国产伦精品一区二区三区| 激情小说亚洲色图| 欧美日韩综合网| 欧美亚洲高清| 成人在线观看www| 激情婷婷欧美| 青青草原av在线播放| 青青草一区二区三区| 欧美性受xxxxxx黑人xyx性爽| 国产福利一区在线观看| 中文乱码人妻一区二区三区视频| www国产成人免费观看视频 深夜成人网| aaaaaav| 国产精品视频一二三区| 东方av正在进入| 亚洲一线二线三线久久久| 精品免费囯产一区二区三区| 在线观看免费成人| 国产精品一二三四五区| 亚洲国产精品中文| aiai在线| 久久久久国产精品www| 午夜激情成人网| 亚洲影院高清在线| 亚洲动漫在线观看| 一区二区三区四区不卡| 亚洲视频一二| 可以在线看的黄色网址| 国产一区美女在线| 久久一区二区电影| 中文字幕五月欧美| 青青国产在线观看| 制服丝袜成人动漫| 欧美一区二区视频| 欧美成人精品激情在线观看| 国模冰冰炮一区二区| 亚洲精品欧美极品| 国产探花一区| 日韩欧美精品免费| 老司机精品视频一区二区三区| av免费观看不卡| 国产精品夫妻自拍| 亚洲免费在线观看av| 日韩一区二区三区四区五区六区| 日韩私人影院| 欧美国产精品人人做人人爱| 欧美亚洲综合视频| 久久综合中文色婷婷| 欧美激情aⅴ一区二区三区| 中文字幕第80页| 99久久精品国产毛片| 日韩高清dvd碟片| 在线观看日韩高清av| 黄色片一区二区| 欧美精品手机在线| 亚洲ww精品| 日韩av影视| 国产一区91| 精品一区二区三区四区五区六区| 亚洲日本护士毛茸茸| 在线免费观看一区二区| 亚洲视频电影图片偷拍一区| av在线加勒比| 懂色一区二区三区av片| 91精品电影| 网站一区二区三区| 337p粉嫩大胆色噜噜噜噜亚洲| 国产真实乱人偷精品视频| 欧美人成免费网站| 日本免费中文字幕在线| 国产精品美女主播| 欧美日韩123| 熟女人妇 成熟妇女系列视频| 91视频你懂的| 日韩经典在线观看| 精品处破学生在线二十三| 污污的视频在线观看| 91九色在线观看| 亚洲久久久久| 涩多多在线观看| 亚洲欧美欧美一区二区三区| 国产欧美日韩成人| 欧美老少配视频| 天堂精品在线视频| 久久久国内精品| www.在线欧美| 国产 日韩 欧美 在线| 日韩精品极品视频| 性欧美18xxxhd| 日韩av电影免费在线观看| 日日欢夜夜爽一区| 超碰人人人人人人人| 欧美精品1区2区3区| sm国产在线调教视频| 国产a一区二区| 国产视频欧美| 亚洲精品国产精品国自产网站| 欧美三区在线视频| 蜜桃视频网站在线观看| 亚洲伊人久久综合| 在线欧美不卡| 无遮挡aaaaa大片免费看| 色婷婷亚洲一区二区三区| 国产精品秘入口| 91精品国产综合久久香蕉最新版 | 欧美巨乳在线观看| 综合视频一区| 国产午夜福利视频在线观看| 国产女主播视频一区二区| 一级黄色片视频| 欧美精品激情blacked18| 免费欧美视频| 亚洲美女爱爱视频| 亚洲一区在线播放| 你懂的免费在线观看视频网站| 国产免费一区二区三区在线能观看 | 日本久久伊人| 国产亚洲综合视频| 国产日韩欧美高清| 国产一区二区三区视频免费观看| 欧美激情精品久久久久久久变态| 三级小说欧洲区亚洲区| 在线观看免费视频高清游戏推荐| 一区二区三区在线观看动漫| 日本电影一区二区在线观看 | 日韩大胆成人| 亚欧激情乱码久久久久久久久| 亚洲一区视频在线| 国产青青草在线| www久久99| 强制捆绑调教一区二区| 九九精品在线观看视频| 亚洲午夜av电影| 操欧美女人视频| 色多多视频在线播放| 亚洲第一精品在线| 在线免费黄色| 久久久久久国产精品mv| 精品一区二区日韩| 成人毛片在线播放| 乱亲女秽乱长久久久| 久草成人在线|