精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

剛剛,DeepSeek公布推理時Scaling新論文,R2要來了?

人工智能 新聞
來自 DeepSeek、清華大學的研究人員探索了獎勵模型(RM)的不同方法,發現逐點生成獎勵模型(GRM)可以統一純語言表示中單個、成對和多個響應的評分,從而克服了挑戰。

這會是 DeepSeek R2 的雛形嗎?本周五,DeepSeek 提交到 arXiv 上的最新論文正在 AI 社區逐漸升溫。

當前,強化學習(RL)已廣泛應用于大語言模型(LLM)的后期訓練。最近 RL 對 LLM 推理能力的激勵表明,適當的學習方法可以實現有效的推理時間可擴展性。RL 的一個關鍵挑戰是在可驗證問題或人工規則之外的各個領域獲得 LLM 的準確獎勵信號。

本周五提交的一項工作中,來自 DeepSeek、清華大學的研究人員探索了獎勵模型(RM)的不同方法,發現逐點生成獎勵模型(GRM)可以統一純語言表示中單個、成對和多個響應的評分,從而克服了挑戰。研究者探索了某些原則可以指導 GRM 在適當標準內生成獎勵,從而提高獎勵的質量,這啟發我們,RM 的推理時間可擴展性可以通過擴展高質量原則和準確批評的生成來實現。

圖片

  • 論文標題:Inference-Time Scaling for Generalist Reward Modeling 
  • 論文鏈接:https://arxiv.org/abs/2504.02495

基于這一初步成果,作者提出了一種新學習方法,即自我原則批評調整(SPCT),以促進 GRM 中有效的推理時間可擴展行為。通過利用基于規則的在線 RL,SPCT 使 GRM 能夠學習根據輸入查詢和響應自適應地提出原則和批評,從而在一般領域獲得更好的結果獎勵。

基于此技術,DeepSeek 提出了 DeepSeek-GRM-27B,它基于 Gemma-2-27B 用 SPCT 進行后訓練。對于推理時間擴展,它通過多次采樣來擴展計算使用量。通過并行采樣,DeepSeek-GRM 可以生成不同的原則集和相應的批評,然后投票選出最終的獎勵。通過更大規模的采樣,DeepSeek-GRM 可以更準確地判斷具有更高多樣性的原則,并以更細的粒度輸出獎勵,從而解決挑戰。

除了投票以獲得更好的擴展性能外,DeepSeek 還訓練了一個元 RM。從實驗結果上看,SPCT 顯著提高了 GRM 的質量和可擴展性,在多個綜合 RM 基準測試中優于現有方法和模型,且沒有嚴重的領域偏差。作者還將 DeepSeek-GRM-27B 的推理時間擴展性能與多達 671B 個參數的較大模型進行了比較,發現它在模型大小上可以獲得比訓練時間擴展更好的性能。雖然當前方法在效率和特定任務方面面臨挑戰,但憑借 SPCT 之外的努力,DeepSeek 相信,具有增強可擴展性和效率的 GRM 可以作為通用獎勵系統的多功能接口,推動 LLM 后訓練和推理的前沿發展。

這項研究的主要貢獻有以下三點:

  • 研究者們提出了一種新方法:Self-Principled Critique Tuning(SPCT),用于提升通用獎勵模型在推理階段的可擴展性,并由此訓練出 DeepSeek-GRM 系列模型。同時,他們進一步引入了一種元獎勵模型(meta RM),使 DeepSeek-GRM 的推理效果在超越傳統投票機制的基礎上得到進一步提升。
  • 實驗證明,SPCT 在生成質量和推理階段的可擴展性方面,明顯優于現有方法,并超過了多個強大的開源模型。
  • SPCT 的訓練方案還被應用到更大規模的語言模型上。研究者們發現推理階段的擴展性收益甚至超過了通過增加模型規模所帶來的訓練效果提升。

圖片

技術細節

我們一起來看看這篇論文所討論的技術細節。

Self-Principled Critique Tuning (SPCT)

受到初步實驗結果的啟發,研究者提出了一種用于逐點通用獎勵模型的新方法,能夠學習生成具有適應性和高質量的原則,以有效引導批評內容的生成,該方法被稱為自我原則批評調整(SPCT)。 

如圖 3 所示,SPCT 包含兩個階段:

1. 拒絕式微調(rejective fine-tuning),作為冷啟動階段;

2. 基于規則的在線強化學習(rule-based online RL),通過不斷優化生成的準則和評論,進一步增強泛化型獎勵生成能力。

此外,SPCT 還能促使獎勵模型在推理階段展現出良好的擴展能力。

圖片

研究者們觀察到,高質量的準則能夠在特定評判標準下有效引導獎勵的生成,是提升獎勵模型表現的關鍵因素。然而,對于通用型獎勵模型而言,如何自動生成適應性強、指導性強的準則仍是一個核心難題。

為此,他們提出將準則的作用由傳統的理解階段的輔助性輸入,轉變為獎勵生成過程中的核心組成部分。具體而言,這項研究不再將準則僅作為模型生成前的提示信息,而是使模型能夠在生成過程中主動生成并運用準則,從而實現更強的獎勵泛化能力與推理階段的可擴展性。

在該研究的設定中,GRM 可以自主生成準則,并在此基礎上生成對應的批評內容,其過程可形式化表示為: 

圖片

其中,p_θ 表示由參數 θ 所定義的準則生成函數,該函數與獎勵生成函數 r_θ 共享同一模型架構。這樣的設計使得準則可以根據輸入的 query 和響應自適應生成,從而動態引導獎勵的生成過程。此外,準則及其對應批評的質量與細粒度可以通過對 GRM 進行后訓練進一步提升。

當模型具備大規模生成準則的能力后,GRM 便能夠在更合理的準則框架下輸出更細致的獎勵評價,這對于推理階段的可擴展性具有關鍵意義。

基于規則的強化學習

為同步優化 GRM 中的原則生成與批判生成,DeepSeek 提出 SPCT 框架,整合了拒絕式微調與基于規則的強化學習。拒絕式微調作為冷啟動階段。

拒絕式微調(冷啟動階段) 的核心目標是使 GRM 能夠生成格式正確且適配多種輸入類型的原則與批判。

不同于 Vu 等人(2024)、Cao 等人(2024)和 Alexandru 等人(2025)將單響應、配對響應和多響應格式的 RM 數據混合使用的方案,DeepSeek 采用第 2.1 節提出的逐點 GRM,能以統一格式為任意數量響應生成獎勵。

數據構建方面,除通用指令數據外,DeepSeek 還通過預訓練 GRM 對 RM 數據中不同響應數量的查詢 - 響應對進行軌跡采樣,每個查詢 - 響應對采樣圖片次。拒絕策略也采用統一標準:拒絕預測獎勵與真實值不符(錯誤)的軌跡,以及所有圖片次軌跡均正確(過于簡單)的查詢 - 響應對。形式化定義為:令圖片表示查詢 x 第 i 個響應圖片的真實獎勵,當預測逐點獎勵圖片滿足以下條件時視為正確:

圖片

這里需確保真實獎勵僅包含一個最大值。然而,與 Zhang 等人(2025a)的研究類似,DeepSeek 發現預訓練 GRM 在有限采樣次數內難以對部分查詢及其響應生成正確獎勵。

因此,他們選擇性地在 GRM 提示中追加image.png(稱為暗示采樣),期望預測獎勵能與真實值對齊,同時保留非暗示采樣方式。對于暗示采樣,每個查詢及其響應僅采樣一次,僅當預測錯誤時才拒絕軌跡。相較于 Li 等人(2024a)和 Mahan 等人(2024)的研究,我們觀察到暗示采樣軌跡有時會簡化生成的批判(尤其在推理任務中),這表明 GRM 在線強化學習的必要性和潛在優勢。

通過基于規則的在線 RL,研究者對 GRM 進行了進一步的微調。與 DeepSeek R1 不同的是,沒有使用格式獎勵。相反,為了確保格式和避免嚴重偏差,KL 懲罰采用了較大的系數。從形式上看,對給定查詢 x 和響應圖片的第 i 次輸出 o_i 的獎勵為:

逐點獎勵是圖片從 o_i 中提取的。

獎勵函數鼓勵 GRM 通過在線優化原則和批判來區分最佳響應,從而實現有效的推理時間擴展。獎勵信號可以從任何偏好數據集和標注的 LLM 響應中無縫獲取。

SPCT 的推理時擴展

為了進一步提高 DeepSeek-GRM 在使用更多推理計算生成通用獎勵方面的性能,研究者探索了基于采樣的策略,以實現有效的推理時可擴展性。

利用生成獎勵進行投票。回顧第 2.1 節中的方法,逐點 GRM 的投票過程定義為獎勵總和:

圖片

其中,圖片是第 i 個響應(i = 1, ..., n)的最終獎勵。由于 S_i,j 通常設置在一個較小的離散范圍內,例如 {1,...,10},因此投票過程實際上將獎勵空間擴大了 k 倍,并使 GRM 能夠生成大量原則,從而有利于提高最終獎勵的質量和粒度。

一個直觀的解釋是,如果每個原則都可以被視為判斷視角的代表,那么更多的原則可能會更準確地反映真實的分布情況,從而提高效率。值得注意的是,為了避免位置偏差和多樣性,在采樣之前會對回答進行洗牌。

元獎勵模型指導投票。DeepSeek-GRM 的投票過程需要多次采樣,由于隨機性或模型的局限性,少數生成的原則和評論可能存在偏差或質量不高。因此,研究者訓練了一個元 RM 來指導投票過程。

引導投票非常簡單: 元 RM 對 k 個采樣獎勵輸出元獎勵,最終結果由 k_meta ≤ k 個元獎勵的獎勵投票決定,從而過濾掉低質量樣本。

獎勵模型 Benchmark 上的結果

不同方法和模型在獎勵模型基準測試上的整體結果如表 2 所示。

圖片

不同方法在推理階段的擴展性能結果如表 3 所示,整體趨勢可見圖 1。 

圖片

表 4 展示了 SPCT 各個組成部分所做的消融實驗結果。

研究者們還進一步研究了 DeepSeek-GRM-27B 在推理階段和訓練階段的擴展性能,通過在不同規模的 LLM 上進行后訓練進行評估。所有模型均在 Reward Bench 上進行測試,結果如圖 4 所示。 

圖片

更多研究細節,可參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-04-07 08:42:00

2025-09-25 14:00:56

2025-05-16 08:58:09

2025-10-15 00:00:00

2025-04-11 12:04:58

2025-02-13 09:20:00

2021-01-28 16:58:12

數字貨幣加密貨幣區塊鏈

2025-09-18 08:30:54

2025-05-21 14:01:22

AIDeepSeek-V硬件

2017-12-28 10:20:34

2018-05-03 21:21:24

蘋果iOS 11.4測試版

2025-05-01 10:33:59

2025-02-24 12:22:13

DeepSeek開源模型

2025-02-25 09:13:16

2025-02-17 08:37:00

模型DeepSeekAI

2025-09-23 06:47:21

2017-04-17 09:01:39

科技新聞早報

2023-05-29 08:38:56

popover控制懸浮層

2025-02-19 15:30:00

模型訓練數據
點贊
收藏

51CTO技術棧公眾號

国产精品一区二区在线免费观看| 亚洲图片都市激情| 中文字幕精品无| 色综合久久一区二区三区| 在线成人午夜影院| 男的插女的下面视频| 午夜在线观看视频18| 久久婷婷久久| 久久视频在线直播| 欧洲一级黄色片| 国内精品伊人| 亚洲v日本v欧美v久久精品| 欧洲av一区| 国产日韩欧美视频在线观看| 亚洲欧美日韩视频二区| 色琪琪综合男人的天堂aⅴ视频| 特种兵之深入敌后| 欧美舌奴丨vk视频| 一区二区三区在线观看视频| 日本精品一区二区三区不卡无字幕| 国产精品毛片久久久久久久av| 一本一道久久综合狠狠老精东影业| 丝袜一区二区三区| 六十路息与子猛烈交尾| 国产精品欧美一区二区三区不卡| 丁香五六月婷婷久久激情| 亚洲第一精品区| 国产资源在线看| 成人夜色视频网站在线观看| 国产精品自在线| 国产精品男女视频| 国内久久精品| 久久成人av网站| 女人黄色一级片| 老司机aⅴ在线精品导航| 51午夜精品国产| 日韩欧美黄色大片| 婷婷电影在线观看| 亚洲国产精品久久一线不卡| 中文字幕精品一区日韩| 国产福利免费在线观看| 久久五月婷婷丁香社区| 国产三区精品| av网站在线观看免费| 奇米888四色在线精品| 日本久久久久久久久| 日韩av黄色片| 在线观看日韩av电影| 九九热精品视频| 三上悠亚作品在线观看| 日韩av专区| 在线播放国产一区二区三区| 鲁丝一区二区三区| 亚洲免费专区| 国产视频亚洲视频| 最新中文字幕视频| 蜜乳av综合| 精品中文视频在线| 国产精品1000部啪视频| 亚洲区小说区图片区qvod| 亚洲国产欧美一区二区三区久久| 日本一区二区免费视频| 国产伦精品一区二区三区在线播放| 日韩女优视频免费观看| 国产在线a视频| 97se亚洲| 日韩不卡中文字幕| 无码h肉动漫在线观看| 亚洲丁香日韩| 一区二区三区视频观看| 成人三级视频在线观看| 99久久亚洲精品| 久久中文字幕在线| 国产在线视频第一页| 日韩网站在线| 青青久久av北条麻妃黑人| 亚洲欧美一区二区三区在线观看| 久久一区激情| 国产日韩在线看| 99久久亚洲精品日本无码| 国产精品2024| 精品国产乱码久久久久久蜜柚 | 麻豆av免费在线观看| 国产精品久久久久久久第一福利 | www.亚洲资源| 1024成人网| 精品国偷自产一区二区三区| 狠狠操一区二区三区| 91成人免费网站| 男女污污视频网站| 米奇精品关键词| 亚洲最新中文字幕| 国产免费无码一区二区视频| 亚洲三级视频| 国产精品视频专区| 亚洲精品一区二区三区四区| 久久久久久久久岛国免费| 在线视频福利一区| 国产不卡123| 欧美日产国产精品| 熟妇人妻久久中文字幕| 成人av动漫在线观看| 欧美国产日韩一区二区| 国产一级片免费视频| 国产精品1区二区.| 日本高清不卡三区| 久草在线资源站资源站| 欧美色图天堂网| www.男人天堂| 99久久精品费精品国产风间由美| 91黑丝在线观看| 国产探花精品一区二区| 久久天堂av综合合色蜜桃网| 国产女人18毛片| 超薄肉色丝袜脚交一区二区| 精品国产乱码久久久久久闺蜜| 欧洲美熟女乱又伦| 日韩一区二区免费看| 91免费的视频在线播放| 国产视频二区在线观看| 亚洲大片精品永久免费| 天堂av8在线| 国产真实有声精品录音| 97国产在线视频| 国产偷人妻精品一区二区在线| 久久久久久99精品| 国产乱子伦农村叉叉叉| 亚洲不卡视频| www日韩中文字幕在线看| 中文字幕免费观看| 99在线精品视频| avav在线播放| 国产一区二区高清在线| 色yeye香蕉凹凸一区二区av| 中文字幕在线欧美| av亚洲精华国产精华精华| 波多野结衣与黑人| 99视频有精品高清视频| 色偷偷91综合久久噜噜| 无码人妻熟妇av又粗又大| 91丨porny丨蝌蚪视频| 毛片av在线播放| 麻豆视频久久| 欧美日本中文字幕| 精品国产一级片| 亚洲美女在线国产| 在线成人免费av| 亚洲成人一区| 999视频在线免费观看| 黄色一级片在线观看| 欧美理论片在线| 精品在线观看一区| 黄色精品一二区| 三年中国中文在线观看免费播放| 四虎地址8848精品| 久久久国产精品亚洲一区| 一区二区三区免费在线| 成人欧美一区二区三区| 成年人网站av| 欧美日韩岛国| 国产伦精品一区二区三区免费视频| 色操视频在线| 亚洲成色777777女色窝| 日韩毛片在线播放| www亚洲一区| 日韩中文字幕免费在线| 成人在线一区| 成人免费视频在线观看超级碰| 男人天堂久久久| 日韩西西人体444www| 国产污视频在线看| 99国产精品久久久久久久久久| 色欲av无码一区二区人妻| av一区二区高清| 91亚洲国产成人精品性色| 丁香花在线电影小说观看| 日韩h在线观看| 中文文字幕一区二区三三| 中文字幕一区三区| 中文字幕在线观看91| 香蕉成人久久| 中文字幕色一区二区| 凹凸成人在线| 国产成人精品综合| 成人日批视频| 日韩av在线一区二区| 中文字幕乱码视频| 伊人夜夜躁av伊人久久| 精品夜夜澡人妻无码av| 美女mm1313爽爽久久久蜜臀| www.18av.com| 欧美日韩激情| 国产三区精品| 天堂久久一区| 91成人天堂久久成人| 麻豆视频在线观看免费| 日韩电影网在线| 91片黄在线观看喷潮| 亚欧色一区w666天堂| 国产美女免费网站| 国产成人自拍网| 久久综合久久色| 国产精品大片免费观看| 亚洲a∨一区二区三区| 精品午夜视频| 国产精品久久久久久网站| 男女免费观看在线爽爽爽视频| 亚洲日本欧美日韩高观看| 国产视频第二页| 欧美综合在线视频| 一区二区三区福利视频| 亚洲欧美日韩小说| 亚洲av成人无码久久精品 | 无码任你躁久久久久久老妇| 蜜臀久久久99精品久久久久久| av网站手机在线观看| 91日韩欧美| 欧美午夜欧美| 九九热hot精品视频在线播放| 成人精品一区二区三区电影免费 | 欧美日韩免费看| 精品国产乱码久久久久久鸭王1| 国产日韩欧美a| 无码精品一区二区三区在线播放| 国产九色精品成人porny| 一区二区在线播放视频| 日韩一级欧洲| 国产一区二区四区| 亚洲精品久久久| 亚洲精品一品区二品区三品区| 日本亚洲不卡| 国产高清在线一区二区| 精品一区二区三区中文字幕在线| 国产精品视频网站| 国产日韩另类视频一区| 91精品国产一区| 国模雨婷捆绑高清在线| 九九久久精品一区| 丝袜美女在线观看| 久久亚洲精品成人| 日本www在线观看| 精品国产一区二区三区久久久狼| av资源种子在线观看| 国产亚洲精品91在线| 毛片在线能看| 国产亚洲综合久久| 国产精品毛片一区二区三区四区| 亚洲欧美另类国产| 国产黄在线看| 色综合亚洲精品激情狠狠| 3d成人动漫在线| 日韩中文字幕av| 欧美成人三区| 久青草国产97香蕉在线视频| 国内精品不卡| 欧美人成在线视频| 电影k8一区二区三区久久| 欧美精品电影免费在线观看| 国产精品蜜臀| 97久久超碰福利国产精品…| 午夜影院在线观看国产主播| 日本最新高清不卡中文字幕| 精品三区视频| 亚洲一区二区三区sesese| 中文在线综合| 久久99精品国产一区二区三区| 日韩欧美中文字幕电影| 日本一区二区久久精品| 日韩久久电影| 成人在线免费高清视频| 日韩午夜av| 色综合色综合色综合色综合| 国产一区二区精品在线观看| 在线xxxxx| 国产天堂亚洲国产碰碰| 91高清免费看| 亚洲成av人片在www色猫咪| 日本熟女毛茸茸| 欧美人与禽zozo性伦| 性一交一乱一伧老太| 亚洲人成在线一二| 菠萝菠萝蜜在线视频免费观看 | 青草影院在线观看| 五月开心婷婷久久| 国产网站免费在线观看| 三级无遮挡在线观看| 日韩精品在线看| 一本一道波多野毛片中文在线 | 欧美日韩精品一区二区三区四区 | 亚洲精品国产精品乱码不99按摩 | 最近2019中文免费高清视频观看www99| 日本高清视频在线播放| 性欧美在线看片a免费观看| 电影天堂国产精品| 91免费在线观看网站| 你懂的视频欧美| 99热这里只有精品7| 香蕉久久夜色精品| 1314成人网| 国产午夜精品一区二区三区嫩草| 啪啪一区二区三区| 精品久久久久久国产91| 国产精品欧美激情在线| 国产婷婷色综合av蜜臀av| 成人免费看片| 国产精品久久久久久久久粉嫩av | 日韩精品专区在线| 狠狠色伊人亚洲综合网站l| 欧美日韩成人在线观看| 欧美aaa视频| 国产伦一区二区三区色一情| 999久久久国产精品| 欧美韩国日本在线| 国产成人a级片| 日韩一区二区三区四区视频| 欧美日韩国产在线看| 国产精品无码专区av免费播放| 亚洲男人天天操| av中文字幕电影在线看| 91嫩草在线视频| 欧美日韩中文字幕一区二区三区| 99在线观看视频免费| 精品夜夜嗨av一区二区三区| 国产肥白大熟妇bbbb视频| 午夜精品久久久久久久久久久 | a成人v在线| 欧美人xxxxx| 夜夜夜久久久| 涩视频在线观看| 亚洲激情六月丁香| 99热这里只有精品9| 日韩在线小视频| 97欧美成人| 日韩在线三级| 日韩国产欧美在线播放| 欧美成人午夜精品免费| 偷拍亚洲欧洲综合| 人妻丰满熟妇av无码区hd| 精品中文字幕在线观看| 日韩区一区二| www婷婷av久久久影片| 国产一区二区三区四| 国产老头老太做爰视频| 在线播放一区二区三区| 天天影视久久综合| 国产欧美在线观看| 91综合视频| 国产探花在线观看视频| 亚洲男人天堂一区| 99热这里是精品| 欧美大片大片在线播放| 国产欧美啪啪| www国产精品内射老熟女| 91视频观看免费| 精品不卡一区二区| 国产一级揄自揄精品视频| aaaa欧美| www.亚洲一区二区| 粉嫩av亚洲一区二区图片| 国产一级片播放| 日韩精品中文字| 欧美色999| 日韩 欧美 自拍| 国产成人精品亚洲午夜麻豆| 精品午夜福利视频| 日韩电影免费观看中文字幕| 先锋欧美三级| 少妇熟女一区二区| 国产在线国偷精品免费看| 精品人妻在线播放| 亚洲欧美成人在线| 亚洲91在线| 精品国偷自产一区二区三区| 久久综合九色综合欧美就去吻| 丰满人妻一区二区三区四区| 日韩在线观看免费av| 91在线一区| 三级a在线观看| 亚洲女与黑人做爰| 五月婷婷深深爱| 国产精品久久久久久久久久尿 | 亚洲欧美一级| 亚洲理论电影在线观看| 国产丝袜美腿一区二区三区| 国产精品爽爽久久| 午夜精品福利视频| 国产亚洲精品美女久久久久久久久久| 加勒比av中文字幕| 午夜成人免费电影| www日韩tube| 成人在线看片| 青青草原综合久久大伊人精品优势| 国产精品 欧美激情| 日韩激情视频在线播放| 亚洲人体在线| 日韩a在线播放| 一区二区三区色| 成人在线观看网站| 国内精品**久久毛片app| 麻豆91精品91久久久的内涵|