精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

過程獎勵模型也可以測試時擴展?清華、上海AI Lab 23K數據讓1.5B小模型逆襲GPT-4o

人工智能 新聞
清華大學聯合上海 AI Lab 提出生成式過程獎勵模型 ——GenPRM,將生成式思維鏈推理(CoT)與代碼驗證相結合,并引入測試時拓展機制,為過程監督推理提供了新思路。

趙儉,北京郵電大學本科三年級,研究方向為大語言模型。劉潤澤,清華大學碩士二年級,師從李秀教授,研究方向為大語言模型與強化學習,特別關注大模型推理能力增強與測試時間擴展,在 NeurIPS、ICML、ICLR、AAAI 等頂級學術會議發表多篇論文,個人主頁:ryanliu112.github.io。

隨著 OpenAI o1 和 DeepSeek R1 的爆火,大語言模型(LLM)的推理能力增強和測試時擴展(TTS)受到廣泛關注。然而,在復雜推理問題中,如何精準評估模型每一步回答的質量,仍然是一個亟待解決的難題。傳統的過程獎勵模型(PRM)雖能驗證推理步驟,但受限于標量評分機制,難以捕捉深層邏輯錯誤,且其判別式建模方式限制了測試時的拓展能力。

那么,是否有辦法通過測試時拓展提升過程獎勵模型的過程監督推理能力呢?

為此,清華大學聯合上海 AI Lab 提出生成式過程獎勵模型 ——GenPRM,將生成式思維鏈推理(CoT)與代碼驗證相結合,并引入測試時拓展機制,為過程監督推理提供了新思路。與 DeepSeek 近期發布的逐點生成獎勵模型(GRM)類似,GenPRM 也通過生成式建模和測試時擴展增強獎勵模型的推理能力,但 GenPRM 更專注于過程獎勵模型,彌補了 GRM 在過程監督方面的不足。

圖片

  • 論文標題:GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning
  • 論文鏈接:http://arxiv.org/abs/2504.00891
  • 項目鏈接:https://ryanliu112.github.io/GenPRM
  • GitHub:https://github.com/RyanLiu112/GenPRM
  • HuggingFace:https://huggingface.co/GenPRM

在 ProcessBench 等數學推理基準的測試中,GenPRM 展現出驚人實力:僅 1.5B 參數的模型通過測試時擴展超越 GPT-4o,而 7B 參數版本更是擊敗 72B 參數的 Qwen2.5-Math-PRM-72B,同時表現出強大的步驟級批評能力。

圖片

GenPRM:從評分到推理,再到測試時擴展

現有過程獎勵模型依賴分類器式的標量評分,這種 “黑箱” 機制導致兩個核心問題:一是無法解釋錯誤根源,僅能判斷步驟 “對錯”,卻無法解釋 “為何錯”,二是無法通過增加模型測試時間計算資源提升判斷精度。

生成式過程獎勵模型

為了突破這些瓶頸,GenPRM 引入生成式設計,徹底革新過程監督范式:

  • 思維鏈推理:GenPRM 模擬人類解題時的邏輯推導,對每一步推理進行自然語言分析,提供透明、可解釋的步驟評估。
  • 代碼驗證:為確保推理的可靠性,GenPRM 還會生成并執行對應數學運算的 Python 代碼,將文字推導與實際計算結果交叉驗證。例如,在求解三角函數表達式時,模型先分析角度轉換的合理性,再通過代碼計算具體數值,避免 “符號推導正確但計算失誤” 的情況。

圖片

其獎勵推理過程可以表示為:

圖片


其中 s_t 為當前狀態,a_t 為當前步驟,v_1:t?1 和 f_1:t-1 分別為之前步驟的推理過程和代碼執行反饋,v_t 和 f_t 為當前步驟的推理與反饋。這種 “先解釋、再驗證” 的機制不僅能判斷對錯,還能提供步驟級別的批評改進建議和嚴謹準確的反饋,大幅提升了過程監督的深度和實用性。

測試時擴展

在推理階段,GenPRM 通過并行采樣 N 條推理路徑,綜合多條路徑的獎勵值并取平均,得到最終獎勵:

圖片

這種策略充分利用額外計算資源,進一步提升評估精度,使小模型也能在復雜任務中表現出色。

數據高效:23K 樣本背后的合成秘密

GenPRM 的另一個亮點是僅使用 23K 訓練樣本就取得了優異的性能,遠少于許多模型動輒數十萬級的數據量(如 PRM800K 需 80 萬人工標注),其高效性源于獨特的數據合成方法,結合相對進步估計(RPE)和代碼驗證,生成高質量的過程監督數據。

圖片

通過相對進步估計改進硬估計

傳統過程獎勵模型通過蒙特卡羅(MC)分數進行硬估計,研究者觀察到盡管許多步驟的 MC 分數大于 0,但這些步驟是卻存在錯誤。RPE 通過比較當前狀態和上一狀態的 MC 分數,用 “進步幅度” 評估每步質量,比傳統硬標簽更準確。其形式化如下:

圖片

其中,MC (s_t, a_t) 表示當前步驟的蒙特卡羅分數,MC (s_t) 表示上一步驟的蒙特卡羅分數。若進步幅度低于閾值(?=0.8),則判定步驟無效;若首步錯誤(MC 為 0),后續步驟分數歸零。這種方法顯著提升標簽準確性,避免了硬估計的誤判。

代碼驗證驅動的數據合成

研究者利用 QwQ-32B 模型合成 CoT 和代碼驗證推理數據,通過在 Python 環境中真實執行代碼重復檢驗 CoT 推理過程。使用共識過濾(過濾率 51%),保留高質量過程監督數據,最終得到 23K 訓練數據集。

測試時擴展:小模型的逆襲

在 ProcessBench 過程監督基準測試中,GenPRM 展現出顯著優勢:

  • 僅用 23K 訓練數據的 1.5B GenPRM,通過多數投票(Maj@8)的測試時計算擴展策略,其 F1 分數超越 GPT-4o;
  • 7B 版本的 GenPRM 以 80.5% 的 F1 分數一舉超過 72B 參數的 Qwen2.5-Math-PRM-72B。

這一結果證明,測試時擴展能有效放大過程獎勵模型的能力,使小模型實現性能飛躍。

圖片

此外,GenPRM 同樣適用于策略模型測試時擴展。通過 Best-of-N 實驗,GenPRM-7B 展現出相比于基線方法更加優異的篩選能力,并可通過測試時擴展進一步增強過程監督能力。

圖片

從驗證器到批評者:過程獎勵模型新范式

GenPRM 不僅能當 “裁判”,作為驗證器(Verifier)篩選答案,還能當 “教練”,作為步驟級別的批評模型(Critic)指導策略模型迭代優化原始回答。實驗表明,GenPRM 通過 3 輪反饋將策略模型的回答準確率從 45.7% 提升至 51.5%,性能提升達到基線方法的 3.4 倍。

圖片

這種 “生成 - 批評 - 反思” 的閉環,驗證了 GenPRM 不僅可以作為驗證器驗證答案的準確性,還可以作為批評者,為模型完善自身輸出提供逐步關鍵指導,為大語言模型的自我改進提供了可解釋的技術路徑。

研究者已開源代碼、模型及 23K 訓練數據集。該工作為大語言模型的可解釋過程監督提供了新思路,未來可擴展至代碼生成、多模態推理等領域。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-01-21 10:10:56

2025-01-08 09:00:00

訓練數據研究

2024-06-17 18:04:38

2025-04-25 09:20:00

數據模型AI

2024-12-19 09:00:00

模型數學訓練

2024-05-14 11:29:15

2025-04-23 15:25:27

語言模型Eagle 2.5英偉達

2025-10-28 02:11:00

2025-07-22 10:22:02

2025-01-06 12:46:16

模型數據訓練

2025-02-13 09:10:00

2024-12-02 14:20:00

模型訓練

2024-11-28 15:51:19

GPT-4o微軟

2025-10-24 12:07:12

2025-04-27 09:54:48

2024-05-30 12:50:05

2025-07-14 09:00:00

2025-06-06 14:17:11

模型訓練AI

2025-03-10 09:38:00

2025-08-21 16:01:58

點贊
收藏

51CTO技術棧公眾號

欧美年轻男男videosbes| 国产日韩精品一区二区浪潮av | 国产中文字幕在线视频| 日韩精品亚洲专区| 欧美成人高清视频| 欧美亚一区二区三区| 国产黄色一区| 亚洲成人综合网站| 正在播放亚洲| 亚洲 欧美 激情 小说 另类| 久久精品99国产精品| 午夜精品美女自拍福到在线| 国产免费无遮挡吸奶头视频| 日韩欧美高清一区二区三区| 色婷婷av一区二区三区之一色屋| 免费观看中文字幕| 精彩国产在线| 成人激情免费电影网址| 国产精品美女久久| 少妇一级淫片免费放中国| 久久精品久久久| 亚洲视频在线免费看| 一级少妇精品久久久久久久| 性欧美freehd18| 亚洲大片一区二区三区| 日韩中文在线字幕| 丁香婷婷在线| 99视频热这里只有精品免费| 91网站在线看| 亚洲在线观看av| 麻豆成人精品| 97成人超碰免| 91porn在线视频| 99久久99久久精品国产片果冰| 亚洲精品国产拍免费91在线| 特种兵之深入敌后| 91亚洲精品在看在线观看高清| 欧美色道久久88综合亚洲精品| 岛国大片在线播放| 欧美黑人猛交| 一区二区三区波多野结衣在线观看 | xxxx日韩| 精品嫩草影院久久| 在线观看网站黄| 国产精品1区| 制服丝袜国产精品| 女人高潮一级片| 国产亚洲精品精品国产亚洲综合| 在线视频欧美区| 色七七在线观看| 日本精品在线一区| 欧美专区在线观看一区| 别急慢慢来1978如如2| 在线观看欧美日韩电影| 一本大道av一区二区在线播放| 国产成人精品视频免费看| 久久久久久成人网| 精品视频在线一区二区| 国产精品乱码一区二区三区软件 | 精品福利视频导航大全| 91网站在线播放| 免费久久99精品国产自| 国产午夜在线视频| 一区在线观看视频| 黄色污污在线观看| 91吃瓜在线观看| 亚洲va在线va天堂| 欧美视频免费播放| 91福利精品在线观看| 欧美日韩卡一卡二| 丰满少妇中文字幕| 欧美午夜寂寞| 国产亚洲精品美女久久久| 黄大色黄女片18免费| 婷婷综合网站| 国模精品视频一区二区三区| 美日韩一二三区| 蜜桃精品视频在线| 成人在线视频电影| 久久天堂电影| 亚洲色欲色欲www在线观看| 国产片侵犯亲女视频播放| 福利影院在线看| 欧美视频一区二区在线观看| 51自拍视频在线观看| 噜噜噜狠狠夜夜躁精品仙踪林| 国产婷婷成人久久av免费高清 | 亚洲自拍偷拍网站| 黄色片一级视频| 嫩呦国产一区二区三区av| 日韩成人久久久| 91麻豆精品国产91久久综合| 欧美激情偷拍| 国产精品www色诱视频| 国产黄频在线观看| 久久婷婷综合激情| 亚洲成人动漫在线| 久久野战av| 欧美成人欧美edvon| 亚洲久久久久久久| 欧美精品日本| 国产精品久久久久久av| 丰满人妻一区二区三区免费视频 | 日本在线播放一区| 污视频免费在线观看| 色999日韩国产欧美一区二区| 91性高潮久久久久久久| 国产成人精品免费视| 欧美日韩高清区| 做爰视频毛片视频| 99热精品一区二区| 法国空姐在线观看免费| 日本精品在线一区| 日韩av在线高清| 麻豆天美蜜桃91| 日本亚洲三级在线| 久久综合久久久| 丰满的护士2在线观看高清| 欧美日韩五月天| 波多野结衣 在线| 影音先锋久久| 91久久大香伊蕉在人线| 色开心亚洲综合| 日韩欧美在线视频| www.555国产精品免费| 中文字幕免费一区二区三区| 国产精品高潮呻吟视频| 欧美女子与性| 懂色av中文一区二区三区天美| 在线观看中文av| 999久久久国产精品| 国产精品劲爆视频| 看电影就来5566av视频在线播放| 精品国产电影一区| 高清中文字幕mv的电影| 欧美视频网站| 国产美女精品久久久| 色屁屁www国产馆在线观看| 欧美精品久久久久久久多人混战| 成人黄色a级片| 日韩高清一级片| 神马一区二区影院| 欧美日韩视频免费观看| 亚洲美女性生活视频| 国产又黄又爽又色| 2021国产精品久久精品| 欧美在线观看www| 伊人久久大香线蕉综合网站| 91chinesevideo永久地址| 天天躁日日躁狠狠躁喷水| 亚洲成人自拍偷拍| 国产夫妻性爱视频| 久久国产精品99国产| 欧洲精品一区色| 超薄肉色丝袜脚交一区二区| 国产亚洲福利一区| 亚洲一级av毛片| 亚洲图片欧美激情| 日本人妻一区二区三区| 精品96久久久久久中文字幕无| 国产一区免费在线观看| 亚洲精品永久免费视频| 在线不卡国产精品| 99国产在线播放| 亚洲一区二区三区在线| 欧美一区二区免费在线观看| 一区二区日本视频| 午夜精品一区二区三区四区| 日本在线一区二区| 欧美风情在线观看| 色鬼7777久久| 在线成人午夜影院| 九热这里只有精品| 久久久久久久久久电影| 亚洲视频一二三四| 怡红院精品视频在线观看极品| 九色91在线视频| 国产成人午夜性a一级毛片| 欧美成aaa人片免费看| 午夜在线观看视频18| 欧美午夜视频网站| 久久久久久久国产视频| 久久久久久久久久美女| 中文字幕资源在线观看| 亚洲国产免费看| 亚洲国产另类久久久精品极度| 国产精品欧美一区二区三区不卡 | 国产资源在线视频| 成人影院在线| 国产伦精品一区二区三区在线| 电影一区二区| 午夜精品一区二区三区在线播放| 日本福利在线观看| 欧美一区二区三区四区高清| 国产在线观看黄色| 亚洲欧美日韩国产综合在线 | 中文字幕久久午夜不卡| 99riav国产精品视频| 日本不卡中文字幕| 777av视频| 亚洲91久久| 欧美日产一区二区三区在线观看| 99精品国产九九国产精品| 欧美一级大片在线观看| a免费在线观看| 亚洲天堂精品在线| 人妻一区二区三区四区| 欧美精品一级二级| 激情五月婷婷网| 亚洲va欧美va天堂v国产综合| 久草福利资源在线| 国产亚洲一区二区三区| 中文字幕一区二区人妻电影丶| 九色综合国产一区二区三区| 免费观看精品视频| 亚洲视频观看| 91视频 - 88av| 色综合天天爱| 日本一区二区不卡高清更新| 精品自拍偷拍| 国产经品一区二区| 欧美一区一区| 成人国产精品久久久久久亚洲| 97久久香蕉国产线看观看| 97在线观看视频| 欧美午夜大胆人体| 欧美成人三级视频网站| 免费观看在线黄色网| 尤物yw午夜国产精品视频| 青春有你2免费观看完整版在线播放高清| 日韩精品一区二区三区老鸭窝| 国产精品久久影视| 欧美精品1区2区3区| 在线免费观看av片| 欧美亚洲高清一区二区三区不卡| 国产又大又黄又粗| 狠狠躁夜夜躁人人躁婷婷91| 日韩免费观看一区二区| 亚洲国产日韩a在线播放性色| 一级黄色录像视频| 一区二区理论电影在线观看| 久久免费在线观看视频| 亚洲午夜免费福利视频| 青娱乐国产精品| 亚洲综合在线第一页| 免费在线看黄网址| 亚洲愉拍自拍另类高清精品| 欧美成人三级视频| 亚洲成人动漫一区| 1级黄色大片儿| 日韩欧美a级成人黄色| 欧美另类一区二区| 日韩欧亚中文在线| 无码人妻精品一区二区三区不卡| 日本久久精品电影| 一区二区视频网站| 在线电影一区二区三区| 成人黄色免费视频| 亚洲国产精品久久久久秋霞不卡| 色综合视频在线| 亚洲一二在线观看| 在线观看麻豆| 九九热精品视频在线播放| 男人添女人下部高潮视频在线观看| 久久免费精品视频| 亚洲天堂导航| 国产欧美精品一区二区三区介绍| 日韩综合av| 国产精品综合久久久久久| 妖精视频一区二区三区| 亚洲高清视频一区| 欧美成人嫩草网站| 日韩免费一级视频| 蜜臀av性久久久久av蜜臀妖精| 福利片一区二区三区| 成人免费毛片片v| 国产激情在线免费观看| 国产精品久久久久久久久果冻传媒 | 久久综合99| 久久99久久久久久| 视频一区国产视频| 日本55丰满熟妇厨房伦| 91视频国产资源| 污污的视频在线免费观看| 午夜精品一区二区三区免费视频| 久久久久亚洲视频| 欧美大片在线观看一区二区| 国产免费av高清在线| 麻豆国产精品va在线观看不卡| av中文资源在线资源免费观看| 国产成人在线视频| jizz性欧美2| 日产中文字幕在线精品一区| 欧美精品首页| 爱情岛论坛成人| 成人精品gif动图一区| 免费黄色在线网址| 午夜精品久久久久久久久| 亚洲图片中文字幕| 亚洲美女动态图120秒| 免费观看在线午夜影视| 欧洲成人在线观看| 亚洲一区二区电影| 台湾成人av| 伊人精品视频| 97超碰成人在线| 久久五月婷婷丁香社区| 国产亚洲欧美精品久久久久久| 在线观看一区二区精品视频| 懂色av蜜臀av粉嫩av分享吧| 日韩中文字幕视频在线| 欧美电影网站| 福利视频一区二区三区| 97精品国产福利一区二区三区| 中文字幕无码精品亚洲35| 国产馆精品极品| 日韩在线观看免| 91国产成人在线| 天堂av2024| 欧美精品九九久久| 91精品国产自产观看在线| 日韩精品av一区二区三区| 亚洲欧美久久| 久久久久久久人妻无码中文字幕爆| 亚洲欧美日韩久久| 91精品国产色综合久久不8| 亚洲午夜女主播在线直播| 高清视频在线观看三级| av资源站久久亚洲| 午夜性色一区二区三区免费视频 | 久久国产精品免费一区二区三区| 日本午夜精品电影| 日韩在线一区二区三区| 美女洗澡无遮挡| 色一情一伦一子一伦一区| 亚洲三级黄色片| 55夜色66夜色国产精品视频 | 亚洲人成网站色ww在线| 中文不卡1区2区3区| 快播亚洲色图| 美女精品一区| 在线观看日本中文字幕| 色综合中文字幕| 精品无吗乱吗av国产爱色| 日韩美女av在线免费观看| 国产一区二区在线| 男人插女人下面免费视频| 国产女人aaa级久久久级 | 伊人情人网综合| 精品午夜一区二区三区在线观看| 久久视频一区二区三区| 欧美日韩高清不卡| 好吊日视频在线观看| 亚洲va欧美va在线观看| 欧美精品日本| 波多野结衣影院| 色综合网色综合| 中文字幕日本在线| 亚洲已满18点击进入在线看片| 欧美国产高清| 好吊色视频一区二区三区| 精品久久久久国产| 高清在线观看av| 91色视频在线导航| 亚洲国产专区| 色欲av无码一区二区三区| 精品视频资源站| 尤物在线网址| 九色视频成人porny| 日本 国产 欧美色综合| 99久久婷婷国产综合| 精品国精品自拍自在线| 一区二区三区短视频| 亚洲一区二区三区加勒比 | 99热这里只有成人精品国产| 37p粉嫩大胆色噜噜噜| 在线免费不卡电影| a视频在线观看| 欧美午夜精品理论片a级大开眼界| 美女视频黄 久久| 精品无码人妻一区二区三| 亚洲无限av看| 日韩一区二区三区色| 日韩av片在线看| 亚洲欧洲制服丝袜| 日韩有码电影| 91午夜在线播放| 免播放器亚洲| www.99re7| 亚洲天堂免费在线| 中文字幕av一区二区三区四区| 成人三级视频在线播放| 亚洲狼人国产精品| 国产在线观看免费| 国产精品乱码视频| 免费观看在线综合| 男女啊啊啊视频| 久久999免费视频| 波多野结衣在线播放一区| 污网站免费观看|