精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

揭秘大模型強(qiáng)推理能力幕后功臣“缺陷”,過程級獎勵模型新基準(zhǔn)來了

人工智能 新聞
復(fù)旦大學(xué)、蘇州大學(xué),上海AI Lab等聯(lián)合提出了 PRMBench,它包含 6,216 條精心設(shè)計(jì)的問題和 83,456 個步驟級標(biāo)簽,用于評測模型細(xì)粒度的錯誤檢測能力。

截止目前,o1 等強(qiáng)推理模型的出現(xiàn)證明了 PRMs(過程級獎勵模型)的有效性。

(“幕后功臣” PRMs 負(fù)責(zé)評估推理過程中的每一步是否正確和有效,從而引導(dǎo) LLMs 的學(xué)習(xí)方向。)

但關(guān)鍵問題來了:我們?nèi)绾螠?zhǔn)確評估 PRMs 本身的性能?

作為回應(yīng),復(fù)旦大學(xué)、蘇州大學(xué),上海AI Lab等聯(lián)合提出了 PRMBench,它包含 6,216 條精心設(shè)計(jì)的問題和 83,456 個步驟級標(biāo)簽,用于評測模型細(xì)粒度的錯誤檢測能力。

圖片

具體而言,目前主流的評估方法往往側(cè)重于最終結(jié)果的正確性,而忽略了對推理過程中細(xì)致入微的錯誤類型的識別。例如,一個推理步驟可能存在冗余、部分正確、 甚至完全錯誤等多種狀態(tài),簡單的“正確/錯誤”標(biāo)簽難以捕捉其復(fù)雜性。

而 PRMBench 提供了一個更全面、更精細(xì)化的評估工具,可以更有效地識別 PRMs 的潛在缺陷,促進(jìn)相關(guān)算法的改進(jìn)。

實(shí)驗(yàn)發(fā)現(xiàn),目前 PRMs 在細(xì)粒度錯誤檢測上仍有較大提升空間。即使是表現(xiàn)最佳的模型 Gemini-2-Thinking,其 PRMScore 也僅為 68.8,勉強(qiáng)高于隨機(jī)猜測的 50.0。

即使是專門在步驟級數(shù)據(jù)上訓(xùn)練過的 PRMs,其表現(xiàn)仍不如優(yōu)秀的閉源通用模型,且多步推理能力專門增強(qiáng)過的模型表現(xiàn)優(yōu)于一般通用模型。

除此之外,研究人員還公布了一些其他發(fā)現(xiàn)和探討。

PRMBench:一次針對PRMs的“全方位體檢”

據(jù)介紹,PRMBench 并非簡單的“升級版”評估數(shù)據(jù)集,而是一套經(jīng)過精心設(shè)計(jì)的“體檢方案”,目的是全面考察 PRMs 在不同維度上的能力。

下圖為 PRMBench 的主要結(jié)構(gòu),左側(cè)部分展示了數(shù)據(jù)整理的流程,右側(cè)部分展示了評估主題的示例以及測試模型的相對性能表。

圖片

其主要特點(diǎn)包括:

  • 海量且精細(xì)的標(biāo)注數(shù)據(jù):包含 6,216 個精心設(shè)計(jì)的問題,并包含 83,456 個步驟級別的標(biāo)簽,確保評估的深度和廣度。
  • 多維度、多層次的評估體系:從簡潔性 (Simplicity)、合理性 (Soundness) 和敏感性 (Sensitivity) 三個主要維度出發(fā),進(jìn)一步細(xì)分為九個子類別,例如非冗余性、非循環(huán)邏輯、評價合理性、步驟一致性、領(lǐng)域一致性、置信度不變性、前提條件敏感性、 欺騙抵抗和一題多解一致性,力求全面覆蓋PRMs可能遇到的挑戰(zhàn)。
  • 揭示現(xiàn)有 PRMs 的“盲區(qū)”:研究團(tuán)隊(duì)對 15 個代表性模型進(jìn)行了廣泛的實(shí)驗(yàn),包括開源 PRMs 以及將強(qiáng)力通用語言模型提示作為 Critic Model 的模型。實(shí)驗(yàn)結(jié)果令人驚訝,也引人深思。

具體來說,研究的主要發(fā)現(xiàn)如下:

1、整體表現(xiàn)堪憂。即使是表現(xiàn)最佳的模型 Gemini-2-Thinking,其 PRMScore 也僅為 68.8,勉強(qiáng)高于隨機(jī)猜測的 50.0。這表明,即使是最先進(jìn)的 PRMs,在多步過程評估中仍然有巨大的提升空間。

2、開源 PRMs 表現(xiàn)更弱。開源 PRMs 的平均 PRMScore 更低至 50.1,部分模型甚至不如隨機(jī)猜測,揭示了其可靠性和潛在訓(xùn)練偏差的問題。

3、“簡潔性”成最大挑戰(zhàn)。在 “簡潔性” 維度上,即使是表現(xiàn)相對較好的 ReasonEval-34B,其 PRMScore 也驟降至 51.5,表明 PRMs 在識別推理過程中的冗余步驟方面能力不足。

4、 “陽性偏好”現(xiàn)象顯著。部分模型,例如 ReasonEval-7B 和 RLHFlow-DeepSeek-8B,在評估中表現(xiàn)出顯著的“陽性偏好”,難以區(qū)分正確和錯誤的步驟。

5、數(shù)據(jù)驅(qū)動的洞察。研究發(fā)現(xiàn),錯誤步驟出現(xiàn)的位置也會影響PRMs的判斷準(zhǔn)確率??偟膩碚f,隨著錯誤步驟位置的后移,PRMs 的表現(xiàn)會逐漸提升。

具體提出過程

下面介紹一下具體研究過程。

提出主要問題

在一項(xiàng)需要舉出反例的證明題實(shí)踐中,研究人員觀察到一個有趣的現(xiàn)象:

即使大語言模型 (o1) 自身意識到當(dāng)前推理過程存在一些問題,仍然會產(chǎn)生錯誤的推理步驟。

更令人擔(dān)憂的是, 當(dāng)調(diào)用現(xiàn)有的 PRMs 去檢測剛剛 o1 生成的推理過程時,結(jié)果卻發(fā)現(xiàn)多數(shù) PRMs 無法檢測出這種細(xì)粒度的錯誤。

這一發(fā)現(xiàn)引出了一個關(guān)鍵問題:當(dāng)前的 PRMs 是否具備檢測推理過程中細(xì)粒度錯誤的能力?

下圖為,當(dāng)詢問模型一道拉格朗日中值定理相關(guān)問題時,o1 和 PRMs 可能會產(chǎn)生的錯誤。

圖片

然而,現(xiàn)有針對 PRMs 評測而設(shè)計(jì)的 benchmark 大多僅僅關(guān)注步驟評判的對錯,而忽視步驟評判的錯誤類型, 缺乏對錯誤類型的細(xì)致分類。

這也就意味著,目前缺少這樣能夠評測 PRMs 在細(xì)粒度錯誤上表現(xiàn)的綜合 benchmark。

而這,正是研究人員推出 PRMBench 這一精細(xì)化基準(zhǔn)的根本原因。

他們希望通過 PRMBench,打破現(xiàn)有評估的局限,真正遴選出能夠有效識別細(xì)粒度錯誤的“優(yōu)秀” PRM。

下圖為 PRMBench 與其他數(shù)據(jù)集對比。

圖片

PRMBench構(gòu)建

如下所示,PRMBench 包含三大評測主題:簡潔性,合理性和敏感性。

圖片

  • 數(shù)據(jù)來源:基于 PRM800K 構(gòu)建,首先篩選出其完全正確的問題、答案以及解題步驟作為元數(shù)據(jù)。
  • 錯誤引入:針對多數(shù)評測主題(前8個)使用 LLMs(特別是 GPT-4o)將各種細(xì)粒度的錯誤引入到完全正確的解題推理步驟中。對于一題多解的情況,則使用多步推理增強(qiáng)過的語言模型為同一問題生成不同的正確解法及其推理步驟。
  • 人工驗(yàn)證:嚴(yán)格的人工審查,以確保引入錯誤的質(zhì)量和相關(guān)性。
  • 數(shù)據(jù)集統(tǒng)計(jì):包含 6,216 個精心設(shè)計(jì)的問題,帶有 83,456 個步驟級別的標(biāo)簽。
  • 評估對象:分為三個主要領(lǐng)域。簡潔性評估冗余檢測能力(非冗余性、非循環(huán)邏輯);合理性評估PRM產(chǎn)生獎勵的準(zhǔn)確性和正確性(評價合理性、步驟一致性、領(lǐng)域一致性、 置信度不變性);敏感性評估對變化和誤導(dǎo)性信息的魯棒性(前提條件敏感性、欺騙抵抗、多解一致性)

實(shí)驗(yàn)與結(jié)果

研究人員測試了 15 個模型,包括開源 PRMs (Skywork-PRM, Llemma-PRM, MATHMinos-Mistral,MathShepherd-Mistral, RLHFlow-PRM) 和提示為 Critic Models 的優(yōu)秀閉源語言模型 (GPT-4o, o1-mini,Gemini-2)

評估指標(biāo)主要為:

  • 負(fù) F1 分?jǐn)?shù) (Negative F1 Score):評估錯誤檢測性能的主要指標(biāo)。
  • PRMScore:將 F1 和負(fù) F1 相結(jié)合的統(tǒng)一、標(biāo)準(zhǔn)化的分?jǐn)?shù),以反映整體能力。

圖片

可以看出,整體而言 PRMs 在多步過程評估中表現(xiàn)出有限的能力,其得分通常僅略高于隨機(jī)猜測。

同時, 開源 PRMs 的表現(xiàn)通常不如將強(qiáng)力通用語言模型(如o1, Gemini-thinking等)提示為 Critic Model 的表現(xiàn)更好。

而且相較于其他評測主題,檢測冗余 (簡潔性) 被證明對 PRMs 來說尤其困難。

另外,通過 PRMBench 下模型對于正確標(biāo)簽測試樣例(陽性數(shù)據(jù))和錯誤標(biāo)簽測試樣例(陰性數(shù)據(jù))的得分對比及相似度來看。

許多 PRMs 表現(xiàn)出對正確標(biāo)簽的偏好,難以正確識別錯誤標(biāo)簽測試樣例(陰性數(shù)據(jù))。

圖片

且從推理步驟位于推理鏈中不同位置對模型 PRMScore 的影響來看,PRMs 的性能往往會隨著推理步驟位于推理鏈中的位置逐漸靠后而提高。

圖片

最后從不同 Few shot 數(shù)目對于提示為 Critic Model 的通用語言模型表現(xiàn)影響來看,少樣本 ICL 的影響有限。

在 reward 過程中使用不同數(shù)量示例的 In-Context Learning 對閉源模型的性能影響不大。

圖片

小結(jié)一下,PRMBench 的發(fā)布,提醒我們重新審視現(xiàn)有 PRMs 的能力邊界。

按照研究團(tuán)隊(duì)的說法,“我們希望 PRMBench 能夠成為推動 PRM 評估和發(fā)展研究的堅(jiān)實(shí)基石”。

更多細(xì)節(jié)歡迎查閱原論文。

論文鏈接:https://arxiv.org/abs/2501.03124
項(xiàng)目主頁:https://prmbench.github.io/
Code:https://github.com/ssmisya/PRMBench
Data:https://huggingface.co/datasets/hitsmy/PRMBench_Preview

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-05-30 02:00:00

獎勵模型RRMAI

2025-06-09 09:32:35

2025-05-21 08:47:00

2025-04-30 16:48:07

2024-02-01 08:34:30

大模型推理框架NVIDIA

2024-08-14 14:06:01

2023-10-11 12:32:53

AI模型

2025-05-29 03:00:00

混合推理模型LHRMAI

2023-05-05 13:29:04

模型推理

2025-08-11 08:00:00

2025-06-26 09:06:59

2024-06-17 13:34:54

2023-05-15 15:38:59

AI模型

2025-05-30 04:00:00

IBMRLVRGRPO

2025-05-26 08:33:00

2024-04-01 08:00:00

AI模型

2025-04-14 00:10:00

人工智能AIAI 模型

2023-06-04 13:29:24

OpenAI員工UC

2024-10-22 13:28:53

2025-11-13 08:00:00

大推理模型AI人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

欧美a级大片在线| 免费在线看a| 国产日韩欧美三区| 亚洲日韩欧美视频一区| 日本va中文字幕| a黄色在线观看| 国产成人精品免费一区二区| 欧美在线精品免播放器视频| 国产极品视频在线观看| 97人人澡人人爽91综合色| 日本道色综合久久| 国产av熟女一区二区三区| 精品无人乱码| 顶级嫩模精品视频在线看| 国产精品久久久久久久美男| 久草视频免费在线| 日韩电影一区| 亚洲国产天堂久久国产91| 日本在线一二三区| 亚洲少妇视频| 怡红院av一区二区三区| 日韩欧美手机在线| 日批视频免费播放| 激情欧美一区二区| 国产97人人超碰caoprom| 国产小视频在线观看免费| 日韩精品永久网址| 亚洲摸下面视频| 成人一区二区三区仙踪林| 巨胸喷奶水www久久久免费动漫| 亚洲国产欧美在线人成| 伊人久久av导航| 久久经典视频| 久久日一线二线三线suv| 成人一区二区三区四区| 国产美女www爽爽爽视频| 日韩不卡免费视频| 欧美在线视频免费播放| 亚洲男人第一av| 欧美日韩三级| 九九热精品在线| 国产免费美女视频| 久久精品国产99久久| 亚洲男人天堂2024| 色婷婷av777| 四虎884aa成人精品最新| 精品捆绑美女sm三区| 91丨porny丨九色| 国产精品高清一区二区| 88在线观看91蜜桃国自产| www.日本一区| 日韩毛片免费看| 欧美日韩精品久久久| www日韩在线观看| 色综合天天色| 欧美日韩国产成人在线91| 中文字幕在线综合| 图片一区二区| 欧美高清你懂得| 成人性生交视频免费观看| 欧美日本三级| 亚洲成人性视频| 日本少妇毛茸茸| 伊人久久大香线蕉综合网蜜芽 | av中文在线观看| 久久se精品一区精品二区| 国产在线播放不卡| 国产成人精品无码高潮| 成人激情免费网站| 久久国产精品 国产精品| 五月婷婷激情在线| 久久久久久免费| 亚洲一区二区三区精品动漫| 黄网页在线观看| 亚洲一二三区不卡| 男人天堂1024| 巨胸喷奶水www久久久 | 秋霞av鲁丝片一区二区| 91麻豆免费观看| 亚洲乱码一区二区三区| 亚洲妇熟xxxx妇色黄| 亚洲福利视频导航| 91蝌蚪视频在线观看| 99精品国产九九国产精品| 精品久久99ma| 手机看片日韩av| 午夜欧美精品久久久久久久| 国产精品综合一区二区三区| 日本韩国精品在线| 国产三级三级三级看三级| 福利一区二区| 欧美精品一区在线观看| 免费观看a级片| 亚洲精品国产首次亮相| 97在线日本国产| 中文在线免费看视频| 国产精品自产自拍| 麻豆av一区二区三区久久| 嫩草在线视频| 欧美日韩亚洲精品一区二区三区| 538任你躁在线精品免费| www.丝袜精品| 日韩中文视频免费在线观看| 日本中文字幕免费观看| 美女任你摸久久| 久久艹中文字幕| 超碰公开在线| 在线免费观看不卡av| 91精品人妻一区二区三区四区| 精品久久中文| 91精品国产乱码久久久久久久久 | 麻豆国产欧美日韩综合精品二区 | 免费精品国产| 久久99久久99精品免观看粉嫩| av网站中文字幕| 亚洲综合av一区二区三区| 久久 天天综合| 精品伦理一区二区三区| 国产黄色片在线观看| 亚洲国产精品一区二区尤物区| 中文字幕在线观看第三页| 精品少妇3p| 久久影院资源网| 中文人妻熟女乱又乱精品| 91免费看片在线观看| 国产内射老熟女aaaa| 精品久久福利| 国产一区二区激情| 欧美三级午夜理伦| 从欧美一区二区三区| 18视频在线观看娇喘| 欧美亚洲人成在线| 尤物yw午夜国产精品视频| 国产无人区码熟妇毛片多| 成人美女视频在线观看| 国产精品视频二| 欧美午夜网站| 久热精品视频在线观看一区| 中文字幕在线日亚洲9| 欧美国产综合一区二区| 国产性生交xxxxx免费| 偷拍精品福利视频导航| 91精品国产色综合久久不卡98口| 亚洲黄色在线播放| 亚洲一二三四久久| 欧类av怡春院| 亚洲中字在线| 欧美午夜精品久久久久免费视| 美女搞黄视频在线观看| 日韩精品视频在线免费观看| 97人人澡人人爽人人模亚洲 | 91福利视频久久久久| 国产人妻大战黑人20p| 日韩制服丝袜av| 色一情一区二区三区四区| 亚洲精品555| www.精品av.com| 国产男女猛烈无遮挡| 亚洲精品视频在线| 久久久久久婷婷| 亚洲欧美日韩国产一区| 小说区图片区图片区另类灬| 亚洲久草在线| 欧美黑人性视频| 网站黄在线观看| 91成人网在线| 亚洲一二三在线观看| 粉嫩欧美一区二区三区高清影视| 欧美又粗又长又爽做受| 无码少妇一区二区三区| 国产精品高潮在线| 成人影院www在线观看| 精品国产乱码久久久久久免费 | 欧美日韩国产区一| 欧美综合激情| 国产精品第6页| 中文字幕av在线一区二区三区| 99热一区二区| 欧美成人有码| 久久手机视频| 全球中文成人在线| 欧美激情视频网址| 日韩a在线观看| 欧美日韩国产另类不卡| 国产在线一二区| 国产性做久久久久久| 欧美在线a视频| 日韩一区二区久久| 亚洲成人第一| 一区二区三区欧洲区| 欧美最猛性xxxxx亚洲精品| 婷婷在线视频| 亚洲高清免费观看高清完整版| 羞羞色院91蜜桃| 亚洲自拍欧美精品| 东方伊人免费在线观看| 成人免费看黄yyy456| 久久99爱视频| 亚洲在线日韩| 国产专区在线视频| 国产成人3p视频免费观看| 99九九视频| 日本成人片在线| 欧美国产精品人人做人人爱| www视频在线观看免费| 亚洲第一区第二区| 国产精品一区二区免费视频| 狠狠久久五月精品中文字幕| 亚洲综合视频网站| 欧美激情一区二区在线| 私密视频在线观看| 国产成人在线网站| 污视频免费在线观看网站| 一本久道久久综合婷婷鲸鱼| 中文字幕av久久| 精品一区二区三区的国产在线观看| aa成人免费视频| 国产三级一区| 热久久这里只有精品| heyzo在线| 久久99青青精品免费观看| av片在线看| 亚洲三级黄色在线观看| 神宫寺奈绪一区二区三区| 日韩欧美在线123| 91精东传媒理伦片在线观看| 在线亚洲一区观看| 天天干天天干天天操| 亚洲线精品一区二区三区| 国产精品丝袜一区二区| 国产精品欧美久久久久无广告| 99久久久无码国产精品性| 成人久久久精品乱码一区二区三区| 手机av在线网站| 久久99精品国产| 国产成年人视频网站| 奇米影视一区二区三区| 久久久精品三级| 久久在线91| 99精品视频播放| 久久成人精品| 欧美v在线观看| 国产欧美短视频| 日韩少妇内射免费播放18禁裸乳| 影音先锋在线一区| 日韩视频在线视频| 日韩一级不卡| 18岁网站在线观看| 毛片一区二区| 香蕉视频网站入口| 蜜臂av日日欢夜夜爽一区| 激情 小说 亚洲 图片: 伦| 麻豆成人av在线| 五月天婷婷影视| 国产福利一区二区三区视频在线| 少妇欧美激情一区二区三区| 国产乱码精品一区二区三区五月婷 | 国内精品久久久久久野外| 精品国产依人香蕉在线精品| 成人无遮挡免费网站视频在线观看| 久久国产精品视频| 免费网站在线观看人| 91av视频导航| 日韩精品三区| 91中文字幕一区| 国产精品xxxav免费视频| 精品国产一区二区三区四区vr| 日日天天久久| 午夜欧美性电影| 一区二区免费不卡在线| 蜜臀av色欲a片无码精品一区| 国产欧美一级| 麻豆三级在线观看| 国产成人午夜视频| 法国伦理少妇愉情| 综合婷婷亚洲小说| 久久高清免费视频| 在线观看不卡一区| 国产特级黄色片| 日韩精品中文字幕在线| 91在线看黄| 久久久最新网址| 国精产品一区一区三区四川| 亚洲iv一区二区三区| 天美av一区二区三区久久| 亚洲精品高清视频| 亚洲第一精品影视| 亚洲综合色在线观看| 不卡一区在线观看| 成年人免费视频播放| 午夜日韩在线观看| 一二三区在线播放| 亚洲黄色av网站| 麻豆传媒在线免费看| 97超级碰碰碰| 粉嫩一区二区三区在线观看| 国外成人在线视频网站| 色无极亚洲影院| 黄色大片在线免费看| 精品一区二区综合| 毛片网站免费观看| 亚洲国产成人av网| 亚洲综合免费视频| 亚洲女成人图区| 99热国产在线| 国产精品一区二区三区毛片淫片 | 日韩精品黄色网| 国产精品扒开做爽爽爽的视频| 欧美中文字幕在线播放| 亚洲精品v亚洲精品v日韩精品| 欧美一区二区视频17c | 污色网站在线观看| 久久久影院官网| 国产一级免费观看| 69p69国产精品| 国产在线观看免费| 68精品久久久久久欧美| 视频亚洲一区二区| 一区不卡字幕| 日韩国产成人精品| 日韩一级视频在线观看| 亚洲成在人线免费| 性生活视频软件| 伦理中文字幕亚洲| 青草综合视频| 亚洲国产日韩综合一区| 午夜综合激情| 亚洲av无码一区二区三区观看 | 久久精品国产亚洲精品2020| 欧美艳星kaydenkross| 九九久久99| 9色国产精品| 午夜av免费看| 午夜欧美大尺度福利影院在线看| 精品人妻午夜一区二区三区四区 | 伊人久久免费视频| 影视一区二区三区| 日本一区二区三不卡| 久久综合九色| 蜜桃久久精品成人无码av| 色呦呦日韩精品| 麻豆影视在线| 国产精品福利久久久| 成人毛片在线| 手机版av在线| 国产精品高潮呻吟久久| 国产人妻精品一区二区三| 久久艳片www.17c.com| 日韩精品成人在线观看| 久久香蕉视频网站| 成人午夜av电影| 91精品国产乱码在线观看| 亚洲精品乱码久久久久久金桔影视| 超碰激情在线| 欧美中日韩免费视频| 日韩不卡在线观看日韩不卡视频| 欧美人与禽zoz0善交| 欧美日韩精品专区| 国产婷婷视频在线| 成人在线观看av| 国产欧美日韩一区二区三区在线| xxxxx在线观看| 欧美天天综合网| 国产精品久久麻豆| 国产精品乱码视频| 亚洲欧美日韩在线观看a三区| 亚洲天堂岛国片| 69精品人人人人| 国产传媒av在线| 亚洲国产激情一区二区三区| 国产又黄又大久久| 国产在线综合网| 亚洲乱码国产乱码精品精| 精品久久福利| 人妻av无码专区| 国产欧美精品在线观看| 99热这里只有精品9| 91成人免费观看网站| 日本久久黄色| 一区二区在线免费观看视频| 懂色av影视一区二区三区| 91精彩视频在线观看| 懂色中文一区二区三区在线视频| 每日更新成人在线视频| www.av免费| 国产视频欧美视频| 国产亚洲久久| aa在线免费观看| 亚洲免费在线电影| 欧美高清成人| 亚洲综合一区二区不卡| 久久婷婷丁香| 久久国产精品波多野结衣| 亚洲少妇中文在线| 日韩视频一二区| 九九九在线观看视频| 亚洲国产另类精品专区| 91在线视频| 日本不卡一区二区三区在线观看 | 99蜜桃在线观看免费视频网站|