ACL 2025|驅動LLM強大的過程級獎勵模型(PRMs)正遭遇「信任危機」?
近年來,大型語言模型(LLMs)在復雜推理任務中展現出驚人的能力,這在很大程度上得益于過程級獎勵模型(PRMs)的賦能。PRMs 作為 LLMs 進行多步推理和決策的關鍵「幕后功臣」,負責評估推理過程的每一步,以引導模型的學習方向。
然而,它們真的足夠可靠嗎?一項最新研究——已榮幸被 ACL 2025 Main 接收——揭示了現有 PRMs 在識別推理過程中細微錯誤方面的顯著不足,其表現甚至可能不如隨機猜測,敲響了「信任危機」的警鐘!

- 標題:PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models
- 論文鏈接:https://arxiv.org/abs/2501.03124
- 項目主頁:https://prmbench.github.io/
- 講解視頻:https://www.bilibili.com/video/BV1kgu8z8E6D
- 單位:復旦大學、蘇州大學、上海人工智能實驗室、石溪大學、香港中文大學
PRM 真的過時了嗎?基于規則獎勵的強化學習不斷暴露假陽性及推理過程幻覺嚴重等問題,因此我們需要針對過程的有效監督,而如何評測過程監督的質量就是一個值得探索的問題,目前主流的評估方法往往過度關注最終結果的正確性,而忽視了對推理過程中細致入微的錯誤類型的識別。
例如,一個推理步驟可能存在冗余、部分正確、甚至完全錯誤等多種狀態,簡單的「正確/錯誤」標簽遠不足以捕捉其內在的復雜性與細微差別。這種評估粒度的缺失,使得我們難以真正理解 PRMs 的局限性,也阻礙了其能力的進一步提升。
為填補這一空白,復旦大學、蘇州大學、上海人工智能實驗室、石溪大學、香港中文大學等機構聯合提出了 PRMBench,一個專為評估 PRMs 精細化錯誤檢測能力而設計、且極具挑戰性的基準。這項被 ACL 2025 接收的突破性研究,不僅深入剖析了現有 PRMs 的「軟肋」,更首次系統性地揭示了它們在復雜推理評估中的深層缺陷,為未來研究指明了清晰的方向。

圖 1 PRMBench 的主要結構,左側展示了數據整理的流程;右側展示了評估主題的示例以及測試模型的相對性能表現。
PRMBench:一次針對 PRMs 的「全方位體檢」
PRMBench 并非簡單的數據集擴充,而是一套經過精心構建的「全方位體檢方案」,旨在系統性、多維度地考察 PRMs 的各項核心能力。
PRMBench 的獨特優勢
- 史無前例的海量與精細化標注:PRMBench 包含 6216 個精心設計的問題,并擁有高達 83456 個步驟級別的細粒度標簽。這確保了評估的深度和廣度,能夠全面覆蓋 PRMs 可能遇到的各種復雜推理場景。
- 創新性的多維度評估體系:PRMBench 從簡潔性(Simplicity)、合理性(Soundness)和敏感性(Sensitivity)三大核心維度出發,進一步細分為九個子類別:「非冗余性」(Non-Redundancy)、「非循環邏輯」(Non-Circular Logic)、「評價合理性」(Empirical Soundness)、「步驟一致性」(Step Consistency)、「領域一致性」(Domain Consistency)、「置信度不變性」(Confidence Invariance)、「前提條件敏感性」(Prerequisite Sensitivity)、「欺騙抵抗」(Deception Resistance)和「一題多解一致性」(Multi-Solution Consistency)。這一全面而細致的評估框架,力求捕捉 PRMs 在各種潛在錯誤類型上的表現。
- 首次系統性揭示現有 PRMs 的深層缺陷:研究團隊對包括開源 PRMs 和將主流 LLMs 提示為 Critic 模型的 25 個代表性模型進行了廣泛而深入的實驗。實驗結果令人震驚且引人深思,首次系統性地揭示了當前 PRMs 在細粒度錯誤檢測上的顯著弱點。
本文的主要發現
- 整體表現遠低于預期:即使是表現最佳的模型 Gemini-2-Thinking,其 PRMScore 也僅為 68.8,遠低于人類水平的 83.8,且勉強高于隨機猜測的 50.0。這明確指出,即使是最先進的 PRMs,在多步過程評估中仍有巨大的提升空間。
- 開源 PRMs 普遍落后:相較于將強大通用語言模型提示為 Critic Model 的表現,當前的開源 PRMs 通常表現出更低的性能,這凸顯了其在實際應用中的可靠性問題和潛在的訓練偏差。
- 「簡潔性」成為最大挑戰:在「簡潔性」維度上,即使是表現相對較好的 ReasonEval-34B,其 PRMScore 也驟降至 51.5。這表明,PRMs 在識別推理過程中冗余、不必要的步驟方面存在明顯的能力不足。
- 顯著的「陽性偏好」現象:實驗發現,部分模型,例如 ReasonEval-7B 和 RLHFlow-DeepSeek-8B,在評估中表現出顯著的「陽性偏好」。它們在正確步驟的判斷上準確率很高(超過 95%),但在識別錯誤步驟(陰性數據)時平均準確率僅為 17%,這嚴重影響了其可靠性。
- 錯誤位置對性能的影響:研究深入分析了錯誤步驟在推理鏈中位置對 PRMs 性能的影響。結果顯示,PRMs 的性能會隨著錯誤步驟在推理鏈中位置的逐漸后移而呈現出漸進式提升。
- 「假陽性」影響嚴重:過程級獎勵模型(PRMs)往往難以識別那些假陽性步驟,這使得它們存在被模型「鉆空子」、易受「獎勵黑客」攻擊風險。
問題源起:現有 PRMs 的「盲區」
在一項需要舉出反例的復雜證明題實踐中,我們觀察到一個令人擔憂的現象:即使像 o1 這樣強大的大語言模型,在推理過程中自身已意識到問題,仍可能產生錯誤的推理步驟。更令人警惕的是,當我們調用現有過程級獎勵模型(PRMs)去檢測 o1 生成的推理過程時,結果卻發現多數 PRMs 無法檢測出這種細粒度的錯誤。這一發現直指核心問題:當前的 PRMs 是否真正具備檢測推理過程中細粒度錯誤的能力?

圖 2 當詢問模型一道拉格朗日中值定理相關問題時,o1 和 PRM 可能會產生的錯誤。
然而,現有針對 PRM 評測而設計的基準,大多僅僅關注步驟判斷的宏觀對錯,而忽視了對錯誤類型本身的細致分類。這意味著當前業界急需一個能夠全面評測 PRMs 在細粒度錯誤上表現的綜合基準。而這,正是我們推出 PRMBench 這一精細化基準的根本驅動力。我們希望通過 PRMBench,打破現有評估的局限,真正遴選出能夠有效識別細粒度錯誤的「優秀」PRM,并為未來 PRMs 的發展提供精確的診斷工具。

表 1 PRMBench 與其他現有基準的對比。
PRMBench 構建:實現全面而嚴謹的評估

圖 3 PRMBench 包含三大評測主題:「簡潔性」(Simplicity)、「合理性」(Soundness)和「敏感性」(Sensitivity)。
數據來源與構建:
- 元數據提?。夯?PRM800K 數據集,篩選出其完全正確的問題、答案及解題步驟,作為構建我們基準的元數據。
- 細粒度錯誤注入:針對 PRMBench 的多數評測主題(前 8 個子類別),我們策略性地使用先進的 LLMs(特別是 GPT-4o)將各種細粒度的、預設的錯誤類型注入到原始的正確解題推理步驟中。對于「一題多解一致性」這一特殊情況,則利用多步推理增強型語言模型為同一問題生成多種不同的、但均正確的解法及其推理步驟,以測試 PRM 的一致性判斷能力。
- 嚴格的人工驗證:所有注入錯誤的實例均經過嚴格的人工審查,以確保錯誤類型引入的質量和相關性,保證數據集的真實性和可靠性。
- 大規模數據集統計:最終,PRMBench 構建了包含 6,216 個精心設計的問題,并帶有總計 83,456 個步驟級別的細粒度標簽的評估數據集。
評估維度與指標:
PRMBench 的評估體系分為三大主要領域,旨在對 PRMs 進行全方位的深度剖析:
- 簡潔性(Simplicity):評估 PRMs 識別和排除冗余推理步驟的能力,包括「非冗余性」和「非循環邏輯」兩個子類別。
- 合理性(Soundness):核心評估 PRM 所生成獎勵信號的準確性和對錯誤類型的正確識別能力,涵蓋「評價合理性」、「步驟一致性」、「領域一致性」和「置信度不變性」四個子類別。
- 敏感性(Sensitivity):衡量 PRMs 在面對細微變化或誤導性信息時的魯棒性和精確識別能力,細分為「前提條件敏感性」、「欺騙抵抗」和「多解一致性」三個子類別。
實驗與關鍵發現
評估模型:我們對 25 個主流模型進行了廣泛測試,其中包括了各種開源 PRMs(如 Skywork-PRM、Llemma-PRM、MATHMinos-Mistral、MathShepherd-Mistral、RLHFlow-PRM 等)以及通過巧妙提示作為 Critic Models 的優秀閉源語言模型(如 GPT-4o、o1-mini、Gemini-2-Thinking 等)。
評估指標:
- 負 F1 分數(Negative F1 Score):作為評估錯誤檢測性能的核心指標,著重衡量模型識別錯誤步驟的準確性。
- PRMScore:這是一個綜合性、統一化的分數,通過將 F1 分數(衡量正確識別)和負 F1 分數(衡量錯誤識別)有機結合,更全面、均衡地反映了模型的整體能力和可靠性。
關鍵發現:
- PRMs 整體表現令人擔憂:我們的實驗結果表明,現有 PRMs 在多步過程評估中的能力非常有限。即使是性能最佳的模型,其得分也常常僅略高于隨機猜測,這預示著巨大的提升空間。
- 開源 PRMs 普遍落后:相較于將強大通用語言模型提示為 Critic Model 的表現,當前的開源 PRMs 通常表現出更低的性能,這凸顯了其在實際應用中的可靠性問題和潛在的訓練偏差。
- 「簡潔性」構成最嚴峻挑戰:在所有評測維度中,檢測推理過程中的冗余步驟(即「簡潔性」類別)被證明對 PRMs 來說尤其困難,成為它們面臨的最大挑戰之一。

表 2 PRMBench 的主要結果概覽。
深入分析:揭示 PRMs 的潛在偏見與影響因素
「正確標簽偏好」顯著:許多 PRMs 在評估中表現出對「正確」標簽的明顯偏好,導致它們在識別錯誤標簽測試樣例(即「陰性數據」)時存在困難,這嚴重影響了其公正性和全面性。

表 3 PRMBench 下模型對于正確標簽測試樣例(陽性數據)和錯誤標簽測試樣例(陰性數據)的得分對比及相似度。
錯誤位置的影響:深入分析發現,PRMs 的性能會隨著推理步驟在推理鏈中位置的逐漸靠后而呈現出漸進式提高。這一現象揭示了 PRMs 在處理推理早期階段錯誤時的潛在挑戰。

圖 4 推理步驟位于推理鏈中不同位置對模型 PRMScore 的影響。
少樣本 ICL 的影響有限:實驗結果表明,在獎勵模型評估過程中使用不同數量的 In-Context Learning(ICL)示例,對閉源模型的性能影響甚微。這提示我們,對于 PRMs 的提升,可能需要更深層次的模型結構或訓練范式創新,而非僅僅依賴提示工程。

表 4 不同 Few-shot 數目對于提示為 Critic Model 的通用語言模型表現影響。
PRM 易受「假陽性」影響,暴露「獎勵黑客」問題:過程級獎勵模型(PRMs)往往難以識別那些表面上看似合理、實則存在錯誤的推理步驟,也難以識別結果正確,但過程存在錯誤的「假陽性」現象,這使得它們存在被模型「鉆空子」、易受「獎勵黑客」攻擊的風險。為驗證這一現象,作者將各模型在 PRMBench 與常用的 Best-of-N(BoN)評估方法上的表現進行了對比。結果顯示,PRMBench 在區分模型能力方面具有更高敏感性,而 PRMBench 與 BoN 之間的明顯不一致也進一步揭示出當前 PRMs 在應對「假陽性」問題上的顯著不足。

表5. 使用不同 PRM 在 Best-of-8 評估與 PRMBench 評估下的得分,可區分性和相似性對比
結語與未來展望
PRMBench 的發布,不僅是一個新的、更高標準的評估基準,更是一聲警鐘,提醒我們必須重新審視現有 PRMs 的能力邊界,并加速其在復雜推理場景下細粒度錯誤檢測能力的發展。
研究的深遠意義與展望:
- 推動 PRM 評估研究的范式轉變:PRMBench 提供了一個前所未有的全面、精細化評估工具,能夠更有效地識別 PRMs 的潛在缺陷和「盲區」,從而促進相關算法和模型的根本性改進。
- 指引未來 PRM 的開發方向:通過詳盡揭示現有 PRMs 在不同維度上的優缺點,PRMBench 為未來 PRM 的設計、訓練和優化提供了關鍵的指導性洞察,助力研究人員開發出更具魯棒性和泛化能力的模型。
- 助力構建更可靠的 AI 系統:只有擁有更可靠、更精確的 PRMs,才能有效提升 LLMs 在復雜推理任務中的表現,從而最終構建出更加值得信賴、更接近人類推理水平的人工智能系統。
「我們堅信,PRMBench 的發布將成為推動過程級獎勵模型評估和發展研究的堅實基石,為構建新一代高度可靠的 AI 系統貢獻力量!」研究團隊表示。
立即探索PRMBench,共同迎接挑戰!


























