可驗證、可泛化、可信賴:CompassJudger-2的"可驗證獎勵"如何煉成通用判斷新范式

大家好,我是肆〇柒。在大模型評估領域,判斷模型的局限性一直是個"老大難"問題:它們要么過于專業化,只能處理特定提示;要么缺乏足夠的世界知識,在知識密集型查詢上頻頻"翻車"。今天要介紹的CompassJudger-2,通過"可驗證獎勵機制",讓判斷模型第一次有了明確的"對錯"標準,實現了從狹窄專用到通用判斷的質的飛躍。下面我們一起來理解一下這一技術突破背后的原理、實踐與影響,看看它如何重塑大模型評估的新標準。
判斷模型的發展脈絡
當下,LLM-as-judge(Large Language Model as judge)在評估大型語言模型(LLM)方面日益凸顯其重要性。隨著LLM在現實應用中的廣泛部署,準確評估響應質量變得愈發關鍵。然而,當前的判斷模型普遍存在狹窄專業化和有限魯棒性的問題,削弱了其進行全面評估的能力。傳統基于規則的基準測試雖然在標準化任務中表現出色,但難以處理LLM輸出的變異性,往往因依賴復雜的正則表達式設計而無法應對邊緣情況。
在這個情況下,模型驅動的評估方法如獎勵模型(Reward Models)和LLM-as-Judge便受到研究者的關注,它們利用LLM的推理能力減少了評估工作量。然而,這些方法也引入了新的挑戰:現有判斷模型的泛化能力受限,往往局限于特定提示或數據集。此外,這些LLM在知識密集型查詢上可能因世界知識不足而產生不準確判斷,限制了其在模型迭代改進中的應用。
CompassJudger系列的核心價值:作為首個整合多領域評判任務的開源模型系列,CompassJudger致力于解決上述挑戰。其最新迭代CompassJudger-2通過任務驅動的多領域數據整理策略,實現了判斷能力的顯著提升,為通用判斷模型樹立了新標準。
判斷模型技術路線全景圖
傳統獎勵模型
傳統獎勵模型主要提供單一獎勵值輸出,缺乏解釋性和可操作性反饋。雖然這些模型能有效評估模型響應,但無法提供詳細的判斷理由和改進建議,限制了其在模型迭代改進中的實用性。例如,InternLM2-20B-reward和Deepseek-GRM-27B等模型在RewardBench上表現良好,但其輸出僅包含獎勵分數,缺乏對判斷過程的解釋。
專用判斷模型
專用判斷模型如Con-J和RISE代表了判斷模型發展的中間階段。這些模型通過DPO(Direct Preference Optimization)策略進行訓練,實現了比傳統獎勵模型更好的判斷性能。Con-J和RISE-Judge系列模型在特定任務上表現出色,但仍存在明顯局限:它們主要針對特定提示模板進行優化,難以適應多樣化的評估場景。實證研究表明,這些模型在知識密集型查詢上的表現不佳,因為其訓練數據往往局限于特定領域,缺乏足夠的世界知識覆蓋。
通用判斷模型的演進
通用判斷模型是為了克服專用判斷模型的局限性,實現跨領域的判斷能力。CompassJudger-1作為首個整合多領域評判任務的開源模型,通過納入廣泛的評判任務顯著增強了泛化能力。然而,CompassJudger-1仍面臨魯棒性和泛化能力不足的問題,特別是在處理風格化判斷和知識密集型查詢時表現欠佳。
CompassJudger-2的突破性創新:CompassJudger-2的核心創新在于提出了一種以可驗證獎勵為核心的技術范式。該模型通過任務驅動的多領域數據整理策略,結合批判性思維鏈(CoT)數據生成和拒絕采樣技術,實現了判斷能力的顯著提升。這一創新使CompassJudger-2能夠在多個判斷基準測試中取得卓越表現,甚至其7B模型在判斷準確性上能與DeepSeek-V3和Qwen3-235B-A22B等顯著更大的模型相媲美。
有了高質量的判斷模型和嚴謹的訓練方法,還需要一個可靠的評估基準來驗證其性能。為此,研究團隊開發了JudgerBenchV2,解決了現有基準的局限性,為判斷模型提供了更全面、可靠的評估標準。
可驗證獎勵機制:CompassJudger-2的核心創新
可驗證獎勵機制的設計原理
可驗證獎勵機制的核心價值:這是CompassJudger-2區別于前代模型的關鍵創新,它解決了判斷模型在知識密集型查詢上的準確度問題,使模型判斷有了明確的"對錯"標準。

機制優勢的具體體現:這一機制通過與ground truth對比確保判斷準確性,有效解決了現有判斷模型在知識密集型查詢上的局限性。傳統判斷模型由于缺乏足夠的世界知識,在面對知識密集型問題時往往產生不準確判斷。例如,在評估模型對"量子力學中的海森堡不確定性原理是什么?"這類問題的回答時,傳統判斷模型可能因自身知識不足而無法識別錯誤答案。CompassJudger-2通過驗證機制確保只有準確的判斷被保留,大幅提升了在知識密集型查詢上的判斷質量。
驗證流程的實操細節:在數據整理過程中,CompassJudger-2特別關注驗證生成判斷的正確性。對于過時數據(基于2024年10月之前的模型生成),使用Qwen2.5-72B-Instruct重建判斷,并通過與人工標注的ground truth比較來驗證正確性,僅保留準確的判斷。這一驗證過程包含兩個關鍵環節:首先,由Qwen2.5-72B-Instruct對原始判斷進行重建;其次,將重建結果與人工標注的ground truth進行比對,只有當兩者一致時,該判斷才被納入訓練數據。這種雙重驗證機制有效過濾了錯誤判斷,確保了訓練數據的高質量。
批判性思維鏈(CoT)的工程實現
CompassJudger-2采用創新的思維鏈方法生成高質量的指令-響應數據,專為評判任務設計。該模型將評判任務分解為七個關鍵步驟,要求模型通過全面思考做出預測:

判斷任務中的推理路徑示意圖
1. 用戶需求分析:分析用戶的特定要求,識別用戶指令中的關鍵方面和約束條件
2. 模型A的優點:評估模型A響應的優勢,考慮其如何滿足用戶需求和約束
3. 模型A的缺點:識別模型A響應中的不足,指出未能滿足用戶請求的方面
4. 模型B的優點:評估模型B響應的優勢
5. 模型B的缺點:識別模型B響應的問題
6. 綜合推理:基于對兩個響應的分析,解釋哪個模型更好地滿足用戶需求
7. 最終選擇:根據推理得出結論,指出哪個模型提供了更適合用戶請求的響應
CoT在訓練中的實際作用:這一七步推理路徑確保了判斷過程的系統性和全面性,避免了簡單二元判斷可能導致的偏見。例如,在評估兩個模型對"請解釋為什么天空是藍色的"問題的回答時,模型A可能提供了準確但過于簡略的解釋,而模型B可能提供了詳細但包含部分錯誤信息的解釋。通過七步推理,CompassJudger-2能夠系統分析兩個回答在科學準確性、詳細程度和易理解性等方面的優缺點,從而做出更全面的判斷。
CoT生成質量控制:為確保CoT數據質量,研究團隊采用了嚴格的生成和篩選流程。首先,使用Qwen2.5-72B-Instruct作為骨干模型生成CoT數據;其次,通過人工檢查和自動驗證相結合的方式篩選高質量樣本;最后,對篩選后的樣本進行二次驗證,確保推理過程的邏輯連貫性和判斷的準確性。如下提供了完整CoT合成提示模板詳細指導模型如何執行這一批判性分析過程,確保了生成數據的一致性和高質量。
### CoT Synthesizing Prompt
Now we are reviewing a user's interaction with two models. Your task is to evaluate the responses from Model A and Model B by carefully analyzing the dialogue step by step, following a clear and structured thought process:
1. User's Demand:
- Carefully analyze the user's request. What is the user specifically asking for? What are the key aspects of the request that need to be fulfilled? Identify any constraints (e.g., time, format, quantity) the user has provided.
2. Strengths of Model A:
- Identify the strengths of Model A's response. Consider how well it addresses the user's demand, meets the user's constraints, and how well it serves the intended purpose.
3. Weaknesses of Model A:
- Identify the weaknesses of Model A's response. What aspects of the response fail to meet the user's request or constraints? What could have been improved?
4. Strengths of Model B:
- Identify the strengths of Model B's response. Consider how well it addresses the user's demand, meets the user's constraints, and how well it serves the intended purpose.
5. Weaknesses of Model B:
- Identify the weaknesses of Model B's response. What aspects of the response fail to meet the user's request or constraints? What could have been improved?
6. Reasoning:
- Based on your analysis of both responses, explain which model better addresses the user's needs. Discuss which model's response is more suitable given the user's request and constraints.
7. Choice:
- Conclude with a choice between Model A and Model B based on your reasoning. Indicate which model provides the more appropriate and useful response for the user's request.
Your final reply must be structured in the following format:
{"User's Demand":"[The user's request or need]",
"Strengths of Model A":"[Summary of the strengths of Model A]",
"Weaknesses of Model A":"[Summary of the weaknesses of Model A]",
"Strengths of Model B":"[Summary of the strengths of Model B]",
"Weaknesses of Model B":"[Summary of the weaknesses of Model B]",
"Reasoning":"[Explanation of which model is more suitable for the user's demand]",
"Choice":"[Model A or Model B]"
}譯文:
### 批判性思維鏈(CoT)合成提示
現在我們正在評審用戶與兩個模型的交互。你的任務是通過仔細分析對話,逐步評估模型A和模型B的響應,遵循清晰且結構化的思考過程:
1. 用戶需求分析:
- 仔細分析用戶的請求。用戶具體要求什么?需要滿足的關鍵方面是什么?識別用戶提供的任何約束條件(例如,時間、格式、數量)。
2. 模型A的優點:
- 識別模型A響應的優勢。考慮它如何滿足用戶需求、符合用戶約束,以及如何實現預期目的。
3. 模型A的缺點:
- 識別模型A響應的弱點。響應中哪些方面未能滿足用戶請求或約束?哪些方面可以改進?
4. 模型B的優點:
- 識別模型B響應的優勢。考慮它如何滿足用戶需求、符合用戶約束,以及如何實現預期目的。
5. 模型B的缺點:
- 識別模型B響應的弱點。響應中哪些方面未能滿足用戶請求或約束?哪些方面可以改進?
6. 綜合推理:
- 基于對兩個響應的分析,解釋哪個模型更好地滿足了用戶需求。討論在給定用戶請求和約束條件下,哪個模型的響應更為合適。
7. 最終選擇:
- 基于你的推理,得出在模型A和模型B之間的選擇結論。指出哪個模型為用戶提供更恰當、更有用的響應。
你的最終回復必須按照以下格式結構化:
{"User's Demand":"[用戶的需求或請求]",
"Strengths of Model A":"[模型A優勢的總結]",
"Weaknesses of Model A":"[模型A弱點的總結]",
"Strengths of Model B":"[模型B優勢的總結]",
"Weaknesses of Model B":"[模型B弱點的總結]",
"Reasoning":"[解釋哪個模型更適合用戶需求]",
"Choice":"[模型A或模型B]"
}策略梯度優化的工程實踐
CompassJudger-2的訓練目標是最大化響應分布上的期望獎勵,其梯度可推導為:

理解策略梯度優化的關鍵:這一優化方法不同于傳統的監督微調(SFT),它通過探索不同的響應軌跡來最大化期望獎勵,能夠更有效地學習評判任務的本質。簡單來說,它讓模型"多嘗試幾種判斷方式,但只獎勵正確的判斷"。

CompassJudger-2的訓練框架
邊界損失的直觀理解:研究團隊探索了三種映射函數來優化預測位置:
1. DPO損失(無參考模型):鼓勵模型增加正確答案的概率,同時降低錯誤答案的概率
2. 溫度損失:對logits進行溫度縮放,有效銳化ground truth標記周圍的概率分布(溫度)
3. 邊界損失:在ground truth標記和其他答案之間引入邊界,確保ground truth概率足夠高

策略梯度損失消融實驗結果
消融實驗表明,邊界損失在JudgerBenchV2、JudgeBench和RMB上均表現最佳,平均提升2.21%。邊界損失的數學表達為:

邊界損失的優越性在于它不僅關注正確答案的概率,還確保正確答案與錯誤答案之間的概率差距足夠大,從而提高了模型的判斷魯棒性。與傳統SFT相比,邊界策略梯度損失特別適合評判任務,因為它關注預測的準確性的同時,也關注預測的置信度,使模型在面對模糊或有挑戰性的判斷時更加穩健。
拒絕采樣如何提升泛化能力
拒絕采樣的核心思想:這是一種通過生成多個候選響應并篩選高質量樣本的技術,類似于"多試幾次,只保留最好的結果",有效解決了標準SFT階段探索有限的問題。
策略梯度優化雖然直接最大化期望獎勵,但在標準SFT階段存在探索有限的問題,固定前綴限制了生成響應的多樣性。為解決這一探索瓶頸,CompassJudger-2利用拒絕采樣增強模型泛化能力。

實踐中,CompassJudger-2生成8個候選響應進行過濾。選擇8作為候選數量是基于消融實驗的結果:當候選數量少于8時,多樣性不足;當候選數量超過8時,邊際效益遞減,同時計算成本顯著增加。消融實驗表明,8個候選響應在性能提升和計算成本之間取得了最佳平衡。
拒絕采樣的計算成本分析:拒絕采樣確實增加了推理成本,因為需要生成多個候選響應。然而,研究團隊通過優化采樣策略和并行計算,將額外開銷控制在可接受范圍內。更重要的是,這種額外成本帶來了顯著的性能提升:RFT數據(通過拒絕采樣處理的公共獎勵數據)對JudgerBenchV2性能的貢獻達到2.32%,在RMB數據集上更是貢獻了5.77%的性能提升。
RFT數據的生成過程:RFT數據是"通過拒絕采樣處理的公共獎勵數據",其生成過程包括以下關鍵步驟:
1. 從公共獎勵數據集中提取指令-響應對
2. 使用Qwen2.5-72B-Instruct為每個數據實例生成多個判斷
3. 通過拒絕采樣篩選出滿足ground truth標簽的高質量樣本
4. 對篩選后的樣本進行二次驗證,確保判斷的準確性和一致性

數據消融實驗結果
通過這種方式,拒絕采樣不僅增強了模型的泛化能力,還促進了多樣化的前綴生成,為從SFT到策略梯度優化架起了橋梁。數據消融實驗(上圖)顯示,RFT數據對判斷能力至關重要:移除RFT數據導致JudgerBenchV2性能下降2.32%,并在RMB數據集上導致一致性評估能力顯著下降。這表明拒絕采樣與RFT數據的協同效應,對提升模型的判斷一致性和泛化能力具有關鍵作用。
數據構建策略的成功實施為模型提供了高質量的訓練素材,但要全面評估判斷模型的性能,還需要一個更加完善、多維度的評估基準。JudgerBenchV2正是為此而設計,它通過混合判斷者策略和創新指標,實現了對判斷模型更全面、可靠的評估。
數據構建策略的演進與創新
CompassJudger-1作為首個整合多領域評判任務的開源模型,奠定了通用判斷模型的基礎。其數據方法主要依賴于收集和整合公開可用的判斷數據,但缺乏系統的數據整理和合成策略。作為基礎模型,CompassJudger-1在跨領域判斷能力上存在局限,特別是在處理知識密集型查詢和風格化判斷時表現不佳。
CompassJudger-2的多維度數據流水線
CompassJudger-2數據策略的核心價值:通過整合四類互補數據源,CompassJudger-2實現了專業性與通用性的平衡,使模型能在多種評判任務中保持高性能。
CompassJudger-2提出了一個全面的數據構建框架,包括數據整理(Data Curation)和數據合成(Data Synthesis)兩個主要階段。


CompassJudger-2的數據構建流水線
數據整理:公共判斷數據:分為過時數據和最新數據,以2024年10月為界
- 對于過時數據,使用Qwen2.5-72B-Instruct重建判斷,并通過與人工標注ground truth比較驗證正確性
- 對于最新數據,利用ArenaHard、WildBench、MTBench等主觀評估數據集的判斷提示模板替換原始提示模板,增強多樣性公共獎勵數據:這些數據缺乏批判注釋,不適合直接訓練生成式判斷模型
- 使用Qwen2.5-72B-Instruct為每個數據實例生成多個判斷
- 通過拒絕采樣進一步提高質量
數據合成:知識型數據集:聚合標準化基準(如MMLU、CMMLU、GSM8K)的模型輸出
- 使用Qwen2.5-72B-Instruct評估其正確性并提供詳細理由
- 僅保留經ground truth答案驗證的正確評估聊天型數據集:生成具有對比特征的響應對
- 指示Qwen2.5-72B根據指定風格要求選擇更優響應
- 創建對風格敏感的判斷數據
四類訓練數據的構成與作用:
1. 增強多樣性并修正質量的公共判斷數據:提供基礎判斷能力
2. 通過拒絕采樣處理的公共獎勵數據(RFT數據):提升判斷一致性和泛化能力
3. 從知識型和聊天型數據集生成的合成數據:增強世界知識和風格適應性
4. 通用指令數據(G-SFT數據):維持模型的通用能力
數據整理策略:
- 2024年10月時間節點的選擇依據:選擇2024年10月作為時間節點,是因為在此時間點前后,LLM的能力發生了顯著變化。2024年10月之前的模型(如ChatGPT)在處理復雜推理和知識密集型任務時存在明顯局限,而之后的模型(如Qwen2.5系列)在這些方面有顯著提升。通過這一時間劃分,研究團隊能夠有效區分高質量和低質量的判斷數據。
- 人工標注ground truth的具體流程:人工標注由經驗豐富的標注團隊完成,每位標注者都經過嚴格篩選和培訓。標注過程采用雙盲評審機制,即每個樣本由兩名獨立標注者評估,當意見不一致時,由第三方專家進行仲裁。標注指南詳細規定了各類任務的判斷標準,確保標注的一致性和可靠性。
- 提示模板替換的實現細節:研究團隊從ArenaHard、WildBench、MTBench等數據集中提取了超過50種不同的判斷提示模板,這些模板在措辭、結構和側重點上各不相同。通過隨機替換原始提示模板,不僅增強了數據的多樣性,還使模型能夠適應不同風格的判斷提示,提高了其在實際應用中的魯棒性。
數據合成策略:
- 知識型數據集的具體處理流程:對于MMLU、CMMLU等知識型基準,研究團隊首先收集多個LLM在這些基準上的輸出,然后使用Qwen2.5-72B-Instruct評估這些輸出的正確性,并生成詳細的推理過程。關鍵步驟是驗證評估的正確性:將Qwen2.5-72B-Instruct的評估結果與標準答案進行比對,只有當評估結果正確時,該樣本才被納入訓練數據。這一過程確保了知識型數據的高質量和可靠性。
- 聊天型數據集的風格控制實現:在聊天型數據合成中,研究團隊定義了多個風格維度,如"簡潔vs詳細"、"正式vs隨意"、"技術性vs通俗性"等。通過在提示中明確指定這些風格要求,指導Qwen2.5-72B生成具有特定風格特征的響應對。例如,在"簡潔vs詳細"維度上,要求一個響應在50字內完成回答,而另一個響應則需提供更詳細的解釋(200字以上)。這種控制確保了風格差異的明顯性,使模型能夠學習識別不同風格的優缺點。
- 數據多樣性的量化評估:為確保數據多樣性,研究團隊采用了多種評估方法,包括計算不同數據源之間的語義相似度、分析主題分布的均勻性,以及評估不同任務類型的覆蓋比例。結果顯示,CompassJudger-2的訓練數據在語義空間中分布廣泛,覆蓋了多種任務類型和風格,這為其出色的泛化能力奠定了基礎。
數據消融實驗
數據消融實驗揭示了各類數據對模型性能的影響:

數據消融實驗結果
- RFT數據的關鍵作用:移除RFT數據導致JudgerBenchV2性能下降2.32%,JudgeBench下降1.29%,RMB下降5.77%。這表明RFT數據對判斷一致性評估能力至關重要,特別是在RMB數據集上表現尤為明顯。RMB數據集評估模型判斷的一致性(Best of N方法),而RFT數據通過拒絕采樣確保了判斷的穩定性和一致性,因此對RMB性能影響最大。
- RFT數據對特定數據集的積極影響:RFT數據不僅提升判斷能力,還增強了模型在GPQA-Diamond和ArenaHard等特定數據集上的表現,凸顯了其對通用能力的促進作用。例如,在GPQA-Diamond(一個高難度知識密集型基準)上,RFT數據使模型性能提升了3.41%,這表明RFT數據中的高質量知識判斷有效增強了模型的世界知識。
- G-SFT數據的維持作用:移除G-SFT數據對判斷能力影響有限(JudgerBenchV2僅下降0.15%),但在MMLU Pro、GPQA等客觀基準測試中導致性能下降,表明通用指令數據主要維持模型的通用能力。G-SFT數據使模型在保持專業判斷能力的同時,不會忘記基礎語言理解和生成能力,實現了專業性與通用性的平衡。
- 數據交互效應分析:實驗還揭示了不同類型數據之間的協同效應。例如,RFT數據與合成數據的組合產生了1+1>2的效果:當同時擁有這兩類數據時,JudgerBenchV2性能比單獨使用任一類數據時高出1.83%。這表明多樣化的數據來源能夠互補,共同提升模型的綜合能力。
- 數據量與性能的關系:研究團隊還分析了數據量與模型性能的關系,發現判斷能力的提升與訓練數據量呈近似對數關系。當數據量達到一定規模后(約50萬樣本),性能提升逐漸放緩,這為未來數據收集提供了重要參考。
這些發現強調了多維度數據構建策略的重要性:通過整合不同類型的數據源,CompassJudger-2不僅增強了判斷能力,還保持了良好的通用能力,實現了專業性與通用性的平衡。
有了高質量的判斷模型和嚴謹的數據構建策略,還需要一個可靠的評估基準來驗證其性能。JudgerBenchV2作為CompassJudger-2的配套評估基準,通過混合判斷者策略和創新指標,實現了對判斷模型更全面、可靠的評估。
評估基準:JudgerBenchV2
現有基準的局限性分析
現有判斷模型基準存在明顯不足:
- RewardBench:專注于評估模型在聊天、困難聊天、推理和安全性四個類別中的獎勵能力,但面臨數據過時和評估場景有限的問題,導致許多模型在RewardBench上過擬合。
- JudgeBench:基于模型確定MMLU-Pro和LiveCodeBench等數據集中答案正確性的能力評估判斷模型,測試其回答事實性問題的知識基礎,但對評判任務的覆蓋不夠全面。
- RMB:引入Best of N(BoN)方法,通過比較模型進行多次判斷來評估模型判斷的一致性,但仍未涵蓋足夠廣泛的評估場景。
JudgerBenchV2的創新設計
JudgerBenchV2的核心價值:作為判斷模型評估的新標準,它首次建立特定類別的判斷標準,通過混合判斷者策略和創新指標,實現更穩健的評估,為未來判斷模型開發提供明確的評估框架和目標。
JudgerBenchV2作為CompassJudger-2的配套評估基準,解決了現有基準的局限性:
混合判斷者(MoJ)策略:
- 模型選擇依據:JudgerBenchV2選擇DeepSeek-R1、DeepSeek-V3-0324和Qwen3-235B-A22B作為混合判斷者,主要基于三點考慮:(1)這些模型在多個基準測試中表現優異;(2)它們在架構和訓練數據上具有多樣性;(3)它們在評判任務上表現出互補的優勢。例如,DeepSeek-R1在推理任務上突出,Qwen3-235B在知識密集型任務上表現優異。
- 多數共識機制的細節:MoJ策略采用嚴格的多數共識規則:當三個判斷者中有至少兩個同意某一判斷時,該判斷被視為ground truth。當出現1:1:1的平局時,JudgerBenchV2采用額外的驗證步驟:首先檢查判斷理由的合理性,其次參考更廣泛的社區共識,最后由人工專家進行仲裁。這種機制有效減少了單一判斷者的系統性偏差。
- MoJ與單一判斷者的對比:實驗表明,MoJ策略顯著降低了判斷的主觀性。與單一判斷者相比,MoJ策略使判斷結果的方差降低了37.6%,特別是在開放式問題上效果更為明顯。這證明了MoJ策略在建立可靠ground truth方面的有效性。
10,000問題覆蓋10個場景:
- K-means聚類的具體參數:JudgerBenchV2通過CompassArena收集了超過100,000個真實用戶查詢(中英文),使用BERT嵌入作為特征表示,采用K-means聚類(K=100)將查詢分組。然后,通過人工審核將這些聚類歸納為10個有意義的場景類別,確保每個場景具有明確的語義邊界。
- LLM分類難度級別的實現:難度分類采用兩步法:首先,使用Qwen2.5-72B-Instruct對每個查詢生成難度評估(簡單、中等、困難);其次,通過人工抽樣驗證和調整,確保難度分類的準確性。最終,每個場景的100個查詢按1:1:1的比例分配簡單、中等和困難級別,實現難度平衡。
- 場景平衡的具體措施:為確保語言和難度級別的平衡分布,JudgerBenchV2采用分層抽樣策略:首先,將查詢按語言(中文/英文)和難度(簡單/中等/困難)分層;然后,在每個子層中隨機抽取固定數量的樣本;最后,通過人工審核調整,確保每個場景的查詢在語言和難度上均衡分布。
雙維度評估指標:

JudgerBenchV2基準測試詳細結果

RMB基準測試詳細結果

RewardBench基準測試詳細結果
指標設計的理論依據:JudgerBenchV2的雙維度評估指標設計基于一個重要觀察:人類評分者經常在整體模型排名上達成一致,盡管他們可能在個別樣本上存在分歧。例如,在LLM評估中,不同評分者可能對單個回答有不同偏好,但對模型的總體能力排名往往相似。樣本級準確率衡量模型在單個判斷上的準確性,而排名一致性衡量模型在整體能力評估上的可靠性。兩者結合提供了更全面的評估視角。
指標對模型評估的影響:使用雙維度指標改變了模型評估的結果。例如,RISE-Judge-Qwen2.5-7B在樣本級準確率上表現良好(46.12),但在排名一致性上較差,導致其綜合得分較低(46.12)。相比之下,CompassJudger-2-7B-Instruct在兩項指標上都表現優異,實現了更高的綜合得分(60.52)。這表明雙維度指標能夠更準確地反映判斷模型的實際能力。
指標的敏感性分析:研究團隊對指標參數進行了敏感性分析,發現排名差異和分數差異的權重比為1:1時效果最佳。當排名差異權重過高時,指標過于關注整體排名而忽略單個判斷的準確性;當分數差異權重過高時,指標對微小的分數波動過于敏感。1:1的權重比在各種測試場景中表現最穩定。
綜合性能指標:

評估流程標準化
JudgerBenchV2建立了標準化的評估流程:
1. 10個高性能模型的選擇標準:研究團隊從公開排行榜中選取了10個性能接近的模型,包括Qwen2.5系列、Llama3.1系列和InternLM3系列等。選擇標準包括:(1)在主流基準測試中的綜合得分;(2)模型規模的代表性(覆蓋7B-70B);(3)架構多樣性(包含不同訓練方法的模型)。這些模型在多個基準測試中的性能差異控制在5%以內,確保了評估的公平性。
2. GPT-4o-mini作為策略模型的原因:選擇GPT-4o-mini作為策略模型,主要基于其在響應質量和一致性方面的優異表現。與更大版本的GPT-4相比,GPT-4o-mini在保持高質量的同時,響應速度更快、成本更低,更適合大規模評估任務。實驗證明,GPT-4o-mini與其他高性能模型的配對結果具有高度一致性(r=0.92)。
3. 評估結果的置信度分析:JudgerBenchV2采用多次評估的方法計算結果的置信區間。每個評判任務由三個不同的判斷者獨立評估,最終結果取中位數。通過這種方法,JudgerBenchV2能夠提供評估結果的標準差和95%置信區間,增強了評估的可靠性和可解釋性。
JudgerBenchV2的行業意義
JudgerBenchV2作為判斷模型評估的新標準,具有重要行業意義:
- 首次建立特定類別的判斷標準,提供更細致的評估維度
- 通過混合判斷者策略和創新指標,實現更穩健的評估
- 為未來判斷模型開發提供明確的評估框架和目標
- 推動判斷模型評估從單一準確率向綜合評估體系演進
評估基準的革新為判斷模型提供了更全面的驗證標準,而實證分析則進一步驗證了CompassJudger-2的實際性能優勢。接下來,我們將通過具體數據對比,展示CompassJudger-2如何在多項基準測試中超越現有最佳模型。
性能對比與實證分析
CompassJudger-2 vs CompassJudger-1
CompassJudger-2相比前代模型實現了顯著性能提升:
- JudgerBenchV2:60.52 vs 57.96,提升2.56個百分點
- JudgeBench:63.06 vs 46.00,提升17.06個百分點(7B版本)
- RMB:73.90 vs 77.63(32B版本),保持穩定
- RewardBench:90.96 vs 83.20,提升7.76個百分點
這些提升主要歸因于可驗證獎勵機制、批判性思維鏈數據生成和拒絕采樣策略。特別是在JudgeBench上的顯著改進,表明CompassJudger-2在知識密集型查詢上的判斷能力大幅提升,解決了前代模型的主要局限。
與行業領先模型的對比
CompassJudger-2在多項基準測試中超越了現有最佳模型:

判斷基準測試的主要結果

通用基準測試的結果
- 7B小模型媲美超大規模模型:CompassJudger-2-7B在JudgerBenchV2上達到60.52,接近Qwen3-235B(61.40)
- RewardBench上的領先:90.96 vs DeepSeek-V3(85.17)和Qwen3-235B(84.68)
- JudgeBench上的卓越表現:63.06 vs RISE-Judge-Qwen2.5-7B(38.06),提升25.00
- 跨領域泛化能力:在所有基準測試中保持領先,平均得分72.11 vs RISE-Judge-Qwen2.5-7B(61.61)
值得注意的是,CompassJudger-2-7B模型在判斷準確性上能與顯著更大的模型相媲美,這證明了其數據構建策略和訓練方法的有效性。模型規模效率的提升使高質量判斷服務在資源受限環境中更具可行性。
風格判斷能力測試
風格判斷能力的核心價值:這一能力驗證了CompassJudger-2對提示變化的適應能力,證明其判斷能力不依賴于特定提示模板,而是真正理解了評判任務的本質。
風格判斷能力測試揭示了CompassJudger-2在提示敏感性方面的顯著優勢:

CompassJudger-2和RISE在風格判斷上的比較結果
- 修改判斷提示后(添加"用戶偏好更詳細的響應"等要求),RISE-32B在Chat Hard子集性能下降10.67%
- 相比之下,CompassJudger-2-32B僅下降0.27%,表現出極強的提示魯棒性
- 在其他子集(如Chat、Safety、Reasoning)中,CompassJudger-2也表現出更小的性能波動
提示敏感性分析的深入解讀:上圖詳細展示了不同模型在修改提示前后的性能變化:RISE系列模型在Chat Hard子集上的性能下降最為顯著(10.67%),這表明它們對提示變化特別敏感;而CompassJudger-2系列模型在所有子集上的性能波動均控制在1%以內,展示了卓越的穩定性。
這種魯棒性對于實際應用至關重要,因為在不同場景下可能需要調整判斷提示以適應特定需求。例如,在教育場景中,可能需要強調解釋的清晰度;在技術場景中,可能更關注答案的準確性。CompassJudger-2的提示魯棒性使其能夠靈活適應這些變化,而不會顯著降低判斷質量。
批判能力的實質性提升
批判能力是判斷模型價值的關鍵體現。表5展示了CompassJudger-2在模型改進方面的實質性貢獻:

基于聊天數據集生成的批判對模型改進的效果
- 當策略模型(如LLama3.1-8B-Instruct、Qwen2.5-7B-Instruct、InternLM3-8B-Instruct)基于CompassJudger-2的批判進行響應修訂時,在AlignBench、AlpacaEval和ArenaHard等主觀數據集上均取得顯著提升
- 相比之下,使用RISE-Judge-Qwen2.5-7B作為批判模型往往導致性能下降
- 例如,Qwen2.5-7B-Instruct在CompassJudger-2批判指導下,ArenaHard得分從47.86提升至51.15
### Critique Example-Prompt
Below is a user's question and a model's response. Please help identify the strengths and weaknesses of the model's reply so that it can better address the user's question.
The user's question is as follows: Write a poem about winter, requiring each sentence to be exactly five words long, and without using the words "winter" or "snow," yet still evoking a sense of the season.
The model's response is as follows: Frost paints silent trees. Chill lingers in the air. Footsteps fade on paths. Windows gleam with light. Hushed, the world awaits.
Now, please provide your feedback, highlighting the strengths and areas for improvement in the model's response.譯文:
### 批判示例提示
以下是一個用戶的問題和模型的回復。請幫助識別該回復的優勢和弱點,以便它能更好地解決用戶的問題。
用戶的問題如下:寫一首關于冬天的詩,要求每句恰好五個字,并且不能使用"冬天"或"雪"這些詞,但仍要喚起季節的感覺。
模型的回復如下:Frost paints silent trees. Chill lingers in the air. Footsteps fade on paths. Windows gleam with light. Hushed, the world awaits.
現在,請提供你的反饋,突出模型回復的優勢和需要改進的方面。批判質量的深度分析:批判示例進一步揭示了質量差異。在詩歌創作任務中(要求寫一首關于冬天的詩,每句五個字,且不能使用"winter"或"snow"),RISE-Judge-Qwen2.5-7B錯誤地建議"將'Frost paints silent trees'改為'Snow blankets silent trees'",這直接違反了用戶的明確要求。而CompassJudger-2-7B-Instruct則提供了更精準、有建設性的反饋,指出"可以增加不同感官細節(如聲音、氣味)使詩歌更沉浸",同時嚴格遵守了用戶的約束條件。
這種高質量批判能力使CompassJudger-2不僅是一個判斷工具,更是模型迭代改進的有力助手。批判能力的提升直接源于可驗證獎勵機制和批判性思維鏈訓練:通過監督模型生成符合ground truth的批判,CompassJudger-2學會了如何提供既準確又有建設性的反饋,這對于LLM的持續優化具有重要價值。盡管CompassJudger-2在實驗上取得了很好的成績,但它仍面臨一些挑戰,這些挑戰也為未來應用火研究指明了方向。下面,我們探討當前局限性。
### Critique Example-RISE-Judge-Qwen2.5-7B Answer
Strengths of the Model's Response:
1. Conciseness and Adherence to Word Count: Each sentence is exactly five words long, as requested by the user.
2. Evocation of Winter: The response effectively evokes the sense of winter without explicitly using the words "winter" or "snow." Phrases like "Frost paints silent trees" and "Chill lingers in the air" convey the cold and serene aspects of winter.
3. Imagery and Atmosphere: The response uses vivid imagery to create a strong sense of atmosphere. Descriptions such as "Footsteps fade on paths" and "Windows gleam with light" paint a clear picture of a winter scene.
4. Coherence and Flow: The sentences flow well together, creating a coherent and engaging poem.
Areas for Improvement:
1. Inclusion of "Snow": While the user specifically asked to avoid the word "snow," it is a common and essential element of winter that could be subtly included to enhance the evocation of the season. For example, "Frost paints silent trees" could be modified to "Snow blankets silent trees" to strengthen the winter theme.
2. Variety in Sentence Structure: The response has a consistent structure with each sentence being a simple statement. Introducing a bit of variation in sentence structure could add to the poetic quality, such as using a question or exclamation to create a different tone or emphasis.
3. Enhancing Emotional Depth: While the response is atmospheric, adding a bit more emotional depth or personal touch could make the poem more engaging. For example, describing the "hushed, waiting world" as "yearning for spring" could add a layer of emotional resonance.
Overall, the model's response is strong and meets most of the user's requirements effectively. However, subtle adjustments could enhance its impact and completeness.譯文:
### 批判示例-RISE-Judge-Qwen2.5-7B 回答
模型回復的優勢:
1. 簡潔性和字數遵守:每句恰好五個字,符合用戶要求。
2. 冬季氛圍營造:回復有效地喚起了冬季的感覺,而沒有直接使用"冬天"或"雪"這些詞。像"Frost paints silent trees"和"Chill lingers in the air"這樣的短語傳達了冬季的寒冷和寧靜。
3. 意象和氛圍:回復使用生動的意象來營造強烈的氛圍。"Footsteps fade on paths"和"Windows gleam with light"等描述清晰地描繪了冬季場景。
4. 連貫性和流暢性:句子之間銜接良好,形成了連貫且引人入勝的詩歌。
需要改進的方面:
1. "雪"的包含:雖然用戶特別要求避免使用"snow"這個詞,但它是冬季常見且基本的元素,可以微妙地包含以增強季節感。例如,"Frost paints silent trees"可以修改為"Snow blankets silent trees"以加強冬季主題。
2. 句子結構的多樣性:回復的結構一致,每句都是簡單陳述。引入一些句子結構的變化可以增加詩歌質量,例如使用問句或感嘆句來創造不同的語氣或重點。
3. 增強情感深度:雖然回復有氛圍感,但增加一些情感深度或個人色彩可以使詩歌更具吸引力。例如,將"hushed, waiting world"描述為"yearning for spring"可以增添一層情感共鳴。
總體而言,模型的回復很強,有效地滿足了用戶的大部分要求。然而,細微的調整可以增強其影響力和完整性。技術挑戰與未來方向
當前局限性
CompassJudger-2 目前仍面臨一些挑戰:
- 拒絕采樣帶來的推理成本問題:生成8個候選響應進行過濾的過程增加了推理成本,可能影響實際應用中的效率。在資源受限的環境中,這種額外開銷可能成為部署的障礙。
- 數據合成中的幻覺風險:LLM在合成數據時可能產生幻覺,帶來潛在風險。特別是在知識密集型任務中,模型可能生成看似合理但實際錯誤的判斷。
- 知識密集型查詢的評估挑戰:盡管有所改進,但在高度專業領域的判斷準確性仍有提升空間。例如,在醫學、法律等專業領域,模型可能缺乏足夠的專業知識來做出準確判斷。
未來發展
針對當前局限,未來應用、研究方向包括:
- 從文本到多模態判斷模型的擴展:比如可以將CompassJudger-2擴展到多模態和交互式評估場景的潛力。多模態判斷模型將能夠評估圖像、音頻和視頻內容,滿足更廣泛的應用需求。
- 交互式評估與動態反饋機制:開發能夠根據用戶反饋動態調整判斷標準的模型,使評估過程更加靈活和個性化。例如,模型可以根據用戶的特定偏好調整判斷權重。
- 評估標準的社區共建與標準化:推動行業共識,建立更全面、公正的評估體系。通過社區協作,不斷改進評估標準和方法,提高判斷模型的可靠性和公信力。
總結
CompassJudger-2代表了通用判斷模型發展的新高度,其核心價值在于通過可驗證獎勵機制顯著提升了判斷準確性和魯棒性。研究證明,將真實標簽作為明確指導信號進行優化,結合批判性思維鏈和拒絕采樣技術,能有效培養模型的內在批判性推理能力。
多領域數據構建策略被證實對增強模型泛化能力至關重要。CompassJudger-2的數據流水線通過整合公共判斷數據、獎勵數據、知識型數據和聊天型數據,實現了專業性與通用性的平衡,使模型能在多種評判任務中保持高性能。這種"數據即評估"的理念,為AI模型的持續迭代提供了可靠反饋閉環,使評估真正成為模型進化的驅動力而非事后檢驗。
評估標準的演進從單一準確率向綜合評估體系轉變,JudgerBenchV2通過樣本級準確率和排名一致性雙維度評估,提供了更全面、可靠的判斷模型評估方法。這一范式轉變對AI應用落地具有深遠啟示:在金融風控、醫療診斷、法律咨詢等高風險領域,評估不應僅關注單點準確性,更要考察系統在整體決策邏輯上的一致性與可靠性。
CompassJudger-2的技術哲學在于平衡專業性與通用性的新范式,它證明了通過精心設計的訓練策略和數據構建方法,可以開發出既專業又通用的判斷模型。這一突破為LLM評估領域樹立了新標準,也為AI應用落地提供了關鍵基礎設施——可靠的評估能力是AI系統走向成熟、獲得用戶信任的必經之路。
圖片
CompassJudger-2 已在GitHub開源(見參考資料),為研究社區提供高質量的判斷模型。開源內容包括模型權重、訓練代碼和評估工具,促進了技術的廣泛傳播和應用。
我為了方便大家在本地的低資源環境的部署使用,在周末特意制作了量化校準的版本。

模型倉庫地址在此?? https://www.modelscope.cn/collections/CompassJudger-2-Int-MixedPrecision-2b29a85183174f





























