精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

可驗證、可泛化、可信賴:CompassJudger-2的"可驗證獎勵"如何煉成通用判斷新范式

人工智能
在LLM評估領域,判斷模型長期受限于狹窄專業化與有限魯棒性。CompassJudger-2通過可驗證獎勵機制與任務驅動數據策略,實現了7B小模型媲美235B巨無霸的判斷能力,為通用判斷模型樹立新標準。


大家好,我是肆〇柒。在大模型評估領域,判斷模型的局限性一直是個"老大難"問題:它們要么過于專業化,只能處理特定提示;要么缺乏足夠的世界知識,在知識密集型查詢上頻頻"翻車"。今天要介紹的CompassJudger-2,通過"可驗證獎勵機制",讓判斷模型第一次有了明確的"對錯"標準,實現了從狹窄專用到通用判斷的質的飛躍。下面我們一起來理解一下這一技術突破背后的原理、實踐與影響,看看它如何重塑大模型評估的新標準。

判斷模型的發展脈絡

當下,LLM-as-judge(Large Language Model as judge)在評估大型語言模型(LLM)方面日益凸顯其重要性。隨著LLM在現實應用中的廣泛部署,準確評估響應質量變得愈發關鍵。然而,當前的判斷模型普遍存在狹窄專業化和有限魯棒性的問題,削弱了其進行全面評估的能力。傳統基于規則的基準測試雖然在標準化任務中表現出色,但難以處理LLM輸出的變異性,往往因依賴復雜的正則表達式設計而無法應對邊緣情況。

在這個情況下,模型驅動的評估方法如獎勵模型(Reward Models)和LLM-as-Judge便受到研究者的關注,它們利用LLM的推理能力減少了評估工作量。然而,這些方法也引入了新的挑戰:現有判斷模型的泛化能力受限,往往局限于特定提示或數據集。此外,這些LLM在知識密集型查詢上可能因世界知識不足而產生不準確判斷,限制了其在模型迭代改進中的應用。

CompassJudger系列的核心價值:作為首個整合多領域評判任務的開源模型系列,CompassJudger致力于解決上述挑戰。其最新迭代CompassJudger-2通過任務驅動的多領域數據整理策略,實現了判斷能力的顯著提升,為通用判斷模型樹立了新標準。

判斷模型技術路線全景圖

傳統獎勵模型

傳統獎勵模型主要提供單一獎勵值輸出,缺乏解釋性和可操作性反饋。雖然這些模型能有效評估模型響應,但無法提供詳細的判斷理由和改進建議,限制了其在模型迭代改進中的實用性。例如,InternLM2-20B-reward和Deepseek-GRM-27B等模型在RewardBench上表現良好,但其輸出僅包含獎勵分數,缺乏對判斷過程的解釋。

專用判斷模型

專用判斷模型如Con-J和RISE代表了判斷模型發展的中間階段。這些模型通過DPO(Direct Preference Optimization)策略進行訓練,實現了比傳統獎勵模型更好的判斷性能。Con-J和RISE-Judge系列模型在特定任務上表現出色,但仍存在明顯局限:它們主要針對特定提示模板進行優化,難以適應多樣化的評估場景。實證研究表明,這些模型在知識密集型查詢上的表現不佳,因為其訓練數據往往局限于特定領域,缺乏足夠的世界知識覆蓋。

通用判斷模型的演進

通用判斷模型是為了克服專用判斷模型的局限性,實現跨領域的判斷能力。CompassJudger-1作為首個整合多領域評判任務的開源模型,通過納入廣泛的評判任務顯著增強了泛化能力。然而,CompassJudger-1仍面臨魯棒性和泛化能力不足的問題,特別是在處理風格化判斷和知識密集型查詢時表現欠佳。

CompassJudger-2的突破性創新:CompassJudger-2的核心創新在于提出了一種以可驗證獎勵為核心的技術范式。該模型通過任務驅動的多領域數據整理策略,結合批判性思維鏈(CoT)數據生成和拒絕采樣技術,實現了判斷能力的顯著提升。這一創新使CompassJudger-2能夠在多個判斷基準測試中取得卓越表現,甚至其7B模型在判斷準確性上能與DeepSeek-V3和Qwen3-235B-A22B等顯著更大的模型相媲美。

有了高質量的判斷模型和嚴謹的訓練方法,還需要一個可靠的評估基準來驗證其性能。為此,研究團隊開發了JudgerBenchV2,解決了現有基準的局限性,為判斷模型提供了更全面、可靠的評估標準。

可驗證獎勵機制:CompassJudger-2的核心創新

可驗證獎勵機制的設計原理

可驗證獎勵機制的核心價值:這是CompassJudger-2區別于前代模型的關鍵創新,它解決了判斷模型在知識密集型查詢上的準確度問題,使模型判斷有了明確的"對錯"標準。

機制優勢的具體體現:這一機制通過與ground truth對比確保判斷準確性,有效解決了現有判斷模型在知識密集型查詢上的局限性。傳統判斷模型由于缺乏足夠的世界知識,在面對知識密集型問題時往往產生不準確判斷。例如,在評估模型對"量子力學中的海森堡不確定性原理是什么?"這類問題的回答時,傳統判斷模型可能因自身知識不足而無法識別錯誤答案。CompassJudger-2通過驗證機制確保只有準確的判斷被保留,大幅提升了在知識密集型查詢上的判斷質量。

驗證流程的實操細節:在數據整理過程中,CompassJudger-2特別關注驗證生成判斷的正確性。對于過時數據(基于2024年10月之前的模型生成),使用Qwen2.5-72B-Instruct重建判斷,并通過與人工標注的ground truth比較來驗證正確性,僅保留準確的判斷。這一驗證過程包含兩個關鍵環節:首先,由Qwen2.5-72B-Instruct對原始判斷進行重建;其次,將重建結果與人工標注的ground truth進行比對,只有當兩者一致時,該判斷才被納入訓練數據。這種雙重驗證機制有效過濾了錯誤判斷,確保了訓練數據的高質量。

批判性思維鏈(CoT)的工程實現

CompassJudger-2采用創新的思維鏈方法生成高質量的指令-響應數據,專為評判任務設計。該模型將評判任務分解為七個關鍵步驟,要求模型通過全面思考做出預測:

判斷任務中的推理路徑示意圖

1. 用戶需求分析:分析用戶的特定要求,識別用戶指令中的關鍵方面和約束條件

2. 模型A的優點:評估模型A響應的優勢,考慮其如何滿足用戶需求和約束

3. 模型A的缺點:識別模型A響應中的不足,指出未能滿足用戶請求的方面

4. 模型B的優點:評估模型B響應的優勢

5. 模型B的缺點:識別模型B響應的問題

6. 綜合推理:基于對兩個響應的分析,解釋哪個模型更好地滿足用戶需求

7. 最終選擇:根據推理得出結論,指出哪個模型提供了更適合用戶請求的響應 

CoT在訓練中的實際作用:這一七步推理路徑確保了判斷過程的系統性和全面性,避免了簡單二元判斷可能導致的偏見。例如,在評估兩個模型對"請解釋為什么天空是藍色的"問題的回答時,模型A可能提供了準確但過于簡略的解釋,而模型B可能提供了詳細但包含部分錯誤信息的解釋。通過七步推理,CompassJudger-2能夠系統分析兩個回答在科學準確性、詳細程度和易理解性等方面的優缺點,從而做出更全面的判斷。

CoT生成質量控制:為確保CoT數據質量,研究團隊采用了嚴格的生成和篩選流程。首先,使用Qwen2.5-72B-Instruct作為骨干模型生成CoT數據;其次,通過人工檢查和自動驗證相結合的方式篩選高質量樣本;最后,對篩選后的樣本進行二次驗證,確保推理過程的邏輯連貫性和判斷的準確性。如下提供了完整CoT合成提示模板詳細指導模型如何執行這一批判性分析過程,確保了生成數據的一致性和高質量。

### CoT Synthesizing Prompt

Now we are reviewing a user's interaction with two models. Your task is to evaluate the responses from Model A and Model B by carefully analyzing the dialogue step by step, following a clear and structured thought process: 

1. User's Demand:
   - Carefully analyze the user's request. What is the user specifically asking for? What are the key aspects of the request that need to be fulfilled? Identify any constraints (e.g., time, format, quantity) the user has provided.

2. Strengths of Model A:
   - Identify the strengths of Model A's response. Consider how well it addresses the user's demand, meets the user's constraints, and how well it serves the intended purpose.

3. Weaknesses of Model A:
   - Identify the weaknesses of Model A's response. What aspects of the response fail to meet the user's request or constraints? What could have been improved?

4. Strengths of Model B:
   - Identify the strengths of Model B's response. Consider how well it addresses the user's demand, meets the user's constraints, and how well it serves the intended purpose.

5. Weaknesses of Model B:
   - Identify the weaknesses of Model B's response. What aspects of the response fail to meet the user's request or constraints? What could have been improved?

6. Reasoning:
   - Based on your analysis of both responses, explain which model better addresses the user's needs. Discuss which model's response is more suitable given the user's request and constraints.

7. Choice:
   - Conclude with a choice between Model A and Model B based on your reasoning. Indicate which model provides the more appropriate and useful response for the user's request.

Your final reply must be structured in the following format: 
{"User's Demand":"[The user's request or need]", 
"Strengths of Model A":"[Summary of the strengths of Model A]", 
"Weaknesses of Model A":"[Summary of the weaknesses of Model A]", 
"Strengths of Model B":"[Summary of the strengths of Model B]", 
"Weaknesses of Model B":"[Summary of the weaknesses of Model B]", 
"Reasoning":"[Explanation of which model is more suitable for the user's demand]", 
"Choice":"[Model A or Model B]"
}

譯文:

### 批判性思維鏈(CoT)合成提示

現在我們正在評審用戶與兩個模型的交互。你的任務是通過仔細分析對話,逐步評估模型A和模型B的響應,遵循清晰且結構化的思考過程:

1. 用戶需求分析:
   - 仔細分析用戶的請求。用戶具體要求什么?需要滿足的關鍵方面是什么?識別用戶提供的任何約束條件(例如,時間、格式、數量)。

2. 模型A的優點:
   - 識別模型A響應的優勢。考慮它如何滿足用戶需求、符合用戶約束,以及如何實現預期目的。

3. 模型A的缺點:
   - 識別模型A響應的弱點。響應中哪些方面未能滿足用戶請求或約束?哪些方面可以改進?

4. 模型B的優點:
   - 識別模型B響應的優勢。考慮它如何滿足用戶需求、符合用戶約束,以及如何實現預期目的。

5. 模型B的缺點:
   - 識別模型B響應的弱點。響應中哪些方面未能滿足用戶請求或約束?哪些方面可以改進?

6. 綜合推理:
   - 基于對兩個響應的分析,解釋哪個模型更好地滿足了用戶需求。討論在給定用戶請求和約束條件下,哪個模型的響應更為合適。

7. 最終選擇:
   - 基于你的推理,得出在模型A和模型B之間的選擇結論。指出哪個模型為用戶提供更恰當、更有用的響應。

你的最終回復必須按照以下格式結構化:
{"User's Demand":"[用戶的需求或請求]", 
"Strengths of Model A":"[模型A優勢的總結]", 
"Weaknesses of Model A":"[模型A弱點的總結]", 
"Strengths of Model B":"[模型B優勢的總結]", 
"Weaknesses of Model B":"[模型B弱點的總結]", 
"Reasoning":"[解釋哪個模型更適合用戶需求]", 
"Choice":"[模型A或模型B]"
}

策略梯度優化的工程實踐

CompassJudger-2的訓練目標是最大化響應分布上的期望獎勵,其梯度可推導為:

理解策略梯度優化的關鍵:這一優化方法不同于傳統的監督微調(SFT),它通過探索不同的響應軌跡來最大化期望獎勵,能夠更有效地學習評判任務的本質。簡單來說,它讓模型"多嘗試幾種判斷方式,但只獎勵正確的判斷"。

CompassJudger-2的訓練框架

邊界損失的直觀理解:研究團隊探索了三種映射函數來優化預測位置:

1. DPO損失(無參考模型):鼓勵模型增加正確答案的概率,同時降低錯誤答案的概率

2. 溫度損失:對logits進行溫度縮放,有效銳化ground truth標記周圍的概率分布(溫度)

3. 邊界損失:在ground truth標記和其他答案之間引入邊界,確保ground truth概率足夠高

策略梯度損失消融實驗結果

消融實驗表明,邊界損失在JudgerBenchV2、JudgeBench和RMB上均表現最佳,平均提升2.21%。邊界損失的數學表達為:

邊界損失的優越性在于它不僅關注正確答案的概率,還確保正確答案與錯誤答案之間的概率差距足夠大,從而提高了模型的判斷魯棒性。與傳統SFT相比,邊界策略梯度損失特別適合評判任務,因為它關注預測的準確性的同時,也關注預測的置信度,使模型在面對模糊或有挑戰性的判斷時更加穩健。

拒絕采樣如何提升泛化能力

拒絕采樣的核心思想:這是一種通過生成多個候選響應并篩選高質量樣本的技術,類似于"多試幾次,只保留最好的結果",有效解決了標準SFT階段探索有限的問題。

策略梯度優化雖然直接最大化期望獎勵,但在標準SFT階段存在探索有限的問題,固定前綴限制了生成響應的多樣性。為解決這一探索瓶頸,CompassJudger-2利用拒絕采樣增強模型泛化能力。

實踐中,CompassJudger-2生成8個候選響應進行過濾。選擇8作為候選數量是基于消融實驗的結果:當候選數量少于8時,多樣性不足;當候選數量超過8時,邊際效益遞減,同時計算成本顯著增加。消融實驗表明,8個候選響應在性能提升和計算成本之間取得了最佳平衡。

拒絕采樣的計算成本分析:拒絕采樣確實增加了推理成本,因為需要生成多個候選響應。然而,研究團隊通過優化采樣策略和并行計算,將額外開銷控制在可接受范圍內。更重要的是,這種額外成本帶來了顯著的性能提升:RFT數據(通過拒絕采樣處理的公共獎勵數據)對JudgerBenchV2性能的貢獻達到2.32%,在RMB數據集上更是貢獻了5.77%的性能提升。

RFT數據的生成過程:RFT數據是"通過拒絕采樣處理的公共獎勵數據",其生成過程包括以下關鍵步驟:

1. 從公共獎勵數據集中提取指令-響應對

2. 使用Qwen2.5-72B-Instruct為每個數據實例生成多個判斷

3. 通過拒絕采樣篩選出滿足ground truth標簽的高質量樣本

4. 對篩選后的樣本進行二次驗證,確保判斷的準確性和一致性

數據消融實驗結果

通過這種方式,拒絕采樣不僅增強了模型的泛化能力,還促進了多樣化的前綴生成,為從SFT到策略梯度優化架起了橋梁。數據消融實驗(上圖)顯示,RFT數據對判斷能力至關重要:移除RFT數據導致JudgerBenchV2性能下降2.32%,并在RMB數據集上導致一致性評估能力顯著下降。這表明拒絕采樣與RFT數據的協同效應,對提升模型的判斷一致性和泛化能力具有關鍵作用。

數據構建策略的成功實施為模型提供了高質量的訓練素材,但要全面評估判斷模型的性能,還需要一個更加完善、多維度的評估基準。JudgerBenchV2正是為此而設計,它通過混合判斷者策略和創新指標,實現了對判斷模型更全面、可靠的評估。

數據構建策略的演進與創新

CompassJudger-1作為首個整合多領域評判任務的開源模型,奠定了通用判斷模型的基礎。其數據方法主要依賴于收集和整合公開可用的判斷數據,但缺乏系統的數據整理和合成策略。作為基礎模型,CompassJudger-1在跨領域判斷能力上存在局限,特別是在處理知識密集型查詢和風格化判斷時表現不佳。

CompassJudger-2的多維度數據流水線

CompassJudger-2數據策略的核心價值:通過整合四類互補數據源,CompassJudger-2實現了專業性與通用性的平衡,使模型能在多種評判任務中保持高性能。

CompassJudger-2提出了一個全面的數據構建框架,包括數據整理(Data Curation)和數據合成(Data Synthesis)兩個主要階段。

CompassJudger-2的數據構建流水線

數據整理公共判斷數據:分為過時數據和最新數據,以2024年10月為界

  • 對于過時數據,使用Qwen2.5-72B-Instruct重建判斷,并通過與人工標注ground truth比較驗證正確性
  • 對于最新數據,利用ArenaHard、WildBench、MTBench等主觀評估數據集的判斷提示模板替換原始提示模板,增強多樣性公共獎勵數據:這些數據缺乏批判注釋,不適合直接訓練生成式判斷模型
  • 使用Qwen2.5-72B-Instruct為每個數據實例生成多個判斷
  • 通過拒絕采樣進一步提高質量

數據合成知識型數據集:聚合標準化基準(如MMLU、CMMLU、GSM8K)的模型輸出

  • 使用Qwen2.5-72B-Instruct評估其正確性并提供詳細理由
  • 僅保留經ground truth答案驗證的正確評估聊天型數據集:生成具有對比特征的響應對
  • 指示Qwen2.5-72B根據指定風格要求選擇更優響應
  • 創建對風格敏感的判斷數據

四類訓練數據的構成與作用

1. 增強多樣性并修正質量的公共判斷數據:提供基礎判斷能力

2. 通過拒絕采樣處理的公共獎勵數據(RFT數據):提升判斷一致性和泛化能力

3. 從知識型和聊天型數據集生成的合成數據:增強世界知識和風格適應性

4. 通用指令數據(G-SFT數據):維持模型的通用能力

數據整理策略

  • 2024年10月時間節點的選擇依據:選擇2024年10月作為時間節點,是因為在此時間點前后,LLM的能力發生了顯著變化。2024年10月之前的模型(如ChatGPT)在處理復雜推理和知識密集型任務時存在明顯局限,而之后的模型(如Qwen2.5系列)在這些方面有顯著提升。通過這一時間劃分,研究團隊能夠有效區分高質量和低質量的判斷數據。
  • 人工標注ground truth的具體流程:人工標注由經驗豐富的標注團隊完成,每位標注者都經過嚴格篩選和培訓。標注過程采用雙盲評審機制,即每個樣本由兩名獨立標注者評估,當意見不一致時,由第三方專家進行仲裁。標注指南詳細規定了各類任務的判斷標準,確保標注的一致性和可靠性。
  • 提示模板替換的實現細節:研究團隊從ArenaHard、WildBench、MTBench等數據集中提取了超過50種不同的判斷提示模板,這些模板在措辭、結構和側重點上各不相同。通過隨機替換原始提示模板,不僅增強了數據的多樣性,還使模型能夠適應不同風格的判斷提示,提高了其在實際應用中的魯棒性。

數據合成策略

  • 知識型數據集的具體處理流程:對于MMLU、CMMLU等知識型基準,研究團隊首先收集多個LLM在這些基準上的輸出,然后使用Qwen2.5-72B-Instruct評估這些輸出的正確性,并生成詳細的推理過程。關鍵步驟是驗證評估的正確性:將Qwen2.5-72B-Instruct的評估結果與標準答案進行比對,只有當評估結果正確時,該樣本才被納入訓練數據。這一過程確保了知識型數據的高質量和可靠性。
  • 聊天型數據集的風格控制實現:在聊天型數據合成中,研究團隊定義了多個風格維度,如"簡潔vs詳細"、"正式vs隨意"、"技術性vs通俗性"等。通過在提示中明確指定這些風格要求,指導Qwen2.5-72B生成具有特定風格特征的響應對。例如,在"簡潔vs詳細"維度上,要求一個響應在50字內完成回答,而另一個響應則需提供更詳細的解釋(200字以上)。這種控制確保了風格差異的明顯性,使模型能夠學習識別不同風格的優缺點。
  • 數據多樣性的量化評估:為確保數據多樣性,研究團隊采用了多種評估方法,包括計算不同數據源之間的語義相似度、分析主題分布的均勻性,以及評估不同任務類型的覆蓋比例。結果顯示,CompassJudger-2的訓練數據在語義空間中分布廣泛,覆蓋了多種任務類型和風格,這為其出色的泛化能力奠定了基礎。

數據消融實驗

數據消融實驗揭示了各類數據對模型性能的影響:

數據消融實驗結果

  • RFT數據的關鍵作用:移除RFT數據導致JudgerBenchV2性能下降2.32%,JudgeBench下降1.29%,RMB下降5.77%。這表明RFT數據對判斷一致性評估能力至關重要,特別是在RMB數據集上表現尤為明顯。RMB數據集評估模型判斷的一致性(Best of N方法),而RFT數據通過拒絕采樣確保了判斷的穩定性和一致性,因此對RMB性能影響最大。
  • RFT數據對特定數據集的積極影響:RFT數據不僅提升判斷能力,還增強了模型在GPQA-Diamond和ArenaHard等特定數據集上的表現,凸顯了其對通用能力的促進作用。例如,在GPQA-Diamond(一個高難度知識密集型基準)上,RFT數據使模型性能提升了3.41%,這表明RFT數據中的高質量知識判斷有效增強了模型的世界知識。
  • G-SFT數據的維持作用:移除G-SFT數據對判斷能力影響有限(JudgerBenchV2僅下降0.15%),但在MMLU Pro、GPQA等客觀基準測試中導致性能下降,表明通用指令數據主要維持模型的通用能力。G-SFT數據使模型在保持專業判斷能力的同時,不會忘記基礎語言理解和生成能力,實現了專業性與通用性的平衡。
  • 數據交互效應分析:實驗還揭示了不同類型數據之間的協同效應。例如,RFT數據與合成數據的組合產生了1+1>2的效果:當同時擁有這兩類數據時,JudgerBenchV2性能比單獨使用任一類數據時高出1.83%。這表明多樣化的數據來源能夠互補,共同提升模型的綜合能力。
  • 數據量與性能的關系:研究團隊還分析了數據量與模型性能的關系,發現判斷能力的提升與訓練數據量呈近似對數關系。當數據量達到一定規模后(約50萬樣本),性能提升逐漸放緩,這為未來數據收集提供了重要參考。

這些發現強調了多維度數據構建策略的重要性:通過整合不同類型的數據源,CompassJudger-2不僅增強了判斷能力,還保持了良好的通用能力,實現了專業性與通用性的平衡。

有了高質量的判斷模型和嚴謹的數據構建策略,還需要一個可靠的評估基準來驗證其性能。JudgerBenchV2作為CompassJudger-2的配套評估基準,通過混合判斷者策略和創新指標,實現了對判斷模型更全面、可靠的評估。

評估基準:JudgerBenchV2

現有基準的局限性分析

現有判斷模型基準存在明顯不足:

  • RewardBench:專注于評估模型在聊天、困難聊天、推理和安全性四個類別中的獎勵能力,但面臨數據過時和評估場景有限的問題,導致許多模型在RewardBench上過擬合。
  • JudgeBench:基于模型確定MMLU-Pro和LiveCodeBench等數據集中答案正確性的能力評估判斷模型,測試其回答事實性問題的知識基礎,但對評判任務的覆蓋不夠全面。
  • RMB:引入Best of N(BoN)方法,通過比較模型進行多次判斷來評估模型判斷的一致性,但仍未涵蓋足夠廣泛的評估場景。

JudgerBenchV2的創新設計

JudgerBenchV2的核心價值:作為判斷模型評估的新標準,它首次建立特定類別的判斷標準,通過混合判斷者策略和創新指標,實現更穩健的評估,為未來判斷模型開發提供明確的評估框架和目標。

JudgerBenchV2作為CompassJudger-2的配套評估基準,解決了現有基準的局限性:

混合判斷者(MoJ)策略

  • 模型選擇依據:JudgerBenchV2選擇DeepSeek-R1、DeepSeek-V3-0324和Qwen3-235B-A22B作為混合判斷者,主要基于三點考慮:(1)這些模型在多個基準測試中表現優異;(2)它們在架構和訓練數據上具有多樣性;(3)它們在評判任務上表現出互補的優勢。例如,DeepSeek-R1在推理任務上突出,Qwen3-235B在知識密集型任務上表現優異。
  • 多數共識機制的細節:MoJ策略采用嚴格的多數共識規則:當三個判斷者中有至少兩個同意某一判斷時,該判斷被視為ground truth。當出現1:1:1的平局時,JudgerBenchV2采用額外的驗證步驟:首先檢查判斷理由的合理性,其次參考更廣泛的社區共識,最后由人工專家進行仲裁。這種機制有效減少了單一判斷者的系統性偏差。
  • MoJ與單一判斷者的對比:實驗表明,MoJ策略顯著降低了判斷的主觀性。與單一判斷者相比,MoJ策略使判斷結果的方差降低了37.6%,特別是在開放式問題上效果更為明顯。這證明了MoJ策略在建立可靠ground truth方面的有效性。

10,000問題覆蓋10個場景

  • K-means聚類的具體參數:JudgerBenchV2通過CompassArena收集了超過100,000個真實用戶查詢(中英文),使用BERT嵌入作為特征表示,采用K-means聚類(K=100)將查詢分組。然后,通過人工審核將這些聚類歸納為10個有意義的場景類別,確保每個場景具有明確的語義邊界。
  • LLM分類難度級別的實現:難度分類采用兩步法:首先,使用Qwen2.5-72B-Instruct對每個查詢生成難度評估(簡單、中等、困難);其次,通過人工抽樣驗證和調整,確保難度分類的準確性。最終,每個場景的100個查詢按1:1:1的比例分配簡單、中等和困難級別,實現難度平衡。
  • 場景平衡的具體措施:為確保語言和難度級別的平衡分布,JudgerBenchV2采用分層抽樣策略:首先,將查詢按語言(中文/英文)和難度(簡單/中等/困難)分層;然后,在每個子層中隨機抽取固定數量的樣本;最后,通過人工審核調整,確保每個場景的查詢在語言和難度上均衡分布。

雙維度評估指標

JudgerBenchV2基準測試詳細結果

RMB基準測試詳細結果

RewardBench基準測試詳細結果

指標設計的理論依據:JudgerBenchV2的雙維度評估指標設計基于一個重要觀察:人類評分者經常在整體模型排名上達成一致,盡管他們可能在個別樣本上存在分歧。例如,在LLM評估中,不同評分者可能對單個回答有不同偏好,但對模型的總體能力排名往往相似。樣本級準確率衡量模型在單個判斷上的準確性,而排名一致性衡量模型在整體能力評估上的可靠性。兩者結合提供了更全面的評估視角。

指標對模型評估的影響:使用雙維度指標改變了模型評估的結果。例如,RISE-Judge-Qwen2.5-7B在樣本級準確率上表現良好(46.12),但在排名一致性上較差,導致其綜合得分較低(46.12)。相比之下,CompassJudger-2-7B-Instruct在兩項指標上都表現優異,實現了更高的綜合得分(60.52)。這表明雙維度指標能夠更準確地反映判斷模型的實際能力。

指標的敏感性分析:研究團隊對指標參數進行了敏感性分析,發現排名差異和分數差異的權重比為1:1時效果最佳。當排名差異權重過高時,指標過于關注整體排名而忽略單個判斷的準確性;當分數差異權重過高時,指標對微小的分數波動過于敏感。1:1的權重比在各種測試場景中表現最穩定。

綜合性能指標:

評估流程標準化

JudgerBenchV2建立了標準化的評估流程:

1. 10個高性能模型的選擇標準:研究團隊從公開排行榜中選取了10個性能接近的模型,包括Qwen2.5系列、Llama3.1系列和InternLM3系列等。選擇標準包括:(1)在主流基準測試中的綜合得分;(2)模型規模的代表性(覆蓋7B-70B);(3)架構多樣性(包含不同訓練方法的模型)。這些模型在多個基準測試中的性能差異控制在5%以內,確保了評估的公平性。

2. GPT-4o-mini作為策略模型的原因:選擇GPT-4o-mini作為策略模型,主要基于其在響應質量和一致性方面的優異表現。與更大版本的GPT-4相比,GPT-4o-mini在保持高質量的同時,響應速度更快、成本更低,更適合大規模評估任務。實驗證明,GPT-4o-mini與其他高性能模型的配對結果具有高度一致性(r=0.92)。

3. 評估結果的置信度分析:JudgerBenchV2采用多次評估的方法計算結果的置信區間。每個評判任務由三個不同的判斷者獨立評估,最終結果取中位數。通過這種方法,JudgerBenchV2能夠提供評估結果的標準差和95%置信區間,增強了評估的可靠性和可解釋性。

JudgerBenchV2的行業意義

JudgerBenchV2作為判斷模型評估的新標準,具有重要行業意義:

  • 首次建立特定類別的判斷標準,提供更細致的評估維度
  • 通過混合判斷者策略和創新指標,實現更穩健的評估
  • 為未來判斷模型開發提供明確的評估框架和目標
  • 推動判斷模型評估從單一準確率向綜合評估體系演進

評估基準的革新為判斷模型提供了更全面的驗證標準,而實證分析則進一步驗證了CompassJudger-2的實際性能優勢。接下來,我們將通過具體數據對比,展示CompassJudger-2如何在多項基準測試中超越現有最佳模型。

性能對比與實證分析

CompassJudger-2 vs CompassJudger-1

CompassJudger-2相比前代模型實現了顯著性能提升:

  • JudgerBenchV2:60.52 vs 57.96,提升2.56個百分點
  • JudgeBench:63.06 vs 46.00,提升17.06個百分點(7B版本)
  • RMB:73.90 vs 77.63(32B版本),保持穩定
  • RewardBench:90.96 vs 83.20,提升7.76個百分點

這些提升主要歸因于可驗證獎勵機制、批判性思維鏈數據生成和拒絕采樣策略。特別是在JudgeBench上的顯著改進,表明CompassJudger-2在知識密集型查詢上的判斷能力大幅提升,解決了前代模型的主要局限。

與行業領先模型的對比

CompassJudger-2在多項基準測試中超越了現有最佳模型:

判斷基準測試的主要結果

通用基準測試的結果

  • 7B小模型媲美超大規模模型:CompassJudger-2-7B在JudgerBenchV2上達到60.52,接近Qwen3-235B(61.40)
  • RewardBench上的領先:90.96 vs DeepSeek-V3(85.17)和Qwen3-235B(84.68)
  • JudgeBench上的卓越表現:63.06 vs RISE-Judge-Qwen2.5-7B(38.06),提升25.00
  • 跨領域泛化能力:在所有基準測試中保持領先,平均得分72.11 vs RISE-Judge-Qwen2.5-7B(61.61)

值得注意的是,CompassJudger-2-7B模型在判斷準確性上能與顯著更大的模型相媲美,這證明了其數據構建策略和訓練方法的有效性。模型規模效率的提升使高質量判斷服務在資源受限環境中更具可行性。

風格判斷能力測試

風格判斷能力的核心價值:這一能力驗證了CompassJudger-2對提示變化的適應能力,證明其判斷能力不依賴于特定提示模板,而是真正理解了評判任務的本質。

風格判斷能力測試揭示了CompassJudger-2在提示敏感性方面的顯著優勢:

CompassJudger-2和RISE在風格判斷上的比較結果

  • 修改判斷提示后(添加"用戶偏好更詳細的響應"等要求),RISE-32B在Chat Hard子集性能下降10.67%
  • 相比之下,CompassJudger-2-32B僅下降0.27%,表現出極強的提示魯棒性
  • 在其他子集(如Chat、Safety、Reasoning)中,CompassJudger-2也表現出更小的性能波動

提示敏感性分析的深入解讀:上圖詳細展示了不同模型在修改提示前后的性能變化:RISE系列模型在Chat Hard子集上的性能下降最為顯著(10.67%),這表明它們對提示變化特別敏感;而CompassJudger-2系列模型在所有子集上的性能波動均控制在1%以內,展示了卓越的穩定性。

這種魯棒性對于實際應用至關重要,因為在不同場景下可能需要調整判斷提示以適應特定需求。例如,在教育場景中,可能需要強調解釋的清晰度;在技術場景中,可能更關注答案的準確性。CompassJudger-2的提示魯棒性使其能夠靈活適應這些變化,而不會顯著降低判斷質量。

批判能力的實質性提升

批判能力是判斷模型價值的關鍵體現。表5展示了CompassJudger-2在模型改進方面的實質性貢獻:

基于聊天數據集生成的批判對模型改進的效果

  • 當策略模型(如LLama3.1-8B-Instruct、Qwen2.5-7B-Instruct、InternLM3-8B-Instruct)基于CompassJudger-2的批判進行響應修訂時,在AlignBench、AlpacaEval和ArenaHard等主觀數據集上均取得顯著提升
  • 相比之下,使用RISE-Judge-Qwen2.5-7B作為批判模型往往導致性能下降
  • 例如,Qwen2.5-7B-Instruct在CompassJudger-2批判指導下,ArenaHard得分從47.86提升至51.15
### Critique Example-Prompt

Below is a user's question and a model's response. Please help identify the strengths and weaknesses of the model's reply so that it can better address the user's question.

The user's question is as follows: Write a poem about winter, requiring each sentence to be exactly five words long, and without using the words "winter" or "snow," yet still evoking a sense of the season.

The model's response is as follows: Frost paints silent trees. Chill lingers in the air. Footsteps fade on paths. Windows gleam with light. Hushed, the world awaits.

Now, please provide your feedback, highlighting the strengths and areas for improvement in the model's response.

譯文:

### 批判示例提示

以下是一個用戶的問題和模型的回復。請幫助識別該回復的優勢和弱點,以便它能更好地解決用戶的問題。

用戶的問題如下:寫一首關于冬天的詩,要求每句恰好五個字,并且不能使用"冬天"或"雪"這些詞,但仍要喚起季節的感覺。

模型的回復如下:Frost paints silent trees. Chill lingers in the air. Footsteps fade on paths. Windows gleam with light. Hushed, the world awaits.

現在,請提供你的反饋,突出模型回復的優勢和需要改進的方面。

批判質量的深度分析:批判示例進一步揭示了質量差異。在詩歌創作任務中(要求寫一首關于冬天的詩,每句五個字,且不能使用"winter"或"snow"),RISE-Judge-Qwen2.5-7B錯誤地建議"將'Frost paints silent trees'改為'Snow blankets silent trees'",這直接違反了用戶的明確要求。而CompassJudger-2-7B-Instruct則提供了更精準、有建設性的反饋,指出"可以增加不同感官細節(如聲音、氣味)使詩歌更沉浸",同時嚴格遵守了用戶的約束條件。

這種高質量批判能力使CompassJudger-2不僅是一個判斷工具,更是模型迭代改進的有力助手。批判能力的提升直接源于可驗證獎勵機制和批判性思維鏈訓練:通過監督模型生成符合ground truth的批判,CompassJudger-2學會了如何提供既準確又有建設性的反饋,這對于LLM的持續優化具有重要價值。盡管CompassJudger-2在實驗上取得了很好的成績,但它仍面臨一些挑戰,這些挑戰也為未來應用火研究指明了方向。下面,我們探討當前局限性。

### Critique Example-RISE-Judge-Qwen2.5-7B Answer

Strengths of the Model's Response:
1. Conciseness and Adherence to Word Count: Each sentence is exactly five words long, as requested by the user.
2. Evocation of Winter: The response effectively evokes the sense of winter without explicitly using the words "winter" or "snow." Phrases like "Frost paints silent trees" and "Chill lingers in the air" convey the cold and serene aspects of winter.
3. Imagery and Atmosphere: The response uses vivid imagery to create a strong sense of atmosphere. Descriptions such as "Footsteps fade on paths" and "Windows gleam with light" paint a clear picture of a winter scene.
4. Coherence and Flow: The sentences flow well together, creating a coherent and engaging poem.

Areas for Improvement:
1. Inclusion of "Snow": While the user specifically asked to avoid the word "snow," it is a common and essential element of winter that could be subtly included to enhance the evocation of the season. For example, "Frost paints silent trees" could be modified to "Snow blankets silent trees" to strengthen the winter theme.
2. Variety in Sentence Structure: The response has a consistent structure with each sentence being a simple statement. Introducing a bit of variation in sentence structure could add to the poetic quality, such as using a question or exclamation to create a different tone or emphasis.
3. Enhancing Emotional Depth: While the response is atmospheric, adding a bit more emotional depth or personal touch could make the poem more engaging. For example, describing the "hushed, waiting world" as "yearning for spring" could add a layer of emotional resonance.

Overall, the model's response is strong and meets most of the user's requirements effectively. However, subtle adjustments could enhance its impact and completeness.

譯文:

### 批判示例-RISE-Judge-Qwen2.5-7B 回答

模型回復的優勢:
1. 簡潔性和字數遵守:每句恰好五個字,符合用戶要求。
2. 冬季氛圍營造:回復有效地喚起了冬季的感覺,而沒有直接使用"冬天"或"雪"這些詞。像"Frost paints silent trees"和"Chill lingers in the air"這樣的短語傳達了冬季的寒冷和寧靜。
3. 意象和氛圍:回復使用生動的意象來營造強烈的氛圍。"Footsteps fade on paths"和"Windows gleam with light"等描述清晰地描繪了冬季場景。
4. 連貫性和流暢性:句子之間銜接良好,形成了連貫且引人入勝的詩歌。

需要改進的方面:
1. "雪"的包含:雖然用戶特別要求避免使用"snow"這個詞,但它是冬季常見且基本的元素,可以微妙地包含以增強季節感。例如,"Frost paints silent trees"可以修改為"Snow blankets silent trees"以加強冬季主題。
2. 句子結構的多樣性:回復的結構一致,每句都是簡單陳述。引入一些句子結構的變化可以增加詩歌質量,例如使用問句或感嘆句來創造不同的語氣或重點。
3. 增強情感深度:雖然回復有氛圍感,但增加一些情感深度或個人色彩可以使詩歌更具吸引力。例如,將"hushed, waiting world"描述為"yearning for spring"可以增添一層情感共鳴。

總體而言,模型的回復很強,有效地滿足了用戶的大部分要求。然而,細微的調整可以增強其影響力和完整性。

技術挑戰與未來方向

當前局限性

CompassJudger-2 目前仍面臨一些挑戰:

  • 拒絕采樣帶來的推理成本問題:生成8個候選響應進行過濾的過程增加了推理成本,可能影響實際應用中的效率。在資源受限的環境中,這種額外開銷可能成為部署的障礙。
  • 數據合成中的幻覺風險:LLM在合成數據時可能產生幻覺,帶來潛在風險。特別是在知識密集型任務中,模型可能生成看似合理但實際錯誤的判斷。
  • 知識密集型查詢的評估挑戰:盡管有所改進,但在高度專業領域的判斷準確性仍有提升空間。例如,在醫學、法律等專業領域,模型可能缺乏足夠的專業知識來做出準確判斷。

未來發展

針對當前局限,未來應用、研究方向包括:

  • 從文本到多模態判斷模型的擴展:比如可以將CompassJudger-2擴展到多模態和交互式評估場景的潛力。多模態判斷模型將能夠評估圖像、音頻和視頻內容,滿足更廣泛的應用需求。
  • 交互式評估與動態反饋機制:開發能夠根據用戶反饋動態調整判斷標準的模型,使評估過程更加靈活和個性化。例如,模型可以根據用戶的特定偏好調整判斷權重。
  • 評估標準的社區共建與標準化:推動行業共識,建立更全面、公正的評估體系。通過社區協作,不斷改進評估標準和方法,提高判斷模型的可靠性和公信力。

總結

CompassJudger-2代表了通用判斷模型發展的新高度,其核心價值在于通過可驗證獎勵機制顯著提升了判斷準確性和魯棒性。研究證明,將真實標簽作為明確指導信號進行優化,結合批判性思維鏈和拒絕采樣技術,能有效培養模型的內在批判性推理能力。

多領域數據構建策略被證實對增強模型泛化能力至關重要。CompassJudger-2的數據流水線通過整合公共判斷數據、獎勵數據、知識型數據和聊天型數據,實現了專業性與通用性的平衡,使模型能在多種評判任務中保持高性能。這種"數據即評估"的理念,為AI模型的持續迭代提供了可靠反饋閉環,使評估真正成為模型進化的驅動力而非事后檢驗。

評估標準的演進從單一準確率向綜合評估體系轉變,JudgerBenchV2通過樣本級準確率和排名一致性雙維度評估,提供了更全面、可靠的判斷模型評估方法。這一范式轉變對AI應用落地具有深遠啟示:在金融風控、醫療診斷、法律咨詢等高風險領域,評估不應僅關注單點準確性,更要考察系統在整體決策邏輯上的一致性與可靠性。

CompassJudger-2的技術哲學在于平衡專業性與通用性的新范式,它證明了通過精心設計的訓練策略和數據構建方法,可以開發出既專業又通用的判斷模型。這一突破為LLM評估領域樹立了新標準,也為AI應用落地提供了關鍵基礎設施——可靠的評估能力是AI系統走向成熟、獲得用戶信任的必經之路。

圖片圖片

CompassJudger-2 已在GitHub開源(見參考資料),為研究社區提供高質量的判斷模型。開源內容包括模型權重、訓練代碼和評估工具,促進了技術的廣泛傳播和應用。

我為了方便大家在本地的低資源環境的部署使用,在周末特意制作了量化校準的版本。

模型倉庫地址在此??  https://www.modelscope.cn/collections/CompassJudger-2-Int-MixedPrecision-2b29a85183174f

責任編輯:龐桂玉 來源: 覺察流
相關推薦

2025-07-24 11:41:47

2014-12-08 14:25:30

2011-06-20 15:12:48

微軟木馬

2024-12-04 11:09:10

2025-05-30 04:00:00

IBMRLVRGRPO

2011-07-12 23:37:01

ITSS

2025-09-12 09:05:00

2022-07-18 10:05:16

AI挑戰方案

2025-07-01 09:05:28

2025-08-04 09:20:07

2015-04-27 18:53:21

H3Cloud/華三

2010-02-23 11:06:16

WCF可信賴會話

2025-08-01 01:00:00

AI AgentRWA代幣化Agent

2023-12-23 23:29:15

數據材料LK-99

2018-08-03 17:03:00

商用軟件

2025-09-23 01:00:00

2025-05-30 02:00:00

獎勵模型RRMAI
點贊
收藏

51CTO技術棧公眾號

7777女厕盗摄久久久| 成人av第一页| 欧美精品午夜视频| 亚洲调教欧美在线| 成人午夜亚洲| 亚洲福利国产精品| 亚洲国产精品123| 亚洲精品一级片| 日韩av一二三| 欧美激情乱人伦| 国内精品卡一卡二卡三| 18国产精品| 欧美日韩免费一区二区三区视频| 东北少妇不带套对白| 成年人视频在线观看免费| 国产高清精品网站| 国产精品视频免费在线| 日本一级黄色大片| 欧美成人milf| 一本色道久久综合狠狠躁篇的优点 | 亚洲人成影院在线观看| 欧洲精品亚洲精品| 色婷婷av一区二区三| 麻豆91在线观看| 91爱视频在线| 久久精品这里有| 中文字幕一区二区三区久久网站| 亚洲欧美日韩国产中文| 最新国产精品自拍| 国产在线视频欧美一区| 欧美日韩专区在线| 麻豆传传媒久久久爱| h片在线观看下载| 亚洲精品中文在线影院| 一区二区欧美日韩| 国产精品二线| 久久久久久久久久久久久夜| 国产伦精品一区二区| 91精品中文字幕| 中文日韩欧美| 在线电影欧美日韩一区二区私密| 亚洲色图14p| 韩国成人在线| 欧美自拍偷拍一区| 成人小视频在线看| 好看的中文字幕在线播放| 99久久久精品| 国产精品一码二码三码在线| а√天堂资源在线| 青青青爽久久午夜综合久久午夜 | 99久久精品久久亚洲精品| 一区二区三区四区精品视频| 日韩视频123| 国产探花一区二区三区| 国产一区二区三区黄网站| 欧美老女人在线| 五月天婷婷激情视频| 7777kkk亚洲综合欧美网站| 国产精品家庭影院| 中文字幕一区二区三区在线乱码| 麻豆影视国产在线观看| 综合分类小说区另类春色亚洲小说欧美 | 国内精品模特av私拍在线观看| 欧美成人三级在线观看| 欧美 日韩 国产精品免费观看| 欧美成人高清视频| 日本少妇激情视频| 亚洲欧美卡通另类91av| 国产成人一区二区三区| 在线观看亚洲一区二区| 韩国欧美国产1区| a级国产乱理论片在线观看99| 亚洲伦理在线观看| 99国产麻豆精品| 日韩欧美国产二区| 久草免费在线观看| 一区二区在线免费观看| 国产特级淫片高清视频| 日韩国产激情| 91麻豆精品国产自产在线观看一区 | 色多多国产成人永久免费网站 | 国产高清在线一区| 天堂网在线播放| 久久久午夜精品| 久久久一二三四| av中文在线资源| 欧亚洲嫩模精品一区三区| 亚洲免费在线播放视频| 久久365资源| 中文字幕久久亚洲| 欧美片一区二区| 久久综合影视| av激情久久| 国产三级在线免费观看| 亚洲天堂精品视频| 黑鬼大战白妞高潮喷白浆| va天堂va亚洲va影视| 亚洲激情在线观看| 男人av资源站| 新67194成人永久网站| 成人国产在线视频| 日本福利在线观看| 亚洲免费在线观看视频| 999香蕉视频| 欧美日本三级| 最近2019年手机中文字幕| 九九九国产视频| 精品一区二区在线观看| 蜜桃av噜噜一区二区三区| 顶级网黄在线播放| 欧美亚洲动漫精品| 女同性恋一区二区三区| 在线中文字幕亚洲| 国产精品对白刺激| 色综合久久久久久| 亚洲免费电影在线| 天天干天天草天天| 色综合综合色| 97视频免费在线观看| 精品人妻一区二区三区四区不卡 | 亚洲国产精品久久久久秋霞蜜臀 | 国产精品黑丝在线播放| 庆余年2免费日韩剧观看大牛| www.日韩高清| 亚洲视频免费在线| 亚洲天堂2018av| 综合综合综合综合综合网| 欧美日韩成人免费| 国产三级精品在线观看| 国产日韩精品久久久| 成年人观看网站| 老牛国内精品亚洲成av人片| 九九综合九九综合| 国产免费无遮挡| 国产精品久久777777| 国产又大又黄又粗又爽| 精品久久影院| 国产97在线观看| 日本天堂影院在线视频| 亚洲成人精品一区二区| av在线天堂网| 黄色亚洲在线| 国产精品播放| 大香伊人久久| 精品国产91亚洲一区二区三区婷婷| 国精品无码一区二区三区| 狠狠色2019综合网| 中国一级黄色录像| 成年永久一区二区三区免费视频| 色婷婷av一区二区三区久久| 一本一道精品欧美中文字幕| 国产精品视频线看| www.com久久久| 亚洲a一区二区三区| 91热精品视频| 日韩另类在线| 精品国产1区2区3区| 久久免费在线观看视频| www.日韩av| 成人免费观看毛片| 国产一区二区在线| 国产精品高潮呻吟久久av野狼| 国产精品久久久久一区二区国产 | 亚洲精品第三页| 91精品观看| 不卡视频一区二区三区| аⅴ资源天堂资源库在线| 精品亚洲一区二区三区| 午夜一区二区三区四区| 国产精品欧美久久久久一区二区| 亚洲欧美久久久久| 中文精品久久| 国产伦视频一区二区三区| 擼擼色在线看观看免费| 亚洲片国产一区一级在线观看| 免费在线不卡av| 自拍偷在线精品自拍偷无码专区| 午夜性福利视频| 一本久久综合| 一本一本a久久| 亚洲一区二区三区免费| 欧美一级bbbbb性bbbb喷潮片| 成人免费高清在线播放| 欧美一区二区精美| 亚洲永久精品在线观看| 国产精品日韩成人| 中文字幕乱视频| 麻豆精品在线视频| 久久综合九色综合88i| 波多野结衣在线观看一区二区| 69堂成人精品视频免费| 日本美女一区| 九九久久综合网站| 午夜成人免费影院| 午夜精品久久久久久不卡8050| 自拍偷拍视频亚洲| 国产成人99久久亚洲综合精品| av免费播放网址| 91精品国产自产在线观看永久∴ | 日本aaa视频| 国产一区二区在线影院| 欧美成人xxxxx| 亚洲色图国产| 亚洲ai欧洲av| 亚洲区小说区图片区qvod| 97超级在线观看免费高清完整版电视剧| 日韩伦理在线一区| 欧美日韩第一视频| 777电影在线观看| 亚洲精品一二区| 亚洲精品福利网站| 91.com在线观看| 成人a v视频| 婷婷开心久久网| 男女免费视频网站| 中文字幕日韩欧美一区二区三区| aaaaa一级片| 不卡在线观看av| 久久无码人妻一区二区三区| 奇米888四色在线精品| avav在线看| 亚洲精选在线| 亚洲国产成人精品无码区99| 欧美 日韩 国产一区二区在线视频| 欧日韩一区二区三区| 猫咪成人在线观看| 国产91aaa| 在线视频亚洲欧美中文| 亚洲在线免费视频| 国产精品免费精品自在线观看| 国产精品久久久久久久久久ktv| 黄在线观看免费网站ktv| 久久久久久久一区二区| 色呦呦呦在线观看| 欧美美女18p| 欧美人与牲禽动交com| 久久国产加勒比精品无码| 黄网站在线免费| 不卡av日日日| 国产精品va在线观看视色| 日韩中文字幕免费| √新版天堂资源在线资源| 亚洲欧洲在线视频| porn视频在线观看| 日韩性xxxx爱| bt在线麻豆视频| 欧美风情在线观看| av免费不卡| 91精品国产91久久久久| 中国色在线日|韩| 国产97免费视| 欧美成人毛片| 91人人爽人人爽人人精88v| 电影中文字幕一区二区| 亚洲自拍欧美另类| 大奶在线精品| 精品福利影视| 欧美一区二区三| 一区精品在线| 韩日成人av| 免费国产黄色网址| 久久久精品午夜少妇| 欧美日韩在线免费播放| 久久国产精品99久久久久久老狼| 天天操狠狠操夜夜操| 国产精品系列在线播放| 亚洲欧美日韩偷拍| 国产亚洲一区字幕| 国产男女猛烈无遮挡在线喷水| 一区二区三区四区在线播放| 97免费在线观看视频| 欧美在线一二三| 99riav国产| 亚洲激情视频在线播放| 午夜激情视频在线| 久精品免费视频| 中文字幕在线高清| 成人免费视频a| 国产一级成人av| 蜜桃视频日韩| 婷婷中文字幕一区| 野外做受又硬又粗又大视频√| 性8sex亚洲区入口| 欧美人与性动交α欧美精品| 99久久99久久精品国产片果冻| 日本理论中文字幕| 亚洲综合激情网| 亚洲性猛交富婆| 欧美xxx久久| av在线免费一区| 久久久久久噜噜噜久久久精品| 毛片免费看不卡网站| 91一区二区三区| 激情综合网五月| 欧美与动交zoz0z| 男人的天堂成人在线| 成人性生交视频免费观看| 久久婷婷综合激情| 激情小说中文字幕| 欧美中文字幕一区二区三区亚洲| 黄频在线免费观看| 日韩中文在线中文网在线观看| xxxx成人| 91视频免费网站| 欧美极品在线观看| 欧美日韩福利在线| 激情亚洲综合在线| 日本二区在线观看| 亚洲福利视频一区二区| 国产精品免费无遮挡| 亚洲欧美中文日韩在线v日本| 日韩少妇视频| 亚洲xxx自由成熟| 91视频久久| 韩国一区二区av| 99re热这里只有精品视频| 91杏吧porn蝌蚪| 欧美日韩国产首页在线观看| 蜜桃成人在线视频| 97av在线视频| 成人台湾亚洲精品一区二区 | 视频一区二区中文字幕| 手机在线成人av| 亚洲综合一区在线| 亚洲天堂一二三| 亚洲欧美在线一区| 日本不卡网站| 加勒比在线一区二区三区观看| 精品成人一区| 精品伦一区二区三区| 亚洲三级电影网站| 国产女人18毛片水18精| 日韩在线观看免费网站| 99精品在免费线偷拍| 日韩高清dvd| 热久久国产精品| 综合 欧美 亚洲日本| 欧美日韩亚洲综合在线| av在线电影网| 国产一区私人高清影院| 色中色综合网| 日韩va在线观看| 中文字幕成人在线观看| 怡红院男人的天堂| 中文字幕日韩欧美| 亚洲爽爆av| 九一免费在线观看| 成人av在线电影| 91国产丝袜播放在线| 亚洲美女性生活视频| 亚洲承认视频| 亚洲一区尤物| 国产乱色国产精品免费视频| 久久99久久98精品免观看软件 | 黄页视频在线播放| 亚洲专区国产精品| 亚洲国产裸拍裸体视频在线观看乱了中文| 人妻换人妻a片爽麻豆| 一本一道波多野结衣一区二区| 国产三级在线观看| 成人网在线免费看| 亚洲无线视频| 欧美图片一区二区| 欧美色男人天堂| 在线你懂的视频| 精品视频一区二区| 日韩成人av影视| 中文字幕在线2021| 亚洲韩国欧洲国产日产av| 日本电影欧美片| 欧美性受黑人性爽| 懂色av一区二区夜夜嗨| 国产污视频在线看| 亚洲精品网址在线观看| 台湾天天综合人成在线| 800av在线免费观看| 久久蜜桃一区二区| 国产日韩精品suv| 欧美一二三视频| 久久久久久久久国产一区| 完美搭档在线观看| 欧洲国内综合视频| 羞羞视频在线免费国产| 国产欧美亚洲日本| 麻豆国产欧美日韩综合精品二区| 国产免费久久久久| 精品国产乱码久久久久久1区2区| 日韩制服诱惑| 免费看黄色a级片| 99国产精品一区| 国产欧美一区二区三区视频在线观看| 992tv在线成人免费观看| 日韩一区二区三区免费播放| 亚洲成年人av| 欧美日韩国产三级| av免费不卡国产观看| 亚洲精品影院| aaa亚洲精品| 国产视频一区二区三| 日本亚洲欧美三级|