3B模型性能小鋼炮,“AI下半場應(yīng)該訓(xùn)練+驗(yàn)證兩條腿跑步”丨上海AI Lab&澳門大學(xué)
當(dāng)大模型把人類曾經(jīng)的終極考題變成日常練習(xí),AI的奔跑卻悄悄瘸了腿——
訓(xùn)練能力突飛猛進(jìn),驗(yàn)證答案的本事卻成了拖后腿的短板。
為此,上海AI Lab和澳門大學(xué)聯(lián)合發(fā)布通用答案驗(yàn)證模型CompassVerifier與評測集VerifierBench。填補(bǔ)了Verifier領(lǐng)域沒有建立驗(yàn)證->提升->驗(yàn)證的循環(huán)迭代體系的空白。

讓AI在下半場中終于能邁開訓(xùn)練與驗(yàn)證的兩條腿往前沖。
AI的下半場應(yīng)該兩條腿跑步
隨著OpenAI o系列,DeepSeek R1以及馬斯克新發(fā)的Grok-4等模型慢慢讓“人類最后的考試”變成 “大模型的上一次考試”,RL在推理模型上的勝利貌似為AGI的道路添加了一塊厚厚的基石。
強(qiáng)推理模型在人類頂級水平競賽上大殺四方,屢次超過人類頂級專家的現(xiàn)在,我們不禁要思考,AI的上半場是不是已經(jīng)結(jié)束了,下半場的游戲又將如何開始。
△圖片來自O(shè)penai前研究員Jason Wei,高難度數(shù)據(jù)集正在迅速被模型們“吞噬殆盡”
最近,來自清華姚班的姚順雨提出了他對AI下半場的思考:
那么接下來會發(fā)生什么?人工智能的“下半場”——從現(xiàn)在開始——將從解決問題轉(zhuǎn)向定義問題。在這個新時代,評估變得比訓(xùn)練更重要。我們不再只是問“我們能訓(xùn)練一個模型來解決X問題嗎?”,而是問“我們應(yīng)該訓(xùn)練人工智能做什么?我們?nèi)绾魏饬空嬲倪M(jìn)展?”為了在“下半場”蓬勃發(fā)展,我們需要及時轉(zhuǎn)變思維方式和技能,或許更接近產(chǎn)品經(jīng)理的水平。
OpenAI的前研究員Jason Wei也在他最新的Blog中提出驗(yàn)證者定律,他發(fā)現(xiàn)幾乎任何可測量的事物都可以被優(yōu)化。
用強(qiáng)化學(xué)習(xí)(RL)的術(shù)語來說,驗(yàn)證解決方案的能力等同于創(chuàng)建強(qiáng)化學(xué)習(xí)環(huán)境的能力。因此,我們有:
訓(xùn)練AI解決某個任務(wù)的難易程度與該任務(wù)的可驗(yàn)證性成正比。所有可解決且易于驗(yàn)證的任務(wù),都將被AI解決。
我們可以把AI開發(fā)想象成一場射擊比賽。
過去,我們癡迷于優(yōu)化射手(模型)的射擊技巧(訓(xùn)練算法)。但現(xiàn)在我們發(fā)現(xiàn),真正決定勝負(fù)的,首先是“定義靶心”(定義問題),其次是擁有一套清晰的計分規(guī)則(評估體系)。
從根本上說,這位射手的進(jìn)步速度,不可能超過他看清自己射擊結(jié)果的速度。同理,AI的進(jìn)化邊界,被“結(jié)果驗(yàn)證”的速度和客觀性牢牢鎖定了。
這解釋了為何AI在規(guī)則明確、結(jié)果清晰的游戲中能超越人類,但在需要復(fù)雜、主觀鑒賞的領(lǐng)域卻進(jìn)展緩慢。
△通過引入額外信息來解決模型驗(yàn)證中不確定性
那么如何讓驗(yàn)證更加容易,從而推進(jìn)模型能力在多領(lǐng)域問題上的訓(xùn)練與提升呢?
在大語言模型(LLM)飛速發(fā)展的今天,從數(shù)學(xué)推理到知識問答,模型的能力邊界不斷拓展,模型的訓(xùn)練數(shù)據(jù)與范式日益繁雜。
然而,如何客觀、高效地驗(yàn)證這些模型輸出的正確性,始終沒有獲得足夠且深入的探索。
如果說模型在奔向 AGI 的道路中,一條腿是訓(xùn)練,那另一條腿必然是驗(yàn)證,目前的訓(xùn)練范式下,大模型卻往往是在跛著腳前進(jìn)。
△驗(yàn)證與訓(xùn)練間的不平衡現(xiàn)象
為了幫助大模型快步跑進(jìn)AI下半場,來自上海AI Lab和澳門大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn),目前大模型驗(yàn)證領(lǐng)域缺乏合理的迭代體系,很長一段時間以來社區(qū)的目光過于集中在大模型的推理能力提升上,但卻忽視了大模型對答案正確性的驗(yàn)證能力也是大模型能力的一環(huán)。
具體的,首先是缺乏性能強(qiáng)的,具有跨領(lǐng)域答案驗(yàn)證能力的驗(yàn)證模型,其次模型的答案驗(yàn)證能力無法被有效評估。
驗(yàn)證->提升->驗(yàn)證的循環(huán)迭代體系還沒有在Verifier領(lǐng)域被建立。
為了填補(bǔ)這一空白,團(tuán)隊(duì)基于OpenCompass這一強(qiáng)大的開源評測體系,推出了通用答案驗(yàn)證模型 CompassVerifier以及答案驗(yàn)證評測集VerifierBench。
CompassVerifier:助力大語言模型訓(xùn)練測評“兩條腿跑步”
當(dāng)前LLM的答案驗(yàn)證方法深陷雙重困境:
第一,規(guī)則依賴的脆弱性:傳統(tǒng)方法依賴人工定制正則匹配規(guī)則,例如提取”The answer is”后的內(nèi)容進(jìn)行比對,或用專用工具校驗(yàn)數(shù)學(xué)公式。
但面對多步驟問題、復(fù)雜公式、序列答案等形式,這些規(guī)則稍遇格式變化就可能會失效。另外,基于規(guī)則的方式難以擴(kuò)展,如基于數(shù)學(xué)領(lǐng)域的規(guī)則驗(yàn)證器無法簡單遷移到化學(xué)領(lǐng)域,手動適配費(fèi)時費(fèi)力。
其次,通用模型的不可靠性:用GPT-4o、DeepSeek-V3等大模型作為驗(yàn)證器時,需要為不同任務(wù)反復(fù)調(diào)整提示詞,且模型容易陷入”幻覺”——例如將語義等價的不同公式判定為錯誤,或因推理鏈中的細(xì)微偏差否定正確答案。
另外,哪怕使用強(qiáng)推理模型用同樣的Prompt進(jìn)行驗(yàn)證,也會存在不同模型的偏好而導(dǎo)致判罰尺度不同而導(dǎo)致完全不同的驗(yàn)證結(jié)果(如近似答案是否正確,遺漏了非關(guān)鍵內(nèi)容,如數(shù)值單位是否正確)。
最后,大多數(shù)研究者只能使用小尺寸的開源模型進(jìn)行答案驗(yàn)證,這也在一定程度上限制了驗(yàn)證的性能。

△CompassVerifier&VerifierBench構(gòu)建pipeline
在初期對通用模型的驗(yàn)證能力調(diào)研中,以Qwen2.5-32B對MATH數(shù)據(jù)集的驗(yàn)證為例,研究人員發(fā)現(xiàn)總有大約 3%~5%的樣例模型會重復(fù)判斷錯誤,而這些疑難Case可能就是導(dǎo)致通用模型驗(yàn)證能力不穩(wěn)定的根本因素。
為了全面篩選出這些疑難Case,研究團(tuán)隊(duì)基于OpenCompass框架,從50多個大語言模型在15個數(shù)據(jù)集上的一百余萬份回復(fù)中,通過一個大規(guī)模、多階段的篩選流程精選數(shù)據(jù):
- 流程初始階段采用多模型投票機(jī)制,利用多個中小型開源模型及特定領(lǐng)域的規(guī)則驗(yàn)證器進(jìn)行初步判斷。此階段的目標(biāo)是識別并排除各模型能達(dá)成共識的簡單樣本,從而聚焦于更具區(qū)分度的案例。
- 隨后,存有爭議的樣本進(jìn)入多提示詞驗(yàn)證階段。該階段借助DeepSeek-V3模型,通過多樣化的思維鏈(CoT)推理路徑進(jìn)行深入分析,篩選出的共識樣本被納入訓(xùn)練數(shù)據(jù)池。針對特定數(shù)據(jù)集,還引入了領(lǐng)域優(yōu)化的提示詞以提升驗(yàn)證精度。
- 最終,剩余的疑難樣本由人類專家進(jìn)行終審分析。專家將其中高價值的案例遴選至測試集,并嚴(yán)格排除了證明題、開放題等難以進(jìn)行二元判斷的問題,以保證評測的客觀性與準(zhǔn)確性。此外,標(biāo)注過程還對錯誤原因進(jìn)行了歸納,形成了元錯誤模板庫。
借助以上流程,研究人員訓(xùn)練收集得到了通用答案驗(yàn)證模型CompassVerifier以及答案驗(yàn)證評測集VerifierBench。
CompassVerifier是一個多域通用、高魯棒性的答案驗(yàn)證器,其核心設(shè)計理念是輕量而強(qiáng)大——它基于Qwen系列模型優(yōu)化,參數(shù)規(guī)模從3B到32B不等,卻能在數(shù)學(xué)、知識、科學(xué)推理等多領(lǐng)域?qū)崿F(xiàn)超越通用大模型的驗(yàn)證精度。
研究團(tuán)隊(duì)使用了三種方式進(jìn)行數(shù)據(jù)增強(qiáng)與數(shù)據(jù)合成,進(jìn)一步提升答案驗(yàn)證能力。
1、錯誤驅(qū)動的對抗性增強(qiáng):直擊驗(yàn)證盲區(qū)
研究團(tuán)隊(duì)通過人工分析5000余個驗(yàn)證失敗案例,總結(jié)出20余種高頻錯誤模式(如公式等價性誤判、格式嚴(yán)苛性偏差等),并據(jù)此針對性的合成多領(lǐng)域的訓(xùn)練數(shù)據(jù)。
例如,對于標(biāo)準(zhǔn)答案為”A. 北京”的選擇題,當(dāng)模型常將”A. 上海”判定為等價時,增強(qiáng)數(shù)據(jù)會刻意納入此類選項(xiàng)正確但內(nèi)容錯誤的樣例,糾正模型對于選擇題的答案驗(yàn)證。
2、復(fù)雜公式增強(qiáng):破解數(shù)學(xué)驗(yàn)證難題
針對公式驗(yàn)證這一難點(diǎn),CompassVerifier借助強(qiáng)推理模型對常見科學(xué)學(xué)科生成大量等價公式變體(如符號重排、精度轉(zhuǎn)換、整數(shù)與分?jǐn)?shù)互轉(zhuǎn)等),并進(jìn)一步通過自驗(yàn)證判斷公式的的數(shù)學(xué)等價性,最終構(gòu)建為增強(qiáng)訓(xùn)練數(shù)據(jù)。
這使得模型能輕松識別x2+2x+1與(x+1)2的等價關(guān)系,即使表達(dá)方式截然不同。
3、泛化性增強(qiáng):跨域跨格式的“適應(yīng)力”
通過整合20余種任務(wù)類型的提示詞變體(如零樣本/少樣本提示、不同語言風(fēng)格指令),同時在訓(xùn)練數(shù)據(jù)中整合了不同的Prompt和推理路徑。
CompassVerifier可以實(shí)現(xiàn)直接答案驗(yàn)證和帶簡短推理過程的答案驗(yàn)證,擺脫了對特定提示格式的依賴,讓用戶可以了解到其打分的具體原因。
無論是中文問答、英文數(shù)學(xué)題,還是混合格式的多步驟問題,使用不同的提示詞輸入它都能保持穩(wěn)定的驗(yàn)證性能。
同時,研究團(tuán)隊(duì)也專門針對Large Reasoning Model (LRM)的模型回復(fù)進(jìn)行了增強(qiáng),對同一大模型回復(fù)通過截斷不同比例的思考過程、去除思考過程、替換思考標(biāo)簽等方式,使用同一驗(yàn)證輸出,迫使模型只關(guān)注最終的結(jié)論和答案部分,忽略思考過程的任何偏差和波動。
△CompassVerifier 針對性數(shù)據(jù)增強(qiáng)
VerifierBench:針對驗(yàn)證模型的多領(lǐng)域、高難度基準(zhǔn)
社區(qū)一直缺乏一個針對可驗(yàn)證答案、標(biāo)準(zhǔn)化、高難度的基準(zhǔn)來衡量不同驗(yàn)證方法的驗(yàn)證能力,無法衡量不同模型的性能。
這使得研究者在使用通用LLM模型進(jìn)行答案驗(yàn)證時,只能根據(jù)經(jīng)驗(yàn)或者是模型的尺寸來選擇模型。
為了系統(tǒng)評估驗(yàn)證器的能力,研究團(tuán)隊(duì)構(gòu)建了包含2817個經(jīng)由人類專家標(biāo)注的高質(zhì)量的 VerifierBench基準(zhǔn)。該數(shù)據(jù)集覆蓋三大特點(diǎn):
- 多域覆蓋:包含數(shù)學(xué)推理(如GSM8K、AIME)、知識問答(如MMLU-Pro)、科學(xué)推理(如GPQA、HLE)等數(shù)據(jù)和場景;
- 復(fù)雜答案類型:涵蓋選擇題、公式、多子問題、序列答案等7類形式,其中序列答案和多子問題等答案類型因需要逐元素比對,使其更高難度和更具挑戰(zhàn)性。
- 無效樣本標(biāo)注:首次明確標(biāo)注”無效響應(yīng)”(如截斷輸出、重復(fù)文本、模型拒答),填補(bǔ)了答案驗(yàn)證中對異常情況評估的空白。
多領(lǐng)域、高精準(zhǔn)、魯棒的答案驗(yàn)證能力
在VerifierBench上,CompassVerifier-32B(Based Qwen2.5) 的平均準(zhǔn)確率達(dá)到90.8%,F(xiàn)1分?jǐn)?shù)87.7%,超過DeepSeek-V3和GPT-4等大尺寸模型。
即使是3B的輕量版本,也能超越大規(guī)模的通用模型,展現(xiàn)出極高的參數(shù)效率。
△VerifierBench 效果對比
在同期公開的VerifyBench基準(zhǔn)測試中,CompassVerifier同樣展現(xiàn)出全面領(lǐng)先的性能,其表現(xiàn)不僅超越了不同參數(shù)規(guī)模的通用大模型,也優(yōu)于其他專用答案驗(yàn)證模型,充分彰顯了該模型在領(lǐng)域外場景的強(qiáng)大泛化能力與穩(wěn)健性。
值得注意的是,即便面對未經(jīng)訓(xùn)練的全新指令,CompassVerifier仍能保持高性能水平,進(jìn)一步印證了其在復(fù)雜驗(yàn)證場景中的可靠性。

△VerifyBench 效果對比
從Evaluation到RLVR:驗(yàn)證器的“雙重身份”
CompassVerifier的價值遠(yuǎn)不止于評估環(huán)節(jié),它更能直接作為強(qiáng)化學(xué)習(xí)(RL)的獎勵模型,為大語言模型的迭代優(yōu)化提供精準(zhǔn)反饋。
在數(shù)學(xué)推理任務(wù)中,研究團(tuán)隊(duì)采用GRPO算法進(jìn)行訓(xùn)練時,以CompassVerifier作為獎勵模型,使Qwen3-4B-Base模型在AIME24數(shù)據(jù)集上的性能提升18.5 分。
在MATH500數(shù)據(jù)集上提升49.2分,其提升幅度遠(yuǎn)超基于規(guī)則的Math-Verify工具及通用大模型作為獎勵模型時的效果。
△采用不同 Verifier 模型 GRPO 效果對比
這一顯著優(yōu)勢源于CompassVerifier所能提供的獎勵信號具備更高的精準(zhǔn)度與魯棒性。
它不僅能直接判定答案的正誤,也可以精準(zhǔn)識別無效響應(yīng)(如截斷輸出、重復(fù)文本等)并施加更嚴(yán)厲的懲罰,有效避免模型在訓(xùn)練中通過 “走捷徑” 規(guī)避復(fù)雜推理。
可以說,CompassVerifier為數(shù)學(xué)、知識問答、科學(xué)推理等具有明確標(biāo)準(zhǔn)答案的多領(lǐng)域強(qiáng)化學(xué)習(xí)訓(xùn)練, 也提供了更為強(qiáng)大的技術(shù)支撐。
隨著AI下半場的開始,AI大模型的進(jìn)步方式可能慢慢會超出人類所理解的學(xué)習(xí)范式。
在不遠(yuǎn)的將來,模型可能完全根據(jù)自己的理解來進(jìn)行自我Verify而非借助人類給予的“Golden”標(biāo)簽,模型可能會完成高效且高質(zhì)量的Self-verify -> Self-improve -> Self-verify …
就像人類跑步時的左腳右腳一樣,以實(shí)現(xiàn)真正的AGI,完成AI自己的馬拉松。
論文地址:https://arxiv.org/abs/2508.03686
項(xiàng)目主頁:https://open-compass.github.io/CompassVerifier
Github:https://github.com/open-compass/CompassVerifier
Model & Dataset:https://huggingface.co/collections/opencompass/compassverifier-686e5a25e8672e603b17c666






































