大模型碰到真難題了，測(cè)了500道，o3 Pro僅通過(guò)15%

2025-09-15 09:12:00

來(lái)自斯坦福大學(xué)、華盛頓大學(xué)等機(jī)構(gòu)的研究者探索了一種截然不同的方式：在未解決的問(wèn)題上評(píng)估模型的能力。

基準(zhǔn)測(cè)試是檢驗(yàn)大模型能力的一種方式，一般而言，一個(gè)有用的基準(zhǔn)既要足夠難，又要貼近現(xiàn)實(shí)：?jiǎn)栴}既能挑戰(zhàn)前沿模型，又要反映真實(shí)世界的使用場(chǎng)景。

然而，現(xiàn)有測(cè)試面臨著「難度–真實(shí)性」的矛盾：側(cè)重于考試的基準(zhǔn)往往被人為設(shè)置得很難，但實(shí)際價(jià)值有限；而基于真實(shí)用戶(hù)交互的基準(zhǔn)又往往偏向于簡(jiǎn)單的高頻問(wèn)題。

在此背景下，來(lái)自斯坦福大學(xué)、華盛頓大學(xué)等機(jī)構(gòu)的研究者探索了一種截然不同的方式：在未解決的問(wèn)題上評(píng)估模型的能力。

與一次性打分的靜態(tài)基準(zhǔn)不同，該研究不斷收集未解決的問(wèn)題，然后通過(guò)驗(yàn)證器輔助篩選與社區(qū)驗(yàn)證機(jī)制，實(shí)現(xiàn)對(duì)模型的持續(xù)異步評(píng)估。

具體而言，本文提出了 UQ（Unsolved Questions），這是一個(gè)由 500 道題組成的測(cè)試集，涵蓋計(jì)算機(jī)理論、數(shù)學(xué)、科幻、歷史等主題，用于考察模型在推理、事實(shí)準(zhǔn)確性以及瀏覽等方面的能力。UQ 在設(shè)計(jì)上兼具難度大與貼近真實(shí)兩大特點(diǎn)：這些問(wèn)題大多是人類(lèi)遇到但尚未解決的難題，因此攻克它們可直接產(chǎn)生現(xiàn)實(shí)價(jià)值。

論文標(biāo)題：UQ: Assessing Language Models on Unsolved Questions
論文地址：https://arxiv.org/pdf/2508.17580v1
項(xiàng)目地址：https://uq.stanford.edu/

總結(jié)而言，本文貢獻(xiàn)如下：

提出了 UQ 數(shù)據(jù)集及其收集流程：結(jié)合規(guī)則過(guò)濾器、大語(yǔ)言模型評(píng)審以及人工審核，以確保最終問(wèn)題的質(zhì)量；
UQ-Validators：復(fù)合驗(yàn)證策略，利用生成器–驗(yàn)證器之間的能力差距來(lái)構(gòu)建無(wú)真值驗(yàn)證系統(tǒng)（一般而言模型驗(yàn)證能力優(yōu)于生成能力），并對(duì)候選答案進(jìn)行預(yù)篩選，以便后續(xù)人工審核；
UQ-Platform：一個(gè)開(kāi)放平臺(tái)，讓專(zhuān)家能夠共同驗(yàn)證問(wèn)題與答案，從而實(shí)現(xiàn)持續(xù)的、異步的、社區(qū)驅(qū)動(dòng)的評(píng)估。

實(shí)驗(yàn)中，表現(xiàn)最好的模型僅在 15% 的問(wèn)題上通過(guò)了 UQ 驗(yàn)證，而初步人工核查已經(jīng)在這些通過(guò)驗(yàn)證的答案中識(shí)別出一些正確解答。

數(shù)據(jù)集介紹

UQ 數(shù)據(jù)集由 500 道具有挑戰(zhàn)性的未解決問(wèn)題組成，問(wèn)題來(lái)源問(wèn)答社區(qū) Stack Exchange，并且是經(jīng)過(guò)三輪篩選得到的。

在篩選流程上，本文首先人工選擇了 80 個(gè) Stack Exchange 社區(qū)（例如 Math Overflow、Physics），并抓取其中未解答的問(wèn)題，得到大約 300 萬(wàn)個(gè)原始候選問(wèn)題。

隨后，進(jìn)入多階段篩選流程。篩選的每一階段都會(huì)逐步縮小問(wèn)題池：基于規(guī)則的篩選將問(wèn)題縮減至 33,916 個(gè)（占原始問(wèn)題池的 1.13%）；基于大語(yǔ)言模型的篩選進(jìn)一步縮減至 7,685 個(gè)（占原始的 0.26%）；最終通過(guò)人工審核（如剔除殘留的重復(fù)、過(guò)于簡(jiǎn)單、偏題或違反規(guī)則的問(wèn)題），得到一個(gè)精心整理的 500 道題集（占原始的 0.02%）。

隨著問(wèn)題在篩選流程中逐步推進(jìn)，它們的難度和質(zhì)量也在逐漸提升。尤其是基于大語(yǔ)言模型的篩選，顯著提高了問(wèn)題的難度。

數(shù)據(jù)集組成如下所示，主要包含科學(xué)類(lèi)問(wèn)題，其次是技術(shù)類(lèi)與生活藝術(shù)類(lèi)。本文還發(fā)現(xiàn)不同領(lǐng)域的問(wèn)題能探測(cè)模型的不同能力：例如數(shù)學(xué)問(wèn)題通常需要開(kāi)放式證明，而科幻奇幻類(lèi)問(wèn)題則偏重瀏覽檢索能力（如根據(jù)片段情節(jié)識(shí)別書(shū)籍名稱(chēng)）。

一旦某個(gè)問(wèn)題被判定為已解決，研究者就會(huì)在后續(xù)版本中將該問(wèn)題移除，并用新的未解決問(wèn)題替換。

UQ 驗(yàn)證器

雖然 UQ 數(shù)據(jù)集非常具有價(jià)值，但要將其用作模型性能的基準(zhǔn)，仍需配套的評(píng)分指標(biāo)。然而，由于缺乏標(biāo)準(zhǔn)答案，無(wú)法像考試基準(zhǔn)那樣進(jìn)行自動(dòng)驗(yàn)證。

因此，本文轉(zhuǎn)向無(wú)監(jiān)督驗(yàn)證器，即無(wú)需標(biāo)準(zhǔn)答案。由于未解問(wèn)題往往極具挑戰(zhàn)性，這些驗(yàn)證器的主要目標(biāo)并非證明某個(gè)候選答案正確，而是排除錯(cuò)誤的候選答案；因此，本文刻意使用 validator（驗(yàn)證器）一詞，而非 judge 或 verifier。

需要特別指出的是，由于缺少標(biāo)準(zhǔn)答案，這類(lèi)驗(yàn)證器本身可能經(jīng)常出錯(cuò)，但它們?nèi)阅茉诤罄m(xù)人工審核中發(fā)揮輔助作用。

據(jù)了解，本文之所以開(kāi)發(fā)無(wú)需標(biāo)準(zhǔn)答案的驗(yàn)證器，核心動(dòng)機(jī)在于這樣一個(gè)假設(shè)：對(duì)難題候選答案進(jìn)行驗(yàn)證可能比生成這些答案更容易。實(shí)驗(yàn)中采用了這樣的流程，讓一系列能力遞增的模型（例如 o3-mini → o4-mini → o3）回答這 500 道題，記錄它們的答題準(zhǔn)確率；接著，讓每個(gè)模型在不接觸標(biāo)準(zhǔn)答案的情況下，驗(yàn)證其他所有模型給出的答案；最后，用真實(shí)答案對(duì)這些驗(yàn)證結(jié)論進(jìn)行打分，計(jì)算驗(yàn)證準(zhǔn)確率。

圖 5 左顯示：隨著模型能力的提升，它們?cè)隍?yàn)證準(zhǔn)確率上的進(jìn)步速度明顯快于答題準(zhǔn)確率。

實(shí)驗(yàn)中使用的驗(yàn)證器 pipeline：

實(shí)驗(yàn)及結(jié)果

實(shí)驗(yàn)評(píng)估了 5 個(gè)模型，包括 o3、o4-mini、o3-mini、Gemini 2.5 Pro 和 Claude 3.7 Sonnet。

表 1 結(jié)果顯示，與原始基線相比，驗(yàn)證策略能夠?qū)嵸|(zhì)性地提高驗(yàn)證的準(zhǔn)確率和精度。例如，對(duì) Claude 3.7 Sonnet 而言，準(zhǔn)確率從 21.6% 提升到 73.2%，精度從 13.26% 提升到 20%，但往往是以召回率下降為代價(jià)。

為了確認(rèn)最終得到的最佳 UQ 驗(yàn)證器對(duì)人類(lèi)評(píng)審者有幫助，該研究邀請(qǐng)若干評(píng)審員對(duì) 25 個(gè)驗(yàn)證問(wèn)題進(jìn)行評(píng)分，判斷其給出的判斷理由鏈?zhǔn)欠裨谶壿嬌铣闪ⅰ１?2 顯示，人類(lèi)評(píng)審與驗(yàn)證器的一致率及理由鏈的準(zhǔn)確性都很高，表明該驗(yàn)證器能為人類(lèi)評(píng)審者提供有效支持。

將大語(yǔ)言模型用于答案驗(yàn)證時(shí)，另一個(gè)挑戰(zhàn)是它們常常表現(xiàn)出明顯的評(píng)估偏見(jiàn)。當(dāng)研究者把前沿模型直接應(yīng)用于本場(chǎng)景時(shí)，發(fā)現(xiàn)所有模型在評(píng)估自身或同系模型（即同一開(kāi)發(fā)者的模型）時(shí)，都出現(xiàn)了過(guò)度樂(lè)觀現(xiàn)象：預(yù)測(cè)出的模型性能遠(yuǎn)高于實(shí)際性能，如圖 7 所示。

Gemini 明顯偏向自身，相對(duì)于其他模型給出顯著更高的評(píng)分；
Claude 對(duì)所有答案模型（不僅僅是自身）都表現(xiàn)出過(guò)度樂(lè)觀；
OpenAI 的 o 系列模型則對(duì)其他 o 系列同門(mén)模型給出過(guò)高評(píng)價(jià)。

隨著模型能力遞增（o3-mini → o3），這種偏見(jiàn)雖有所降低，但并未徹底消除。

本文進(jìn)一步發(fā)現(xiàn)，采用復(fù)合驗(yàn)證器能夠顯著削弱答案驗(yàn)證中的自我偏見(jiàn)與過(guò)度樂(lè)觀。

最后，本文還發(fā)現(xiàn)，一個(gè)更強(qiáng)的答案生成模型并不一定就是更強(qiáng)的答案驗(yàn)證模型。

本文通過(guò)基線提示法和 3 輪迭代驗(yàn)證流程繪制了模型在 500 個(gè) HLE 問(wèn)題上的驗(yàn)證準(zhǔn)確率與答案準(zhǔn)確率關(guān)系圖。雖然更好的答案性能通常預(yù)示著更好的驗(yàn)證性能（整體呈上升趨勢(shì)），但并非絕對(duì)。

例如：在沒(méi)有流程驗(yàn)證時(shí)，o3 作為答案模型弱于 Gemini 2.5 Pro，但作為驗(yàn)證模型卻更強(qiáng)；采用流程驗(yàn)證后，o3-mini 與 Claude 3.7 Sonnet 之間觀察到同樣的逆轉(zhuǎn)趨勢(shì)。此外，盡管 Claude 3.7 Sonnet 在答案準(zhǔn)確率上顯著落后于 Gemini 2.5 Pro，但其基于流程驗(yàn)證的表現(xiàn)卻超越了 Gemini 2.5 Pro 的基線驗(yàn)證性能。

了解更多內(nèi)容，請(qǐng)參考原論文。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

AI 大模型測(cè)試