2025 IMO真題撕碎AI數(shù)學(xué)神話，全球頂尖模型齊翻車！冠軍銅牌都拿不到

2025-07-18 13:41:39

AI做奧數(shù)的神話，剛剛被戳破了！最新出爐的2025 IMO數(shù)學(xué)競(jìng)賽中，全球頂尖AI模型無一例外翻車了。即便是冠軍Gemini也只拿下可憐的31分，連銅牌都摸不到。Grok-4更是擺爛到底，連DeepSeek-R1都令人失望。看來，AI想挑戰(zhàn)人類奧數(shù)大神，還為時(shí)尚早。

如果你以為，如今的LLM已經(jīng)無所不能，那剛剛出爐的2025大模型數(shù)學(xué)競(jìng)賽結(jié)果，恐怕要讓你大跌眼鏡了。

現(xiàn)在，各模型的分?jǐn)?shù)已經(jīng)在MathArena上發(fā)布。

怎么說呢，所有大模型都翻車了。

即使得分最高的冠軍Gemini，也只拿到了31%的分?jǐn)?shù)。憑這個(gè)成績(jī)，連拿銅牌都不大可能。

也就是說，AI想超越目前頂級(jí)的人類數(shù)學(xué)選手，還差得遠(yuǎn)呢。

蘇黎世聯(lián)邦理工學(xué)院SRI實(shí)驗(yàn)室的博士生Jasper Dekoninck，發(fā)了一篇博客記錄此次大賽的詳細(xì)過程。

大模型參加數(shù)學(xué)競(jìng)賽，全部翻車！

在今年4月，來自ETH Zurich等機(jī)構(gòu)的MathArena團(tuán)隊(duì)，就曾推翻AI會(huì)做數(shù)學(xué)題這個(gè)神話。

當(dāng)時(shí)他們發(fā)現(xiàn)，在美國(guó)數(shù)學(xué)奧賽上，頂級(jí)AI模型得分不足5%，當(dāng)時(shí)的DeepSeek-R1還是冠軍來著，得分4.76%。

而在這屆2025國(guó)際數(shù)學(xué)奧林匹克（IMO）上，全球的AI頂流們又齊聚一堂了。

為了測(cè)驗(yàn)AI們的數(shù)學(xué)能力天花板，MathArena項(xiàng)目組這次祭出了數(shù)學(xué)界的終極boss——2025年IMO真題。

國(guó)際學(xué)生奧林匹克競(jìng)賽（IMO）是全球18歲以下數(shù)學(xué)學(xué)生的頂尖賽事。參賽者都經(jīng)過了大量訓(xùn)練，每道題都有數(shù)小時(shí)的解答時(shí)間。

IMO真題是什么水平呢？它們能難倒全球數(shù)學(xué)能力最頂尖的高中生，甚至還能分分鐘勸退無數(shù)大學(xué)數(shù)學(xué)教授。

在2024年，美國(guó)隊(duì)的六名參賽者得分在87-99%之間。而陶哲軒在13歲時(shí)，就獲得了IMO的金牌。

這次，組委會(huì)希望了解，這些大模型是否能達(dá)到拿到奧數(shù)獎(jiǎng)牌的里程碑級(jí)別，比如銅牌（前50%）、銀牌（前25%）甚至金牌（前8%）。

另外，為了防止「開卷作弊」這個(gè)問題，評(píng)測(cè)團(tuán)隊(duì)特意選了一個(gè)巧妙的時(shí)間：題目剛剛發(fā)布，他們就開始讓AI們答題了，所以這些大模型不太可能在數(shù)據(jù)集中提前見過這些數(shù)學(xué)題。

可以說，這些基準(zhǔn)測(cè)試是既未受污染，又是可解釋的。

而AI們的所有答案，都是由兩位奧數(shù)專家評(píng)委雙盲評(píng)分的，標(biāo)準(zhǔn)的嚴(yán)苛程度堪比IMO官方。每道題滿分7分。

此次的參賽選手，陣容也是空前豪華，堪稱是AI界的夢(mèng)之隊(duì)。

· o3（OpenAI扛把子）

· o4-mini（OpenAI小鋼炮）

· Gemini 2.5 Pro（谷歌第一大將）

· Grok-4（馬斯克家的理工男）

· DeepSeek-R1（國(guó)產(chǎn)尖子生）

之所以選擇這五位參賽選手，是因?yàn)樗鼈兇饲岸荚贛athArena中有出色的表現(xiàn)。

其中，每個(gè)模型都使用推薦的超參數(shù)運(yùn)行，并且設(shè)置了64000的最大token限制。

Prompt如下——

你的任務(wù)是為以下問題寫出一個(gè)證明解決方案。你的證明將由人工評(píng)委根據(jù)準(zhǔn)確性、全面性和清晰性進(jìn)行評(píng)分。在撰寫證明時(shí)，請(qǐng)遵循以下指南：
-你正在撰寫一份證明，而不是證明大綱。每一步都應(yīng)該仔細(xì)解釋并記錄。如果解釋不充分，評(píng)委將認(rèn)為你無法解釋清楚，從而降低你的分?jǐn)?shù)。
-你可以使用通用的定理和引理，但前提是它們必須是眾所周知的。一個(gè)簡(jiǎn)單的判斷標(biāo)準(zhǔn)是：如果該結(jié)果有名稱，并且足夠有名以至于有維基百科頁面或類似的內(nèi)容對(duì)其進(jìn)行描述，則允許使用。任何來自論文的結(jié)果，如果它不會(huì)在高中或本科低年級(jí)數(shù)學(xué)課程中教授，則不應(yīng)使用。任何此類結(jié)果的使用將立即導(dǎo)致你的成績(jī)?yōu)榱恪?nbsp;
-在你的證明中不要跳過計(jì)算步驟。清楚地解釋做了哪些變換，以及為什么在計(jì)算的每一步中這些變換是被允許的。
-你應(yīng)該使用正確的LaTeX符號(hào)來編寫公式和數(shù)學(xué)符號(hào)。你應(yīng)當(dāng)將這些公式包含在適當(dāng)?shù)姆?hào)中（行內(nèi)公式使用 "\\(" 和 "\\)"，塊狀公式使用 "\\[" 和 "\\]"），以增強(qiáng)證明的清晰度。不要使用任何Unicode字符。
-你的證明應(yīng)該是自包含的。
-如果你對(duì)某個(gè)具體步驟不確定，或者不知道如何證明一個(gè)中間結(jié)果，請(qǐng)明確說明。指出你的不確定性比做出錯(cuò)誤的陳述或主張要好得多。

為了公平，項(xiàng)目組這次采取了一種「best of 32」的策略。

也就是，每道題都會(huì)跑出32個(gè)不同答案，然后讓AI自己當(dāng)裁判，通過一輪輪PK選出最強(qiáng)解法后，才會(huì)送去給人類評(píng)審打分。這樣，模型在推理時(shí)，就會(huì)盡可能多地?cái)U(kuò)展計(jì)算資源。

因此，這次比賽可以說不僅是卷得離譜，燒錢也燒得令人心疼——

比如，Grok-4的單題評(píng)測(cè)成本就高達(dá)20美元，所以24題的總成本，就超過了480刀！

所以，大模型們的表現(xiàn)如何？