2025 IMO真題撕碎AI數(shù)學(xué)神話,全球頂尖模型齊翻車!冠軍銅牌都拿不到
如果你以為,如今的LLM已經(jīng)無所不能,那剛剛出爐的2025大模型數(shù)學(xué)競(jìng)賽結(jié)果,恐怕要讓你大跌眼鏡了。
現(xiàn)在,各模型的分?jǐn)?shù)已經(jīng)在MathArena上發(fā)布。
怎么說呢,所有大模型都翻車了。
即使得分最高的冠軍Gemini,也只拿到了31%的分?jǐn)?shù)。憑這個(gè)成績(jī),連拿銅牌都不大可能。

也就是說,AI想超越目前頂級(jí)的人類數(shù)學(xué)選手,還差得遠(yuǎn)呢。

蘇黎世聯(lián)邦理工學(xué)院SRI實(shí)驗(yàn)室的博士生Jasper Dekoninck,發(fā)了一篇博客記錄此次大賽的詳細(xì)過程。

大模型參加數(shù)學(xué)競(jìng)賽,全部翻車!
在今年4月,來自ETH Zurich等機(jī)構(gòu)的MathArena團(tuán)隊(duì),就曾推翻AI會(huì)做數(shù)學(xué)題這個(gè)神話。
當(dāng)時(shí)他們發(fā)現(xiàn),在美國(guó)數(shù)學(xué)奧賽上,頂級(jí)AI模型得分不足5%,當(dāng)時(shí)的DeepSeek-R1還是冠軍來著,得分4.76%。


而在這屆2025國(guó)際數(shù)學(xué)奧林匹克(IMO)上,全球的AI頂流們又齊聚一堂了。
為了測(cè)驗(yàn)AI們的數(shù)學(xué)能力天花板,MathArena項(xiàng)目組這次祭出了數(shù)學(xué)界的終極boss——2025年IMO真題。
國(guó)際學(xué)生奧林匹克競(jìng)賽(IMO)是全球18歲以下數(shù)學(xué)學(xué)生的頂尖賽事。參賽者都經(jīng)過了大量訓(xùn)練,每道題都有數(shù)小時(shí)的解答時(shí)間。
IMO真題是什么水平呢?它們能難倒全球數(shù)學(xué)能力最頂尖的高中生,甚至還能分分鐘勸退無數(shù)大學(xué)數(shù)學(xué)教授。
在2024年,美國(guó)隊(duì)的六名參賽者得分在87-99%之間。而陶哲軒在13歲時(shí),就獲得了IMO的金牌。

這次,組委會(huì)希望了解,這些大模型是否能達(dá)到拿到奧數(shù)獎(jiǎng)牌的里程碑級(jí)別,比如銅牌(前50%)、銀牌(前25%)甚至金牌(前8%)。
另外,為了防止「開卷作弊」這個(gè)問題,評(píng)測(cè)團(tuán)隊(duì)特意選了一個(gè)巧妙的時(shí)間:題目剛剛發(fā)布,他們就開始讓AI們答題了,所以這些大模型不太可能在數(shù)據(jù)集中提前見過這些數(shù)學(xué)題。
可以說,這些基準(zhǔn)測(cè)試是既未受污染,又是可解釋的。
而AI們的所有答案,都是由兩位奧數(shù)專家評(píng)委雙盲評(píng)分的,標(biāo)準(zhǔn)的嚴(yán)苛程度堪比IMO官方。每道題滿分7分。
此次的參賽選手,陣容也是空前豪華,堪稱是AI界的夢(mèng)之隊(duì)。
· o3(OpenAI扛把子)
· o4-mini(OpenAI小鋼炮)
· Gemini 2.5 Pro(谷歌第一大將)
· Grok-4(馬斯克家的理工男)
· DeepSeek-R1(國(guó)產(chǎn)尖子生)
之所以選擇這五位參賽選手,是因?yàn)樗鼈兇饲岸荚贛athArena中有出色的表現(xiàn)。
其中,每個(gè)模型都使用推薦的超參數(shù)運(yùn)行,并且設(shè)置了64000的最大token限制。
Prompt如下——
你的任務(wù)是為以下問題寫出一個(gè)證明解決方案。你的證明將由人工評(píng)委根據(jù)準(zhǔn)確性、全面性和清晰性進(jìn)行評(píng)分。在撰寫證明時(shí),請(qǐng)遵循以下指南:
-你正在撰寫一份證明,而不是證明大綱。每一步都應(yīng)該仔細(xì)解釋并記錄。如果解釋不充分,評(píng)委將認(rèn)為你無法解釋清楚,從而降低你的分?jǐn)?shù)。
-你可以使用通用的定理和引理,但前提是它們必須是眾所周知的。一個(gè)簡(jiǎn)單的判斷標(biāo)準(zhǔn)是:如果該結(jié)果有名稱,并且足夠有名以至于有維基百科頁面或類似的內(nèi)容對(duì)其進(jìn)行描述,則允許使用。任何來自論文的結(jié)果,如果它不會(huì)在高中或本科低年級(jí)數(shù)學(xué)課程中教授,則不應(yīng)使用。任何此類結(jié)果的使用將立即導(dǎo)致你的成績(jī)?yōu)榱恪?nbsp;
-在你的證明中不要跳過計(jì)算步驟。清楚地解釋做了哪些變換,以及為什么在計(jì)算的每一步中這些變換是被允許的。
-你應(yīng)該使用正確的LaTeX符號(hào)來編寫公式和數(shù)學(xué)符號(hào)。你應(yīng)當(dāng)將這些公式包含在適當(dāng)?shù)姆?hào)中(行內(nèi)公式使用 "\\(" 和 "\\)",塊狀公式使用 "\\[" 和 "\\]"),以增強(qiáng)證明的清晰度。不要使用任何Unicode字符。
-你的證明應(yīng)該是自包含的。
-如果你對(duì)某個(gè)具體步驟不確定,或者不知道如何證明一個(gè)中間結(jié)果,請(qǐng)明確說明。指出你的不確定性比做出錯(cuò)誤的陳述或主張要好得多。
為了公平,項(xiàng)目組這次采取了一種「best of 32」的策略。
也就是,每道題都會(huì)跑出32個(gè)不同答案,然后讓AI自己當(dāng)裁判,通過一輪輪PK選出最強(qiáng)解法后,才會(huì)送去給人類評(píng)審打分。這樣,模型在推理時(shí),就會(huì)盡可能多地?cái)U(kuò)展計(jì)算資源。
因此,這次比賽可以說不僅是卷得離譜,燒錢也燒得令人心疼——
比如,Grok-4的單題評(píng)測(cè)成本就高達(dá)20美元,所以24題的總成本,就超過了480刀!
所以,大模型們的表現(xiàn)如何?
金銀銅,全軍覆沒
Gemini 2.5 Pro,全場(chǎng)最高分
Gemini 2.5 Pro在滿分42分的考卷中,拿到了13分,約等于31%。
這個(gè)分?jǐn)?shù),連銅牌的門檻都沒摸到。
而即使是作為表現(xiàn)最好的AI,Gemini也依然有不少毛病。
比如,遇到不會(huì)做的題時(shí),它會(huì)編出一些看起來似乎很權(quán)威的假定理,比如「根據(jù)史密斯-約翰遜超平方引理可得」。
但實(shí)際上,這個(gè)定理根本就不存在!


此前Gemini 2.5 Pro的答題情況
Grok-4:翻車最嚴(yán)重,基本沒救了
而最近因?yàn)锳I女友事件大出風(fēng)頭的Grok-4,則嚴(yán)重翻車了。
它的表現(xiàn)堪稱災(zāi)難:它給出的絕大多數(shù)答案只有最終結(jié)果,完全不解釋,整個(gè)就是一副「我懶得證明,我就是知道」的擺爛態(tài)度。
而顯著落后的一個(gè)選手除了Grok-4,還有DeepSeek-R1。
這兩個(gè)AI在此次奧數(shù)中的成績(jī),相較于它們?cè)贛athArena基準(zhǔn)測(cè)試中的早期成績(jī),退步明顯。

此前Grok 3 mini的答題情況
AI解題的獨(dú)特姿勢(shì):做不出來,我就跳過
在這個(gè)過程中,研究者們還發(fā)現(xiàn)了AI做數(shù)學(xué)題的一個(gè)有趣現(xiàn)象。
通常,在人類選手參加IMO比賽時(shí),他們要么一題全部做對(duì),要么干脆拿0分,拿3分、4分這樣的中等分?jǐn)?shù),其實(shí)是很少見的。
不過大模型可就完全不一樣了,它們特別擅長(zhǎng)考個(gè)「及格邊緣線」。
也就是說,它們時(shí)常能捕捉到正確的解題思路,方向是對(duì)的,但是一到最關(guān)鍵的地方就會(huì)掉鏈子,邏輯跳躍嚴(yán)重。
尤其是到了該證明的關(guān)鍵一步,它們就不證明了。而這恰恰是人類選手最不容易出錯(cuò)的地方。
對(duì)此,評(píng)審組的感受是:AI現(xiàn)在已經(jīng)能抓住「人類感」的思路,但是在細(xì)節(jié)能力上,還是差點(diǎn)火候。
而如果AI們能把這些邏輯問題給搞定,未來它們的成績(jī)說不定還真能沖上領(lǐng)獎(jiǎng)臺(tái)。

此前DeepSeek-R1的答題情況
2025 IMO真題
我們來看看,今年幾道IMO真題長(zhǎng)什么樣子。
問題1:

問題2:

問題3:

問題4:

問題5:

問題6:

AI離成為奧數(shù)大師,究竟還有多遠(yuǎn)?
也許你會(huì)有疑問,自己平時(shí)測(cè)這些大模型的時(shí)候,做數(shù)學(xué)題并沒有這么強(qiáng)啊。
原因當(dāng)然就在于,這次大模型們的「Best-of-32」大法了,如果不是用了這個(gè)策略,很多模型的得分連10分都沒有。
這也就揭示出這樣一個(gè)現(xiàn)實(shí):想要讓模型發(fā)揮得好,就得拼資源、拼算力、拼試錯(cuò)次數(shù)。
如果只是普通用戶隨便跑一遍模型,根本不可能達(dá)到這種效果。
總之,這場(chǎng)「AI數(shù)學(xué)奧賽」,已經(jīng)暴露出了很多關(guān)鍵問題。比如想法沒問題,但存在邏輯鏈的短板;會(huì)判斷解法質(zhì)量,但還得靠大量計(jì)算。
或許再過幾年,某個(gè)AI真的能打出滿分42的神級(jí)操作,但顯然,今天的AI還達(dá)不到這個(gè)成就。
目前來說,人類數(shù)學(xué)選手們還是安全的,還可以放心睡個(gè)好覺。

































