AI拿下數學奧賽金牌，人類智力優勢正式告破？

作者：阿丸筆記 2025-07-21 09:19:36

昨天看到OpenAI研究員Alexander Wei在X上發布的消息，說實話，我當時就愣了。他們的實驗性推理模型在2025年IMO競賽中取得了35分（滿分42分）的成績，成功達到金牌標準。

為什么一個AI模型，能在被譽為"數學天才搖籃"的國際數學奧林匹克競賽中拿到金牌？

這意味著什么？IMO可不是什么普通的數學競賽。自1959年以來，這項競賽一直被認為是世界上最頂級的高中數學比賽，參賽的都是各國數學天才中的天才。很多參賽者后來都成了菲爾茲獎得主或者頂級數學家。

現在AI也拿金牌了。

我查了一下今年IMO的情況。6道題目，每題7分，總共42分。AI解決了前5道題，只有第6題沒有給出解答。35分的金牌線是IMO歷史上最高的，連人類選手都覺得今年的題目格外有挑戰性。

更關鍵的是，IMO的評分標準非常嚴格。每道題的解答都要寫成多頁的數學證明，三位前IMO金牌得主獨立評分，必須達成一致意見才能確定最終分數。這不是選擇題，也不是簡單的計算，而是需要創造性思維和嚴密邏輯推理的完整證明。

Alexander Wei在推文中提到："IMO問題需要全新水平的持續創造性思維。在推理時間范圍上，我們已經從GSM8K（頂級人類約0.1分鐘）→ MATH基準（約1分鐘）→ AIME（約10分鐘）→ IMO（約100分鐘）取得了進展。"

換句話說，AI現在能夠進行長達100分鐘的復雜數學推理了。這在幾個月前還是不可想象的事情。

有意思的是，菲爾茲獎得主陶哲軒對這個結果發表了評論。他基本上是說，AI和人類的思維方式本質上不同，不應該直接對比。

但我覺得這個觀點可能低估了AI的能力。不管思維方式如何，能在IMO這種級別的競賽中拿金牌，本身就說明了AI已經具備了某種形式的"數學智能"。

更讓人印象深刻的是，OpenAI強調這不是通過專門針對數學問題的算法實現的，而是通過通用強化學習和測試時計算擴展取得的突破。這意味著這種推理能力可能會遷移到其他領域。

技術細節值得關注

我仔細看了GitHub上AI給出的解題過程，發現它的表達風格確實很特別。句子簡潔有力，邏輯清晰，但缺少了一些人類證明中常見的"潤色"。有點像一個極度專注的數學天才在草稿紙上快速記錄思路。

OpenAI提到，這種特殊的表達風格來自于大量的強化學習訓練，可能是為了優化token使用效率。但同時也擔心，如果這種趨勢繼續下去，AI的思維鏈可能會變得越來越難以被人類理解。

不過話說回來，只要結果正確，思維過程的表達方式或許并不是最重要的。

我想了想，這個事情可能比很多人意識到的更重要。

首先，數學一直被認為是人類智力的皇冠。如果AI能在數學競賽中擊敗人類精英，那它在其他需要邏輯推理的領域表現如何？編程、科學研究、法律分析... 這些都可能受到影響。

其次，這是真正的"通用智能"進步。不是專門為數學設計的系統，而是一個通用的推理模型。這種泛化能力才是最可怕的。

第三，時間線比預期快得多。Alexander Wei提到，他在2021年預測AI在2025年7月前在MATH基準上只能達到30%（當時覺得別人太樂觀了），結果現在直接拿了IMO金牌。

順便說一句，OpenAI表示GPT-5即將發布，但這個數學能力要等幾個月才會公開。所以現在看到的還只是他們實驗室的研究原型。

這個問題我覺得挺現實的。如果AI已經能在最頂級的數學競賽中獲勝，那我們還需要培養那么多數學天才嗎？

可能需要重新思考數學教育的目標了。不再是培養"計算機器"，而是培養能與AI協作、能提出好問題、能判斷AI結果正確性的人才。

或者說，數學教育的重點應該從"解題"轉向"理解"和"直覺"。這些可能還是人類的優勢領域。

總之，這個消息讓我重新思考了很多東西。AI的進步速度確實超出了大多數人的預期，我們可能需要更快地適應這個新現實。

不過話說回來，能見證這樣的歷史時刻，還是挺興奮的。

責任編輯：武曉燕來源：阿丸筆記