內幕曝光:OpenAI模型坦承不會第六題,三人倆月拿下IMO金牌!
OpenAI的ChatGPT真能拿到國際奧數IMO金牌?還是OpenAI的自嗨?背后到底有何隱情?
OpenAI的IMO金牌核心團隊Alexander Wei、Noam Brown與Sheryl Hsu做客紅杉Training Data播客,分享了如何在兩月內讓AI斬獲IMO金牌??。
比如說,OpenAI內部并非所有人都持樂觀態度。某位研究員甚至打賭模型不會贏,賠率高達2:1,不過最終因為「不想影響士氣」而放棄了賭局。
比賽當天凌晨1-5點,Noam Brown忙里偷閑,小憩了一番,而Alexander Wei瘋狂檢查模型生成的證明??。
他們這次還解釋了是如何決定AI是不是拿到了金牌。為了評分,他們雇用了外部的IMO獎牌獲得者。每份證明都由三名獎牌獲得者進行評分,他們對正確性達成了一致意見 。就這樣,他們認為AI的確有能力拿到IMO金牌。
他們還透露證明像「外星語言」般獨特,可讀性不高。雖有有能力優化,但為了透明,他們選擇發布了原始輸出。

如果你只想快速了解精華,先看下方要點;想讀幕后故事,請繼續往下。
要點速讀
在短短兩個月內,這支OpenAI僅三人的精銳團隊就實現了整個AI領域多年未竟的目標——在國際數學奧林匹克競賽難題上達到金牌級水平。
這是通往ASI道路上最重要的里程碑之一。
這次突破之所以特別引人注目,不僅僅是因為AI的數學能力,更在于其背后的架構。這是一種通用技術,用于擴展測試時間計算,并處理那些遠遠超出競賽數學范疇的難以驗證的任務。
就在一年前,AI還只能進行短暫的數學推理,僅僅持續十分之一分鐘。而現在,已有AI系統能夠持續推理長達100分鐘。
而超級智能的期望是,隨著我們將推理時間擴展到數千甚至數十萬小時,我們或許能夠開始解決人類在數學、科學等眾多領域中那些最偉大的未解難題。
團隊還介紹了他們的獨特方法:在難以驗證的任務上,不用形式化驗證工具,而使用通用強化學習技術。
新模型展現出驚人的自省能力——主動承認無法解答第六題,同時揭示了解決競賽題與取得真正數學研究突破之間的懸殊差距。
IMO 2025第六題是本次競賽難度最大的題目,大意如下:
考慮一個2025x2025的單位正方形網格。馬蒂爾達希望在這個網格上放置一些矩形瓷磚,這些瓷磚的大小可能各不相同,但每塊瓷磚的每一邊都必須與網格線對齊,并且每個單位正方形最多被一塊瓷磚覆蓋。
確定馬蒂爾達需要放置的最小瓷磚數量,以確保網格的每一行和每一列都有且僅有一個單位正方形沒有被任何瓷磚覆蓋。
關鍵亮點如下:
(1)通用技術勝過專用方案。
(2)小團隊也能創造大成果:核心團隊僅由3名研究人員組成,在最后2個月沖刺完成工作。
(3)自我意識提升AI可靠性:面對最難的題目時,模型能承認自己無法解決,而不是輸出看似合理但錯誤的答案。
(4)測試時計算擴展助力深入推理:突破的關鍵在于將推理計算時間從幾秒延長到幾小時,使模型能更深入思考復雜問題。
(5)競賽是進步的起點,而非終點。

Sheryl Hsu(第一排中間女子)分享的OpenAI合照
兩個月的奇跡
國際數學奧林匹克(IMO)是全球高中生數學頂尖賽事,難題之難讓人類選手也要苦練多年。
即便是天才數學家陶哲軒,10歲時第一次參加IMO,獲得了銅牌。約兩年后,第二次參加IMO,他才獲得了金牌。
可OpenAI的這支小隊卻只用了兩個月!
他們的秘密武器是什么?
在紅杉資本的播客《Training Data》中,主持人Sonya Huang揭秘了真相:
他們用了一種叫做「多智能體系統」的技術。
簡單說,就是讓多個AI「助手」同時工作,像一個超級團隊分工協作。
這種方法讓他們的模型能在短時間內解決復雜問題。

AI在數學上真令人嘆為觀止!
就在幾年前,AI模型還在為解決小學數學問題而掙扎。
在2024年,GSM8K還被當作評估模型的標準。

GSM8K,即小學數學8K,是一個包含8,500個高質量、語言多樣的小學數學應用題的數據集。目前,此數據集的成績已經飽和:Claude 3 準確率已達95%
但在數學領域,這只是短暫現象。隨后,AI數學基準測試出現了美國數學邀請賽AIME,接著美國奧數USAMO。

去年的開源模型數學排行榜
現在,國際數學奧林匹克競賽金牌也被AI拿下。
AI以驚人的速度突破了所有的數學基準。
AI或覺醒自我意識
敢說自己「沒答案」
有時,AI會「胡思亂想」,編造錯誤答案,同時「理直氣壯」,自信過頭。
這屬于推理模型的「幻覺」問題。
但OpenAI的模型很特別——它能在解不出題時果斷說「我不知道」。
比如在IMO第6題上,模型選擇不冒險,而是承認自己的局限。
新模型顯著減少了「幻覺」問題。
OpenAI研究員Noam Brown認為AI開始向自我意識推理轉變:
過去,數學家們需要仔細檢查模型的解題過程,因為早期系統常常會悄無聲息地弄錯不等式或插入錯誤步驟,導致「幻覺」答案。
在缺乏有效證明時,新更新的IMO模型傾向于說「我不確定」,這大大減少了隱藏錯誤
這一點讓篤信AGI的網友Causal Coder激動地評論:「這比拿金牌還重要!」
為什么?因為這避免了「幻覺」(hallucination),讓AI更可靠。

《自然》雜志的研究也支持這一觀點:減少錯誤輸出是AI進步的關鍵。

這不僅在數學競賽中閃耀,還可能幫我們在未來科學計算中少走彎路。
數學讓人謙卑,AI任重道遠
盡管這次的進步令人興奮,但距離千禧難題還很遠。
若按IMO題需要1.5小時思考估算,千禧級別需將思考時間放大上千倍,仍任重道遠。
GSM8K是小學數學,好學生幾秒鐘搞定。現在AI從幾秒鐘進步到IMO級別——天才學生平均每題1.5小時(IMO三題4.5小時)。而研究數學需要這些奧賽天才長大后花1500小時。所以,從1.5小時到數千小時,還有千倍差距。
在千禧問題上,整個領域的專家畢生努力,還沒多少進展。數學的深度讓人謙卑:從1.5小時到數十萬小時的人類思考,還有很長的路。

目前,7大千禧難題只有龐加萊猜想得到了解決
不止是數學
通向通用智能
這次的突破是為了開發通用的推理技術,而不是局限于數學。
他們在短短一年多的時間里,將推理時間從O(0.1分鐘)擴展到了O(100分鐘)。
除了讓長推理以及在難以驗證的任務上取得進步之外,這還涉及到擴展并行計算,涉及到多智能體。

在多智能體強化學習(MARL)實驗中,兩個對立的智能體團隊展開對抗
他們通過巧妙設計「獎勵函數」,讓AI能處理難以驗證的難題,相同方法也適用于物理奧林匹克競賽,不過模型還無法進行實驗部分的操作。
在擴展思考時間、處理難以驗證的任務以及并行計算上,他們所采用的技術都是通用技術。他們計劃在其他系統中使用,或者已經在使用了。
從基礎設施的角度來說,這次基本上使用的是和其他項目相同的基礎設施。
并沒有什么專門為IMO定制。
他們稱此次方法接下來會整合進更多OpenAI模型,全面提升推理能力,從而構建更強大的模型,不斷改進Agent、ChatGPT以及其他一切。
但全球部署仍需時間。
挑戰與夢想:路還長
千年難題如黎曼猜想,人類中的天才一生都難解,AI還需更多突破。
但團隊不氣餒,他們甚至想讓AI學會自己提出新問題——這比解題更酷!
Noam Brown表示,語言模型現在正迅速地一個個克服障礙:
接下來的挑戰將是生成新問題,比如創作IMO級別的數學難題「需要專業的數學家...但我看不到任何根本性的障礙。」
紅杉的Sonya笑稱:「從0.1分鐘到100分鐘的推理擴展,已經是巨大進步,未來可期!」
這對我們意味著什么?
這個故事不僅炫酷,還很實用。想象一下,未來AI能幫你解決家庭預算、設計新游戲,甚至提出科學新想法! 對于普通人,這意味著更智能的生活助手正在路上。對AI開發者來說,這是個啟發:合作和創意能帶來意想不到的成果。



































