谷歌27頁論文揭秘:Gemini如何“斬獲”2025 IMO金牌 | 三個看點
剛剛過去的幾天,科技圈和數學界因2025年的國際數學奧林匹克競賽(IMO)而異常熱鬧。首先,讓我們為真正的冠軍——中國隊——獻上最熱烈的祝賀!六名隊員以絕對優勢再次為中國捧回團體總分第一的桂冠,基本上可以說咱中國人的智商碾壓全世界,作為中國人,咱們倍感驕傲與自豪。

然而,在這場人類智慧的巔峰對決之外,另一場關于人工智能(AI)的“競賽”也賺足了眼球。先是OpenAI略帶尷尬地宣布其模型達到“金牌水平”,后又被指出其測試方式存在爭議。緊接著,Google DeepMind高調入場,甩出一篇長達27頁的詳細技術論文,由Yichen Huang (黃溢辰)和Lin F. Yang (楊林)撰寫,標題直截了當——《Gemini 2.5 Pro Capable of Winning Gold at IMO 2025》。

與眾說紛紜的傳聞不同,這篇論文清晰、透明地展示了谷歌是如何利用Gemini 2.5 Pro,在IMO 2025的考題上,取得了官方認證的金牌級別成績。這不僅是一次能力的展示,更是一次對AI復雜推理能力極限探索的翔實記錄。本文將深入解讀這篇論文,揭開Gemini“奪金”背后的技術秘密。小插曲:谷歌的這篇論文也是倆中國人寫的。以致于,美國流傳著一個段子

言歸正傳!
“金牌”的真相:5/6的含金量
首先,我們必須明確“金牌水平”的定義。在IMO競賽中,金牌并非只有一個得主,而是頒發給排名前約1/12的選手。根據歷年情況,通常解出4道題就能穩定獲得金牌。
谷歌的論文摘要中明確指出,他們使用Gemini 2.5 Pro,在 6道官方賽題中,成功解決了5道題。這是一個毫無疑問的、遠超金牌線的驚人成績。更關鍵的一點是,為了避免“數據污染”(即模型可能在訓練數據中見過類似題目),研究團隊特意使用了IMO 2025剛剛發布的全新問題。這意味著Gemini不是在“背題”,而是在進行真正的數學推理。
那么,Gemini是如何做到的呢?答案并非簡單地把問題扔給模型然后等待結果,而是一個設計精巧、多步驟的“解題流水線”系統。
Gemini奪金的三大技術支柱
我們可以將Gemini的成功歸結為三大環環相扣的技術支柱,它們共同構成了這套強大的推理系統。
看點一:迭代式自我修正流水線,AI版的“同行評審”
面對IMO級別的難題,即便是最頂尖的大模型,也難以“一步到位”給出完美答案。谷歌的核心戰術,是構建了一個模仿人類科研過程的、嚴謹的迭代式流水線。
- 初始解法生成(探索與嘗試):首先,模型會像一個思路開闊的“探索者”,針對一個問題,生成多個可能的初始解法。這一步類似于人類的“頭腦風暴”,盡可能多地探索解題路徑。論文坦誠地指出,在這一階段直接生成的解法質量“普遍很低”,這說明了后續步驟的必要性。
- 引入“驗證者”角色(嚴苛的審稿人):接下來,系統會調用一個扮演“驗證者”角色的Gemini模型。這個“驗證者”被賦予了極其嚴格的指令,它像一位苛刻的IMO閱卷人,任務不是解題,而是逐行審查“探索者”給出的證明,并生成一份詳細的“Bug報告”。報告會將問題分為兩類:
- 致命錯誤(Critical Error):邏輯上完全錯誤,或計算上出現硬傷。一旦發現,后續依賴于此的步驟將不再被檢查。
- 證明缺陷(Justification Gap):結論可能正確,但論證過程不嚴謹、存在跳步或缺乏充分依據。
- 循環修正與收斂:這份“Bug報告”會被發回給最初的“解題模型”(現在是“修正者”)。它會根據報告中的意見,逐一修正錯誤、填補邏輯漏洞。修改后的新解法,將再次提交給“驗證者”進行評審。
這個“生成-驗證-修正”的循環會不斷進行。根據論文中的流程圖,如果一個解法連續5次通過了驗證者的審查,系統就會“接受”這個答案;而如果一個解法在10輪迭代中始終存在重大問題,就會被“拒絕”。這個過程,本質上是 AI版的“同行評審”,通過不斷的自我批判和修正,將一個粗糙的想法逐步打磨成無懈可擊的完美證明。
看點二:巧妙的“思考預算”策略,突破Token限制
這個精巧的流水線設計,并不僅僅是為了模擬人類。它背后有一個非常深刻的技術考量——“思考預算”(thinking budget)。
論文指出,Gemini 2.5 Pro的最大“思考預算”是32768個token。對于IMO這種極其復雜的任務,生成一個完整且嚴謹的證明,所需的token量很容易就超出這個上限。這意味著,如果試圖一次性解決問題,模型很可能“思考到一半”就無以為繼了。
而谷歌的流水線設計巧妙地解決了這個問題。將解題過程分解為多個步驟,實際上是為模型分階段注入了新的“思考預算”。例如,第一步“初始解法生成”用掉一份預算后,第二步“自我改進”會再次獲得一份完整的32768 token預算,讓模型有充足的“精力”去審視和深化自己的工作。
這種化整為零的策略,將一個模型無法一次性完成的超復雜任務,分解成了多個能力范圍內可以處理的子任務,是本次成功的關鍵工程保障。
看點三:不可或缺的人工智慧引導,畫龍點睛
這篇論文最值得稱道的地方在于其坦誠。研究者明確指出,在解決某些問題時,他們提供了非常微妙但關鍵的“人工提示”。
- 對于問題1(組合數學),他們在將題目輸入模型后,額外補充了一句話:“讓我們嘗試用歸納法來解決這個問題。”
- 對于問題2(平面幾何),他們同樣補充了一句:“讓我們嘗試用解析幾何來解決這個問題。”
這算是作弊嗎?論文作者給出了他們的解釋:歸納法和解析幾何是解決這類問題的非常通用和標準的方法。如果未來有一個更強大的“多智能體”AI系統,它必然會分配不同的智能體去嘗試這些標準路徑。因此,這句提示的作用,更多是 幫助模型在正確的方向上起步,從而減少漫無目的的計算資源消耗,而非直接給出解題思路。
這恰恰說明了,在當前階段,AI的強大能力仍然需要人類的智慧來引導和駕馭。設計精巧的系統流程、提供正確的方向性提示,這些“人的智慧”與“AI的算力”相結合,才共同促成了這次“奪金”壯舉。
結語
Google的這篇論文也為我們揭示了AI在人類最頂級的智力競賽中已經達到的驚人高度。
Gemini的成功,并非源于某個單一模型的“神力”,而是源于一套精巧、嚴謹、且高度模仿人類科研范式的系統工程。它通過“生成-驗證-迭代”的閉環,將大模型的計算能力和邏輯潛力發揮到了極致。同時,它也坦誠地展現了現階段AI依然需要人類智慧進行戰略引導的現實。
參考資料: Huang, Y., & Yang, L. F. (2025). Gemini 2.5 Pro Capable of Winning Gold at IMO 2025. arXiv:2507.15855v2 [cs.AI].
本文轉載自???后向傳播???,作者: 張發恩

















