谷歌27頁論文揭秘：Gemini如何“斬獲”2025 IMO金牌 | 三個看點

發布于 2025-7-28 00:52

瀏覽

0收藏

剛剛過去的幾天，科技圈和數學界因2025年的國際數學奧林匹克競賽（IMO）而異常熱鬧。首先，讓我們為真正的冠軍——中國隊——獻上最熱烈的祝賀！六名隊員以絕對優勢再次為中國捧回團體總分第一的桂冠，基本上可以說咱中國人的智商碾壓全世界，作為中國人，咱們倍感驕傲與自豪。

谷歌27頁論文揭秘：Gemini如何“斬獲”2025 IMO金牌 | 三個看點-AI.x社區

然而，在這場人類智慧的巔峰對決之外，另一場關于人工智能（AI）的“競賽”也賺足了眼球。先是OpenAI略帶尷尬地宣布其模型達到“金牌水平”，后又被指出其測試方式存在爭議。緊接著，Google DeepMind高調入場，甩出一篇長達27頁的詳細技術論文，由Yichen Huang (黃溢辰)和Lin F. Yang (楊林)撰寫，標題直截了當——《Gemini 2.5 Pro Capable of Winning Gold at IMO 2025》。

谷歌27頁論文揭秘：Gemini如何“斬獲”2025 IMO金牌 | 三個看點-AI.x社區

與眾說紛紜的傳聞不同，這篇論文清晰、透明地展示了谷歌是如何利用Gemini 2.5 Pro，在IMO 2025的考題上，取得了官方認證的金牌級別成績。這不僅是一次能力的展示，更是一次對AI復雜推理能力極限探索的翔實記錄。本文將深入解讀這篇論文，揭開Gemini“奪金”背后的技術秘密。小插曲：谷歌的這篇論文也是倆中國人寫的。以致于，美國流傳著一個段子

谷歌27頁論文揭秘：Gemini如何“斬獲”2025 IMO金牌 | 三個看點-AI.x社區

言歸正傳！

“金牌”的真相：5/6的含金量

首先，我們必須明確“金牌水平”的定義。在IMO競賽中，金牌并非只有一個得主，而是頒發給排名前約1/12的選手。根據歷年情況，通常解出4道題就能穩定獲得金牌。

谷歌的論文摘要中明確指出，他們使用Gemini 2.5 Pro，在 6道官方賽題中，成功解決了5道題。這是一個毫無疑問的、遠超金牌線的驚人成績。更關鍵的一點是，為了避免“數據污染”（即模型可能在訓練數據中見過類似題目），研究團隊特意使用了IMO 2025剛剛發布的全新問題。這意味著Gemini不是在“背題”，而是在進行真正的數學推理。

那么，Gemini是如何做到的呢？答案并非簡單地把問題扔給模型然后等待結果，而是一個設計精巧、多步驟的“解題流水線”系統。

Gemini奪金的三大技術支柱

我們可以將Gemini的成功歸結為三大環環相扣的技術支柱，它們共同構成了這套強大的推理系統。

看點一：迭代式自我修正流水線，AI版的“同行評審”

面對IMO級別的難題，即便是最頂尖的大模型，也難以“一步到位”給出完美答案。谷歌的核心戰術，是構建了一個模仿人類科研過程的、嚴謹的迭代式流水線。

初始解法生成（探索與嘗試）：首先，模型會像一個思路開闊的“探索者”，針對一個問題，生成多個可能的初始解法。這一步類似于人類的“頭腦風暴”，盡可能多地探索解題路徑。論文坦誠地指出，在這一階段直接生成的解法質量“普遍很低”，這說明了后續步驟的必要性。
引入“驗證者”角色（嚴苛的審稿人）：接下來，系統會調用一個扮演“驗證者”角色的Gemini模型。這個“驗證者”被賦予了極其嚴格的指令，它像一位苛刻的IMO閱卷人，任務不是解題，而是逐行審查“探索者”給出的證明，并生成一份詳細的“Bug報告”。報告會將問題分為兩類：

致命錯誤（Critical Error）：邏輯上完全錯誤，或計算上出現硬傷。一旦發現，后續依賴于此的步驟將不再被檢查。
證明缺陷（Justification Gap）：結論可能正確，但論證過程不嚴謹、存在跳步或缺乏充分依據。

循環修正與收斂：這份“Bug報告”會被發回給最初的“解題模型”（現在是“修正者”）。它會根據報告中的意見，逐一修正錯誤、填補邏輯漏洞。修改后的新解法，將再次提交給“驗證者”進行評審。

這個“生成-驗證-修正”的循環會不斷進行。根據論文中的流程圖，如果一個解法連續5次通過了驗證者的審查，系統就會“接受”這個答案；而如果一個解法在10輪迭代中始終存在重大問題，就會被“拒絕”。這個過程，本質上是 AI版的“同行評審”，通過不斷的自我批判和修正，將一個粗糙的想法逐步打磨成無懈可擊的完美證明。

看點二：巧妙的“思考預算”策略，突破Token限制

這個精巧的流水線設計，并不僅僅是為了模擬人類。它背后有一個非常深刻的技術考量——“思考預算”（thinking budget）。

論文指出，Gemini 2.5 Pro的最大“思考預算”是32768個token。對于IMO這種極其復雜的任務，生成一個完整且嚴謹的證明，所需的token量很容易就超出這個上限。這意味著，如果試圖一次性解決問題，模型很可能“思考到一半”就無以為繼了。

而谷歌的流水線設計巧妙地解決了這個問題。將解題過程分解為多個步驟，實際上是為模型分階段注入了新的“思考預算”。例如，第一步“初始解法生成”用掉一份預算后，第二步“自我改進”會再次獲得一份完整的32768 token預算，讓模型有充足的“精力”去審視和深化自己的工作。

這種化整為零的策略，將一個模型無法一次性完成的超復雜任務，分解成了多個能力范圍內可以處理的子任務，是本次成功的關鍵工程保障。

看點三：不可或缺的人工智慧引導，畫龍點睛

這篇論文最值得稱道的地方在于其坦誠。研究者明確指出，在解決某些問題時，他們提供了非常微妙但關鍵的“人工提示”。

對于問題1（組合數學），他們在將題目輸入模型后，額外補充了一句話：“讓我們嘗試用歸納法來解決這個問題。”
對于問題2（平面幾何），他們同樣補充了一句：“讓我們嘗試用解析幾何來解決這個問題。”

這算是作弊嗎？論文作者給出了他們的解釋：歸納法和解析幾何是解決這類問題的非常通用和標準的方法。如果未來有一個更強大的“多智能體”AI系統，它必然會分配不同的智能體去嘗試這些標準路徑。因此，這句提示的作用，更多是 幫助模型在正確的方向上起步，從而減少漫無目的的計算資源消耗，而非直接給出解題思路。

這恰恰說明了，在當前階段，AI的強大能力仍然需要人類的智慧來引導和駕馭。設計精巧的系統流程、提供正確的方向性提示，這些“人的智慧”與“AI的算力”相結合，才共同促成了這次“奪金”壯舉。