僅用提示詞工程摘下IMO金牌!清華校友強強聯手新發現,學術界不靠砸錢也能比肩大廠
無需谷歌“鈔能力”,兩位清華校友強強聯合,直接讓基礎模型Gemini 2.5 Pro輕松達到IMO金牌水平。??
只需提示詞改動……

該發現來自兩位清華校友楊林和黃溢辰,他們共同設計了一套自我迭代驗證流程和提示詞優化,就成功讓Gemini 2.5 Pro完成了今年IMO題目的解答。
他們還剛剛更新了代碼,直接利用通用提示詞就能實現模型推理增強。

好家伙,原來我們都被LLM騙了,基礎大模型早就彎道超車,具備超強的解決復雜數學推理問題的能力。
只不過,直接用效果并不好。
就像MathArena也用Gemini?2.5?Pro跑了本次IMO題目,結果只有13分,遠低于IMO銅牌門檻(19/42)。

但只要加一點點提示詞魔法和迭代驗證,就能實現1+1>2。
這一點也受到了陶哲軒的認可:
我認同嚴格驗證是在復雜數學任務中取得出色表現的關鍵。
具體是怎么做到的?我們接著往下看。
通用提示詞+迭代驗證
首先為什么最近AI模型都喜歡參加IMO測試呢?
其實是因為相較于面向中小學水平題目的傳統數學基準GSM8K、MATH等,IMO可以更為充分地考驗模型的抽象思維和多步驟邏輯推理能力,堪稱檢驗LLM推理能力的“試金石”。
不過前幾年模型結果都不盡如人意,要么是無法理解題目要求,要么是“偏科”某一類問題。
直到今年才首次有官方認可的金牌AI出現,谷歌和OpenAI均完成了5道題,其中谷歌Gemini模型搭載了新的Deep Think模式,OpenAI的模型據悉也是在通用強化學習和計算擴展方面實現了技術突破。
但現在,研究團隊只用提示詞設計,就達成了上述效果。

關鍵在于,他們設計了一套自我驗證流程,依次可分為六個步驟:
- 初始解決方案生成:模型首先根據提示詞生成初步解答,要求每一步邏輯推理清晰、解釋明確。
- 自我改進:模型對初始答案進行回顧和優化,彌補初始生成中因思維預算有限導致的不足。
- 驗證解決方案并生成錯誤報告:在驗證器中根據提示詞驗證解答,生成包含關鍵錯誤(如邏輯謬誤或事實錯誤)和不完整論證在內的問題報告。
- 審查錯誤報告(可選):對問題報告進行復核,刪除誤報的問題,提升報告可靠性。
- 基于錯誤報告糾正或改進解決方案:根據問題報告改進解答,修正后返回驗證步驟。
- 接受或拒絕解決方案:若解答連續5次都通過驗證,則接受該回答;若連續迭代10次,都存在重大問題,則拒絕此答案。
具體來說,整個過程是由Gemini 2.5 Pro構成的求解器(solver)和驗證器(verifier)執行,采用差異化提示詞以達到不同作用。
其中求解器主要負責生成和改進答案,在提示詞設計上將嚴謹性設為首要目標,確保結果可嚴格驗證。
但由于Gemini 2.5 Pro的最大思考tokens為32768,在初始生成答案時無法獨立完成負責的IMO問題,所以通過步驟2中的自我改進,額外注入32768 tokens,讓模型回顧并優化初始解答,提升整體質量。
然后使用驗證器模擬IMO評分專家,進行迭代改進,并決定是否接受改進后的解決方案。
驗證器會逐一檢查解答并找出存在的問題,將問題分為關鍵錯誤和論證缺口兩類,其中關鍵錯誤是指明顯錯誤或存在清晰邏輯謬誤的內容,會嚴重破壞證明的邏輯鏈條,引向錯誤答案。
論證缺口包含主要缺口和次要缺口,主要缺口可能會導致整個證明失敗,而次要缺口可能會產生正確結論,但論證仍然是不完整的。
當發現問題后,驗證器隨即會輸出一份錯誤報告,為模型改進解決方案提供有用信息,在步驟4中對驗證器的誤判進行改正,然后模型根據報告嘗試改進答案。
由于驗證器可能出錯,所以需要足夠次數的重復迭代,降低誤判影響,最終如果答案能通過驗證則接受,如果始終存在關鍵錯誤或主要論證缺口,則拒絕。

具體實驗過程中,研究團隊選擇剛剛發布的IMO 2025題目,因為發布時間較短,可以有效避免訓練數據污染,確保評估的真實性。
另外在參數設置上,選擇較低的溫度值0.1,因為較高的溫度可能會導致更多的隨機錯誤,并使用Gemini 2.5 Pro的推理token上限,同時排除其它模型、代碼干擾。
關鍵提示詞中,初始生成的提示詞要求有充分理由支撐答案,如果不能找到完整解決方案,不能進行編造,且所有數學內容用TeX格式呈現。

輸出格式需嚴格按照總結到詳細解決方案的順序,其中總結包括結論和方法概述,詳細解決方案中需要呈現完整、逐步的數學證明,在最終輸出前還要仔細檢查以符合所有指令。
在驗證提示詞里,唯一任務就是找出并報告解決方案里的所有問題,并不嘗試糾正漏洞,需生成詳細驗證日志并將問題進行分類,輸出格式包括總結和詳細驗證日志,總結又包括最終判定和發現列表。

最終,模型實現為IMO的6道題目中的5道生成了完整且數學嚴謹的解決方案,其中前兩道題目各生成了有提示和無提示的兩種解決方案。
第一題提示使用數學歸納法,第二題提示使用解析幾何完成,通過對比可得,詳細的提示詞可以減少計算搜索空間、提高效率,但并不會額外賦予模型新的能力。
在未能解決的第六題上,研究人員發現模型是在其中一個有關證明時出現核心錯誤,從而導致后續證明無效。
實驗結果證明,結構化迭代流程將是LLM的潛在能力轉化為嚴謹數學證明的關鍵,可突破單次生成中例如有限推理預算和初始答案錯誤等局限性。
另外研究人員預計,如果混合使用多種模型,例如Grok 4、OpenAI-o系列,以及類似Grok 4 heavy的多智能體系統,可能會產生更強的數學能力。
清華校友強強聯合
本次研究的兩位作者——黃溢辰和楊林,他們是清華大學數學物理基礎科學實驗班的本科同學,畢業后又分別前往海外高校深造。

黃溢辰在加州大學伯克利分校取得物理學博士學位后,曾在微軟擔任AI研究員,后在加州理工學院擔任博士后,師從凝聚態物理領域大拿陳諧教授。
陳諧教授本科同樣畢業于清華大學,并在2012年獲得麻省理工學院理論物理博士,目前是加州理工學院的Eddleman理論物理學教授。
主要研究的是量子凝聚態系統中的新型相和相變,包括強關聯系統中的拓撲序、多體系統動力學、張量網絡表示以及量子信息應用等。
曾在2017年斬獲斯隆獎,后又因其對物質拓撲態及相互關系的卓越貢獻,榮獲2020年物理學新視野獎,該獎項隸屬于科學突破獎的子獎項,要知道科學突破獎也被譽為當代科學界的“奧斯卡獎”。
后續黃溢辰又接著在麻省理工學院理論物理中心和哈佛大學物理系繼續從事博士后研究,主要研究方向是量子物理學,包括量子信息學、 凝聚態理論和機器學習。

另一位作者楊林,目前是加州大學洛杉磯分校的副教授,任職于電氣與計算機工程系以及計算機科學系。

此前,他曾獲得約翰霍普金斯大學的計算機科學和物理與天文學雙博士學位,又曾在普林斯頓大學從事博士后研究,師從王夢迪教授。
王夢迪14歲就考入清華,23歲就從麻省理工學院博士畢業,其導師還是美國國家工程院院士Dimitri P. Bertsekas,年僅29歲就成為普林斯頓大學終身教授。
研究領域主要涉及生成式人工智能、強化學習、大語言模型等,2024年還曾獲得控制領域最高獎項Donald P. Eckman獎(每年僅頒發給一位獲獎者)。
而楊林教授的研究重點則是強化學習理論與應用、機器學習和優化理論、大數據處理和算法設計等,他曾在ICML和NeurIPS等頂級機器學習會議上發表過多篇論文,還曾獲得亞馬遜教授獎、西蒙斯學者獎等。
有限的資源下,學術界也能比肩大廠
對于本次研究的相關細節,量子位也和楊林教授深入聊了聊。
首先是為什么會優先選擇Gemini 2.5 Pro作為研究對象,楊林教授表示:
實驗開始時Gemini相對比較方便,可調的參數較多。
而當談及Gemini 2.5 Pro在解決前5道問題所涉及的計算資源和耗時,楊林教授也是坦然回應道:
具體資源我們沒有仔細統計,但大致估算下,第一步大概需要60000token,之后的每次驗證,如果通過則15000token,如果需要修改則需要30000token。
每次由于隨機性都會有所差異,不同題目需要的tokens數在300k到5000k都是有可能的,比如運氣不好的時候,一道題目就做了8次獨立實驗。而計算時間則取決于谷歌服務器的空閑度,最快10分鐘左右就能解出一道題。
關于使用提示前后模型的差異,楊林教授也表示:
當使用提示后,模型基本一次獨立實驗(Agent輸出失敗或成功算一次獨立實驗)就能解決題目,但不使用模型的思維會發散,之前提及的8次獨立實驗就是在沒有使用提示的情況下出現的。
至于沒有成功解決的第六題,楊林教授認為主要問題還是出在驗證器上:
當求解器輸出假陽性答案時,驗證器沒能很好地區分一些細節。
目前團隊已經進行了手動驗證,自我檢查了證明的所有細節,但缺乏官方評分,楊林教授也希望如果組委會有興趣,他們很樂意參與IMO官方評分,進一步驗證解答。
未來他們也將會通過使用更多訓練數據進行預訓練和微調,以提升基礎模型的能力。
之后楊林教授也分享了一些本次研究中他所收獲的心得體會:
有時候基礎模型的能力需要用其它方法釋放,如果未來模型訓練達到瓶頸,那么Agent方法可能是破局的關鍵。而本次研究也讓我們看到,學術界利用有限的資源,也能做出與大廠同等重要的成果。
他也希望AI在未來能在數學研究中扮演更為重要的角色,尤其是在一些長期懸而未決的問題上。
最后也幫讀者朋友們向教授詢問了一些與AI共存的建議,楊林教授相當謙虛地表示:
同學們比我年輕,對AI的使用可能比我更加自然,所以我提不出什么建議。但就我自身而言,我希望在使用AI的同時,也能提高自身的知識水平。
簡而言之就是,使用并向它學習。
論文鏈接:https://www.alphaxiv.org/abs/2507.15855v2






















