剛剛,GPT-5首次通過「哥德爾測試」!破解三大數(shù)學(xué)猜想
AI迎來歷史性一刻!
GPT-5成功破解三大猜想,通過了「哥德爾測試」。
圖片
OpenAI科學(xué)家Sebastien Bubeck驚嘆地表示,這類開放性問題,頂尖博士生往往耗費數(shù)日才能解決。
不同以往,這項由海法大學(xué)和思科主導(dǎo)的研究,首次讓AI直面「開放性數(shù)學(xué)猜想」的挑戰(zhàn)。
圖片
論文地址:https://arxiv.org/pdf/2509.18383
論文中,團隊設(shè)計了五項「組合優(yōu)化」領(lǐng)域的測試任務(wù),每項任務(wù)提供1-2篇文獻作為了解。
在三個相對簡單的問題上,GPT-5給出了近乎完美的解法,證明了其強大的邏輯推理水平。
圖片
令人驚喜的是,在猜想二中,它不僅成功求解,還推導(dǎo)出與研究人員預(yù)期不同的有效解法,顛覆了原有猜想。
這一突破,標(biāo)志著頂尖AI正從「學(xué)習(xí)數(shù)學(xué)」邁向「真正做數(shù)學(xué)」的關(guān)鍵跨越。
不難看出,AI正為數(shù)學(xué)發(fā)現(xiàn)做出實質(zhì)性貢獻,提前預(yù)演了2030年代科研范式的深遠變革。
圖片
AI單挑「哥德爾測試」,遠超陶哲軒想象
此前,陶哲軒曾分享了自己與OpenAI o1合作經(jīng)驗,生動地將其比作「指導(dǎo)一名平庸,但并非完全無能的研究生」。
在他看來,LLM雖能在大量提示后,逐步得出解決方案,但無法獨立生成關(guān)鍵概念性想法。
不過,經(jīng)過一兩次迭代,結(jié)合工具,AI就能達到「合格研究生」的水平。
圖片
OpenAI和谷歌均宣稱,自家前沿LLM無需外部工具,即可拿下IMO金牌。
但這個具有挑戰(zhàn)性的問題,畢竟是為高中生設(shè)計的。
圖片
在最新論文中,研究焦點不同:讓AI處理更高級的數(shù)學(xué)猜想,即「哥德爾測試」。
這些猜想要求的不只是解題能力,還需要整合背景知識和創(chuàng)新思維。
為此,研究人員從「組合數(shù)學(xué)」的子領(lǐng)域——子模最大化中挑選問題。這類問題具體、有明確動機,且控制在能展示數(shù)學(xué)推理范圍內(nèi)。
與陶哲軒實驗不同,團隊沒有提供大量提示或指導(dǎo)。
論文中,他們精心設(shè)計了五大猜想。
只給每個問題一個最小化描述,外加上1-2篇參考文獻。
難度設(shè)定為:優(yōu)秀本科生、研究生,有望在一天內(nèi)解決所有問題,同時確保大部分問題,存在明確猜想及已知解決路徑。
GPT-5的任務(wù)是,基于有限輸入,生成完整證明。
這模擬了真實研究場景:數(shù)學(xué)家往往從少量線索出發(fā),獨立探索。
在測試中,GPT-5表現(xiàn)既有亮點,也有短板,一起看看具體的解題能力。
GPT-5破解三大猜想
猜想一:「單調(diào)+非單調(diào)」的子模函數(shù)在凸多面體上取最大
這個要求好像是,讓「兩個互相掣肘的收益」加在一起最大化:
一部分收益G會越加?xùn)|西越大(單調(diào)),另一部分 H 可能先漲后跌(非單調(diào)),而選擇必須落在一個「不能超過上限」的凸集合里。
圖片
GPT-5做法是套用連續(xù)Frank-Wolfe思路,從零開始,每一步朝著「此刻最能漲分」的方向挪一小步,并使用「遮罩」保證不越界。
它把參考論文里「凹函數(shù)」的位置換成 H,推了個遞推式,最后得到一個拆分保證——
至少拿到約63%的G(o),再加上37%的H(o)(若H也單調(diào)則也是63%),外加一個隨步長參數(shù)ε線性衰減的小誤差。
圖片
猜想二:p-system約束下的「雙指標(biāo)」算法
這題允許「價值幾乎最優(yōu)(1?ε)」,但在可行性上稍微超一點(放寬倍數(shù)g(ε)),目標(biāo)是在越廣泛的p-system約束下把g(ε)壓到盡量小。
圖片

GPT-5提了個樸素而有效的流程,每一輪都在當(dāng)前解的基礎(chǔ)上,再做一次「在約束里盡可能有價值」的貪心選集(greedy),最后把若干輪的結(jié)果并起來。
證明關(guān)鍵是:每一輪都能把「距離最優(yōu)」的差距按p/(p+1)的比例縮小,多滾幾輪差距就指數(shù)式消退,于是只要做 ?≈ln(1/ε)/ln((p+1)/p)輪,就能把價值推到1?ε。
這也意味著,放寬倍數(shù) g_p(ε)=?ln(1/ε)/ln((p+1)/p)?。
部分解題過程如下:
圖片
令人意想不到的是,猜想二中,GPT-5甚至推導(dǎo)出不同的近似保證,經(jīng)核查后推翻原有猜想,并提供了有效解。
猜想三:γ-弱DR子模+凸約束的最大化
這個猜想把「邊際收益遞減」的連續(xù)版放寬為一個強度參數(shù) γ(γ=1即標(biāo)準(zhǔn)情形;γ越小,遞減越弱)。
圖片
GPT-5還是用Frank-Wolfe:步步解一個「沿梯度的線性子問題」,用小步長前進,并靠平滑性控制離散化誤差。
核心一步是把經(jīng)典證明中的關(guān)鍵不等式按γ縮放,于是把著名的1?1/e近似比提升為更一般的1?e^{?γ},再加上一個可調(diào)的L/(2K)級別誤差項(K為迭代輪數(shù))。
在研究人員看來,結(jié)論與推理主體靠譜。
只是GPT-5多假設(shè)了「向下封閉」這種其實用不上的條件、以及對「步長總和=1」的細節(jié)有點不一致。
圖片
可以看出,如果題目有明確的、單一的推理路徑,GPT-5表現(xiàn)不錯——五道題里有三道能給出幾乎正確的證明。
一旦需要把不同證明結(jié)合起來,比如4和5,GPT-5就搞不定了。
猜想五中,GPT-5倒是識別出了和作者設(shè)想一樣的算法,但分析得不對。
他們后來復(fù)盤發(fā)現(xiàn),這個證明其實有可能做出來,只是難度比預(yù)想的高。比起早期模型,GPT-5在組合優(yōu)化這種專業(yè)領(lǐng)域里,數(shù)學(xué)能力明顯進步,偶爾還會冒出一點小創(chuàng)新。
圖片
這恰恰說明了,它現(xiàn)在還缺乏「整合性推理」能力,這是個主要短板。
作者介紹
Moran Feldman
Moran Feldman是海法大學(xué)計算機科學(xué)系的教授。
圖片
在此之前,他曾擔(dān)任以色列開放大學(xué)的教職,并在洛桑聯(lián)邦理工學(xué)院(EPFL)擔(dān)任博士后研究員,師從Ola Svensson教授。
Amin Karbasi
圖片
Amin Karbasi思科基金會AI負責(zé)人,曾任Robust Intelligence首席科學(xué)家,耶魯大學(xué)教授,谷歌工程師。
參考資料:https://arxiv.org/abs/2509.18383 https://x.com/tunedgradient/status/1970955153361850606



































