OpenAI深夜雙王炸!GPT-5.1 Pro緊急發(fā)布,降維打擊Gemini 3
AI圈一日一更的頻率,真的是有點跟不住了....
前兩天,先是Grok 4.1、Gemini 3 Pro發(fā)布,今天OpenAI GPT-5.1 Pro也靜默登場了!
沒有一篇博文,僅有兩句話官宣。
圖片
眾所周知,GPT-5.1主打「情商智商」雙強,Pro無疑將這兩大優(yōu)勢推向更高層次。
同一天,OpenAI全新王牌代碼模型GPT-5.1-Codex-Max,已經(jīng)在Codex平臺正式上線了!
圖片
從命名上不難看出,它是基于GPT-5.1搭載,并在軟件、工程、數(shù)學、研究等智能體任務專門訓練。
由此,GPT-5.1-Codex-Max能力更強、反應更快,而且用起來更省token。
新模型是專為「長時間、高強度」的開發(fā)任務而設計。
就這么說吧,它能連續(xù)自主工作超24小時,一口氣處理數(shù)百萬token,直接交付成果的那種。
圖片
這恰恰印證了,Scaling Law還在永續(xù)。
這是因為,GPT-5.1-Codex-Max是OpenAI首個「原生支持壓縮」機制的模型,可以跨越多個上下文工作。
這下,像項目重構、深度調(diào)試、多小時智能體循環(huán)這些任務,它都能穩(wěn)穩(wěn)接住。
圖片
目前,GPT-5.1 Pro已向所有Pro訂閱用戶推出。
GPT-5.1-Codex-Max已在Codex 中支持CLI、IDE 擴展、云端和代碼審查使用,API接口也將很快上線。
2025年臨近收官,AI終極對決一觸即發(fā),GPT-5.1 Pro與Gemini 3 Pro之間,勝負之手將落于誰家?
圖片
OpenAI最強編程模型
這次的GPT-5.1-Codex-Max,那可是在「真實戰(zhàn)場」上煉出來的!
諸如在PR創(chuàng)建、代碼審查、前端開發(fā)、問答等工程師常見任務中,全部做過專門訓練。
在多項前沿編碼評測中,它都輕松超越了OpenAI此前所有模型。
圖片
還有在SWE-bench Verified上的評估結(jié)果中,GPT-5.1-Codex-Max拿下了77.9%的高分。
圖片
GPT-5.1-Codex-Max不僅跑分高,實際體驗更是大升級!
它是OpenAI首個可以在Windows環(huán)境中運行的模型,訓練中還針對Codex CLI協(xié)作場景做了優(yōu)化,更好用了。
思考token暴降30%
不僅如此,GPT-5.1-Codex-Max用起來也更省錢了。
在同樣「medium」(中等)推理強度下,它不光表現(xiàn)比GPT-5.1-Codex更好,而且思考過程所用的token量減少約30%。
圖片
對于不敏感于延遲的任務,新增的「Extra High」(xhigh)推理強度,可花費更多時間獲得優(yōu)質(zhì)答案。
不過,日常使用的話,OpenAI還是推薦medium。
token省下來了,這就意味著在實際開發(fā)中,成本可以大幅降低,可謂開發(fā)者的福音。
下面這些demo中,清晰呈現(xiàn)了GPT-5.1-Codex-Max和GPT-5.1-Codex使用token差異。即便是token減少,前者在前端設計中的功能和顏值都不輸以往。
比如,讓它們生成一個瀏覽器應用——即可交互的CartPole強化學習沙盒,需要包括小型策略梯度控制器、指標面板,以及一個SVG網(wǎng)絡可視化器。
圖片
圖片
上:GPT-5.1-Codex-Max;下:GPT-5.1-Codex
GPT-5.1-Codex-Max僅用27k思考token完成了任務,而且代碼更加精簡。
圖片
這個demo要求的是,做一個太陽系引力井沙盒,需要可視化物體在2D引力勢場中的運動,并支拖動平移視圖、環(huán)繞觀察場景。
圖片
圖片
上:GPT-5.1-Codex-Max;下:GPT-5.1-Codex
GPT-5.1-Codex-Max同樣用了更少的token,和更精煉的代碼完成了任務。
圖片
GPT-5.1-Codex-Max這么強,是因為采用了一套全新機制。
狂跑一天,全是「壓縮」
「壓縮」機制讓GPT-5.1-Codex-Max突破限制,處理那些因上下文太長而原本無法完成的任務。
比如,復雜重構和長時間智能體循環(huán)。
它會自動整理歷史內(nèi)容,篩選保留最關鍵的上下文,從而實現(xiàn)在長時間跨度內(nèi)連貫性。
在Codex中,當接近上下文上限時,GPT-5.1-Codex-Max會自動執(zhí)行會話壓縮,刷新上下文,并多次重復這一過程直到任務完成。
下面這個案例中,GPT-5.1-Codex-Max正在自主重構Codex CLI的開源倉庫。
可以看到,當上下文快滿時,它會自動壓縮釋放空間,從而在不丟失進度情況下完成任務。
圖片
視頻已經(jīng)過剪輯和加速處理,以便更清楚地展示過程
內(nèi)部測試顯示,GPT-5.1-Codex-Max能連續(xù)自主工作超24小時。
在此期間,可以不斷迭代實現(xiàn)、修復測試失敗,并最終交付可用成果。
這種長時間、連貫的任務能力,是邁向更通用、更可靠AI系統(tǒng)的通用基石。
在METR評估中,GPT-5.1-Codex-Max長程任務能力,成為了新的SOTA。
圖片
在OpenAI內(nèi)部,已有95%工程師每周都在用Codex,自從引入之后,團隊的Pull Request數(shù)量提升約70%。
現(xiàn)在,GPT-5.1-Codex-Max搭配著持續(xù)升級的CLI、IDE 擴展、云集成與代碼審查工具,編程效率直接起飛。
一些網(wǎng)友試用第一手感覺,瞬間驚艷了。
圖片
圖片
GPT-5.1 Pro上線,首測來了
至于GPT-5.1 Pro,正如開篇所說,OpenAI只是在版本更新日志里寫了兩段介紹。
雖然官方?jīng)]有單開一篇博客,但提前拿到內(nèi)測資格的大佬們,都非常興奮地在第一時間放出了自己的體驗感受。
圖片
對于GPT-5.1迭代后的性能,Epoch AI三方評估后稱,幾乎與GPT-5實力相當。
它們在high(高)推理模式下,能力指數(shù)(ECI)得分均151。
圖片
杰克森實驗室教授、人類免疫學家Derya Unutmaz表示,性能相較之前明顯提升了一個檔次的GPT-5.0 Pro,是他現(xiàn)在最喜愛的模型。
圖片
在下面的例子中,他分別向5.0和5.1 Pro詢問了免疫學領域最重要的未解之謎,并要求這兩個模型深入淺出地剖析每個問題,以便讓沒有免疫學學位的人也能理解其重要性。
其中,前兩個回復來自GPT-5.1 Pro,接下來的兩個較短回復來自GPT-5.0。
可以看到,GPT-5.1 Pro明顯更勝一籌,因為它能讓沒有免疫學背景的人更輕松地理解這些解釋,并且清晰地闡明了這些問題的重要性和潛在價值。
對比而言,GPT-5.1 Pro在清晰度和洞察力方面都有質(zhì)的提升。它的回答在保持深度的同時,內(nèi)容更完整自洽、更形象生動、也更易于理解。
雖然GPT-5.0的回復在內(nèi)容上也同樣出色,但剖析得不夠透徹。
GPT-5.1 Pro
GPT-5.0
HyperWrite AI的CEO Matt Shumer也在一篇超級長的體驗報告中表示:GPT-5.1 Pro是目前最好的「大腦」,雖然很慢,但深思熟慮。
對于大多數(shù)日常工作,Gemini 3更好;畢竟在一個獨立的界面中等待10分鐘才能得到答案顯然并不理想。
但對于任何需要深入思考、規(guī)劃和研究的任務,以及任何必須一次性做對的事情,GPT-5.1 Pro更好。
圖片
長文地址:https://shumer.dev/gpt51proreview
- 反應較慢,但聰明得離譜
它不僅比大多數(shù)人類更擅長推理,而且在處理真正棘手的難題時,也比其他任何模型都要聰明。
預計幾天內(nèi),就會出現(xiàn)它解決了一些人們認為當今AI系統(tǒng)力所不及的問題的例子。
- 指令遵循能力是最大的亮點
它真的會嚴格執(zhí)行你的要求,而不會跑偏。
對于嚴肅的編碼任務,它給人的感覺不那么像一個「助手」,而更像是一個依據(jù)規(guī)格說明書工作的外包工程師(哪怕你的規(guī)格說明書有點模糊)。
- 前端和用戶體驗設計,以及寫作,都是弱項
不管是創(chuàng)意寫作,還是設計漂亮的UI,Gemini 3都要更勝一籌。
- 但最大的弱點還是界面
它只能在ChatGPT中使用,無法集成到IDE里,也無法連接到其他工具鏈中。這一點與GPT-5 Pro如出一轍。
參考資料:
https://x.com/OpenAI/status/1991266192905179613?s=20
https://x.com/OpenAIDevs/status/1991217488550359066?s=20





































