OpenAI深夜雙王炸！GPT-5.1 Pro緊急發(fā)布，降維打擊Gemini 3

作者：新智元 2025-11-20 11:28:58

人工智能

今天，是OpenAI的主場，同一天祭出兩大殺器——GPT-5.1 Pro和GPT-5.1-Codex-Max。最強編碼模型首次采用「壓縮」機制，在數(shù)百萬token上連續(xù)編程超24小時。

AI圈一日一更的頻率，真的是有點跟不住了....

前兩天，先是Grok 4.1、Gemini 3 Pro發(fā)布，今天OpenAI GPT-5.1 Pro也靜默登場了！

沒有一篇博文，僅有兩句話官宣。

圖片

眾所周知，GPT-5.1主打「情商智商」雙強，Pro無疑將這兩大優(yōu)勢推向更高層次。

同一天，OpenAI全新王牌代碼模型GPT-5.1-Codex-Max，已經(jīng)在Codex平臺正式上線了！

圖片

從命名上不難看出，它是基于GPT-5.1搭載，并在軟件、工程、數(shù)學、研究等智能體任務專門訓練。

由此，GPT-5.1-Codex-Max能力更強、反應更快，而且用起來更省token。

新模型是專為「長時間、高強度」的開發(fā)任務而設計。

就這么說吧，它能連續(xù)自主工作超24小時，一口氣處理數(shù)百萬token，直接交付成果的那種。

圖片

這恰恰印證了，Scaling Law還在永續(xù)。

這是因為，GPT-5.1-Codex-Max是OpenAI首個「原生支持壓縮」機制的模型，可以跨越多個上下文工作。

這下，像項目重構、深度調(diào)試、多小時智能體循環(huán)這些任務，它都能穩(wěn)穩(wěn)接住。

圖片

目前，GPT-5.1 Pro已向所有Pro訂閱用戶推出。

GPT-5.1-Codex-Max已在Codex 中支持CLI、IDE 擴展、云端和代碼審查使用，API接口也將很快上線。

2025年臨近收官，AI終極對決一觸即發(fā)，GPT-5.1 Pro與Gemini 3 Pro之間，勝負之手將落于誰家？

圖片

OpenAI最強編程模型

這次的GPT-5.1-Codex-Max，那可是在「真實戰(zhàn)場」上煉出來的！

諸如在PR創(chuàng)建、代碼審查、前端開發(fā)、問答等工程師常見任務中，全部做過專門訓練。

在多項前沿編碼評測中，它都輕松超越了OpenAI此前所有模型。

圖片

還有在SWE-bench Verified上的評估結(jié)果中，GPT-5.1-Codex-Max拿下了77.9%的高分。

圖片

GPT-5.1-Codex-Max不僅跑分高，實際體驗更是大升級！

它是OpenAI首個可以在Windows環(huán)境中運行的模型，訓練中還針對Codex CLI協(xié)作場景做了優(yōu)化，更好用了。

思考token暴降30%

不僅如此，GPT-5.1-Codex-Max用起來也更省錢了。

在同樣「medium」（中等）推理強度下，它不光表現(xiàn)比GPT-5.1-Codex更好，而且思考過程所用的token量減少約30%。

圖片

對于不敏感于延遲的任務，新增的「Extra High」（xhigh）推理強度，可花費更多時間獲得優(yōu)質(zhì)答案。

不過，日常使用的話，OpenAI還是推薦medium。

token省下來了，這就意味著在實際開發(fā)中，成本可以大幅降低，可謂開發(fā)者的福音。

下面這些demo中，清晰呈現(xiàn)了GPT-5.1-Codex-Max和GPT-5.1-Codex使用token差異。即便是token減少，前者在前端設計中的功能和顏值都不輸以往。

比如，讓它們生成一個瀏覽器應用——即可交互的CartPole強化學習沙盒，需要包括小型策略梯度控制器、指標面板，以及一個SVG網(wǎng)絡可視化器。

圖片

上：GPT-5.1-Codex-Max；下：GPT-5.1-Codex

GPT-5.1-Codex-Max僅用27k思考token完成了任務，而且代碼更加精簡。

圖片

這個demo要求的是，做一個太陽系引力井沙盒，需要可視化物體在2D引力勢場中的運動，并支拖動平移視圖、環(huán)繞觀察場景。

圖片

上：GPT-5.1-Codex-Max；下：GPT-5.1-Codex

GPT-5.1-Codex-Max同樣用了更少的token，和更精煉的代碼完成了任務。

圖片

GPT-5.1-Codex-Max這么強，是因為采用了一套全新機制。

狂跑一天，全是「壓縮」

「壓縮」機制讓GPT-5.1-Codex-Max突破限制，處理那些因上下文太長而原本無法完成的任務。

比如，復雜重構和長時間智能體循環(huán)。

它會自動整理歷史內(nèi)容，篩選保留最關鍵的上下文，從而實現(xiàn)在長時間跨度內(nèi)連貫性。

在Codex中，當接近上下文上限時，GPT-5.1-Codex-Max會自動執(zhí)行會話壓縮，刷新上下文，并多次重復這一過程直到任務完成。

下面這個案例中，GPT-5.1-Codex-Max正在自主重構Codex CLI的開源倉庫。

可以看到，當上下文快滿時，它會自動壓縮釋放空間，從而在不丟失進度情況下完成任務。

圖片

視頻已經(jīng)過剪輯和加速處理，以便更清楚地展示過程

內(nèi)部測試顯示，GPT-5.1-Codex-Max能連續(xù)自主工作超24小時。

在此期間，可以不斷迭代實現(xiàn)、修復測試失敗，并最終交付可用成果。

這種長時間、連貫的任務能力，是邁向更通用、更可靠AI系統(tǒng)的通用基石。

在METR評估中，GPT-5.1-Codex-Max長程任務能力，成為了新的SOTA。

圖片

在OpenAI內(nèi)部，已有95%工程師每周都在用Codex，自從引入之后，團隊的Pull Request數(shù)量提升約70%。

現(xiàn)在，GPT-5.1-Codex-Max搭配著持續(xù)升級的CLI、IDE 擴展、云集成與代碼審查工具，編程效率直接起飛。

一些網(wǎng)友試用第一手感覺，瞬間驚艷了。

圖片

GPT-5.1 Pro上線，首測來了

至于GPT-5.1 Pro，正如開篇所說，OpenAI只是在版本更新日志里寫了兩段介紹。

雖然官方?jīng)]有單開一篇博客，但提前拿到內(nèi)測資格的大佬們，都非常興奮地在第一時間放出了自己的體驗感受。

圖片

對于GPT-5.1迭代后的性能，Epoch AI三方評估后稱，幾乎與GPT-5實力相當。

它們在high（高）推理模式下，能力指數(shù)（ECI）得分均151。

圖片

杰克森實驗室教授、人類免疫學家Derya Unutmaz表示，性能相較之前明顯提升了一個檔次的GPT-5.0 Pro，是他現(xiàn)在最喜愛的模型。

圖片

在下面的例子中，他分別向5.0和5.1 Pro詢問了免疫學領域最重要的未解之謎，并要求這兩個模型深入淺出地剖析每個問題，以便讓沒有免疫學學位的人也能理解其重要性。

其中，前兩個回復來自GPT-5.1 Pro，接下來的兩個較短回復來自GPT-5.0。

可以看到，GPT-5.1 Pro明顯更勝一籌，因為它能讓沒有免疫學背景的人更輕松地理解這些解釋，并且清晰地闡明了這些問題的重要性和潛在價值。

對比而言，GPT-5.1 Pro在清晰度和洞察力方面都有質(zhì)的提升。它的回答在保持深度的同時，內(nèi)容更完整自洽、更形象生動、也更易于理解。

雖然GPT-5.0的回復在內(nèi)容上也同樣出色，但剖析得不夠透徹。

GPT-5.1 Pro

GPT-5.0 GPT-5.0

HyperWrite AI的CEO Matt Shumer也在一篇超級長的體驗報告中表示：GPT-5.1 Pro是目前最好的「大腦」，雖然很慢，但深思熟慮。

對于大多數(shù)日常工作，Gemini 3更好；畢竟在一個獨立的界面中等待10分鐘才能得到答案顯然并不理想。

但對于任何需要深入思考、規(guī)劃和研究的任務，以及任何必須一次性做對的事情，GPT-5.1 Pro更好。

圖片

長文地址：https://shumer.dev/gpt51proreview

反應較慢，但聰明得離譜

它不僅比大多數(shù)人類更擅長推理，而且在處理真正棘手的難題時，也比其他任何模型都要聰明。

預計幾天內(nèi)，就會出現(xiàn)它解決了一些人們認為當今AI系統(tǒng)力所不及的問題的例子。

指令遵循能力是最大的亮點

它真的會嚴格執(zhí)行你的要求，而不會跑偏。

對于嚴肅的編碼任務，它給人的感覺不那么像一個「助手」，而更像是一個依據(jù)規(guī)格說明書工作的外包工程師（哪怕你的規(guī)格說明書有點模糊）。

前端和用戶體驗設計，以及寫作，都是弱項

不管是創(chuàng)意寫作，還是設計漂亮的UI，Gemini 3都要更勝一籌。

但最大的弱點還是界面

它只能在ChatGPT中使用，無法集成到IDE里，也無法連接到其他工具鏈中。這一點與GPT-5 Pro如出一轍。

參考資料：

https://x.com/OpenAI/status/1991266192905179613?s=20

https://x.com/OpenAIDevs/status/1991217488550359066?s=20

責任編輯：武曉燕來源：新智元