實(shí)測(cè)OpenAI最新模型！亮點(diǎn)真的爽，坑點(diǎn)兩行淚！解決GPT5頑疾！犀利吐槽：半發(fā)布的實(shí)驗(yàn)品，編程生態(tài)零件齊了，拼一塊兒就散架

作者：云昭 2025-09-16 13:43:04

今天凌晨 1 點(diǎn)，OpenAI 又搞了一件讓開發(fā)者大呼過癮的產(chǎn)品！嚴(yán)格地說，這次的發(fā)布是一款新模型，而且是“半發(fā)布”：GPT-5-Codex。這是一個(gè)在 GPT-5 基礎(chǔ)上專門微調(diào)的版本，明確面向 OpenAI 的各種 AI 編程輔助工具。

編輯 | 云昭

出品 | 51CTO技術(shù)棧（微信號(hào)：blog51cto）

今天凌晨 1 點(diǎn)，OpenAI 又搞了一件讓開發(fā)者大呼過癮的產(chǎn)品！

圖片

嚴(yán)格地說，這次的發(fā)布是一款新模型，而且是“半發(fā)布”：GPT-5-Codex。這是一個(gè)在 GPT-5 基礎(chǔ)上專門微調(diào)的版本，明確面向 OpenAI 的各種 AI 編程輔助工具。

之所以說是“半發(fā)布”，是因?yàn)樗壳斑€不能通過 API 使用，但 OpenAI 表示“計(jì)劃很快在 API 中開放 GPT-5-Codex”。

這款變體新模型的最大特點(diǎn)，就是可以動(dòng)態(tài)分配“思考時(shí)間” —— 從幾秒鐘到七個(gè)小時(shí)不等，根據(jù)任務(wù)復(fù)雜度靈活調(diào)整。這讓它在 agentic 編程基準(zhǔn)測(cè)試 和 代碼重構(gòu)評(píng)測(cè)中表現(xiàn)大幅提升。

圖片

雖然沒有提供API，但最酷的是：

這個(gè)模型和我們平時(shí)用的工具綁定得非常深，比如 Codex CLI、Codex Web 界面，還有 Codex 擴(kuò)展。OpenAI 這一點(diǎn)真的幫開發(fā)者省了不少事。

據(jù)官網(wǎng)介紹，GPT-5-Codex 已經(jīng)集成到多個(gè) OpenAI 的編程工具中：

VS Code 插件
Codex CLI
Codex Cloud（異步編程代理，可通過 iPhone App 使用）
GitHub 集成
ChatGPT 產(chǎn)品（Plus、Pro、Business、Edu、Enterprise 用戶可用）

此外，Codex Cloud 還增加了一個(gè)新功能：你可以把它配置成自動(dòng)對(duì)特定 GitHub 倉庫運(yùn)行代碼審查（可以在chatgpt.com/codex/settings/code-review 中找到這個(gè)選項(xiàng)），系統(tǒng)會(huì)為這些審查創(chuàng)建一個(gè)臨時(shí)容器。官方文檔里有詳細(xì)說明。

ps：官方文檔的鏈接，小編也為大家扒下來了：

https://developers.openai.com/codex/cloud/code-review

圖片

1.先來看，OpenAI都做了哪些工作？

那么，這次，GPT-5-Codex 具體哪些方面提升了呢？小編概括了以下6點(diǎn)OpenAI 做出的改進(jìn)方向。

首先，OpenAI 團(tuán)隊(duì)專門針對(duì)代碼審查進(jìn)行了訓(xùn)練，這正好支撐了他們的新功能。

其次，“GPT-5-Codex 會(huì)根據(jù)任務(wù)復(fù)雜度，更動(dòng)態(tài)地調(diào)整思考時(shí)間。” 簡(jiǎn)單任務(wù)（如“列出當(dāng)前目錄文件”）運(yùn)行更快，而大型復(fù)雜任務(wù)可能會(huì)運(yùn)行很久 —— OpenAI 表示在某些情況下 Codex 會(huì)持續(xù)工作 七個(gè)小時(shí)。

第三，在其專有的“代碼重構(gòu)評(píng)測(cè)”中，分?jǐn)?shù)從 GPT-5 的 33.9% 提升到 GPT-5-Codex 的 51.3%。雖然沒有完整評(píng)測(cè)細(xì)節(jié)很難完全理解，但至少能說明他們特別關(guān)注重構(gòu)能力。

其四，“GPT-5-Codex 在創(chuàng)建移動(dòng)網(wǎng)站時(shí)，在人類偏好評(píng)測(cè)中有顯著提升。” 比如，之前大家一般總習(xí)慣在提示中強(qiáng)調(diào)：“一定要移動(dòng)端友好”，現(xiàn)在可能不用再額外強(qiáng)調(diào)了。

其五，“我們發(fā)現(xiàn) GPT-5-Codex 的評(píng)論更少出現(xiàn)錯(cuò)誤或無關(guān)緊要的情況。” （減少代碼中無用的評(píng)論，這確實(shí)是進(jìn)步。）

第六，還有一個(gè)非常 Nice 的地方值得各位細(xì)讀，即，Codex CLI 中 GPT-5-Codex 的系統(tǒng)提示詞，它比其他模型的提示詞明顯更短。

圖片

有手快的網(wǎng)友已經(jīng)做了 diff 對(duì)比。

圖片

省流版地總結(jié)一下重點(diǎn)：

動(dòng)態(tài)思考：不再像路由器那樣一開始就固定算力和時(shí)間，而是能在運(yùn)行過程中動(dòng)態(tài)決定是否需要更多時(shí)間。
代碼重構(gòu)：在專有評(píng)測(cè)中，GPT-5 從 33.9% 提升到 GPT-5-Codex 的 51.3%。
移動(dòng)網(wǎng)站優(yōu)化：在人類偏好評(píng)測(cè)中有顯著提升，移動(dòng)端開發(fā)體驗(yàn)更好。
評(píng)論質(zhì)量：評(píng)論更少出錯(cuò)或無關(guān)緊要，減少無效信息干擾。

2.實(shí)測(cè)亮點(diǎn)和坑點(diǎn)

那么，實(shí)測(cè)效果如何呢？一位開發(fā)者已經(jīng)放出了自己的測(cè)評(píng)視頻，香是真的香。

網(wǎng)友 Theo Browne 在評(píng)測(cè)視頻中表示，整體印象不錯(cuò)。尤其是解決了GPT-5自發(fā)布以來飽受用戶詬病的“Token很快耗完”的問題。

“你們知道我對(duì) GPT-5 最大的抱怨之一，就是它在開發(fā)任務(wù)上又慢又費(fèi) Token。而 Codex 的優(yōu)化方向之一，正是這個(gè)痛點(diǎn)。”

圖片

舉個(gè)例子：任務(wù)復(fù)雜度不同，消耗的 Token 數(shù)差別巨大。

簡(jiǎn)單的比如“數(shù)到 10”，可能只需要 10 個(gè) Token；
但要是你讓它寫 15 種語言的代碼，或者數(shù)單詞里有多少個(gè)字母 R，那就是另一回事了。
對(duì)于代碼任務(wù)，這個(gè)跨度更夸張，從 100 個(gè) Token 到上百萬都有可能。我自己隨便玩都跑到 62.8 萬 Token，用著用著還多次突破 100 萬。

所以， Codex 的思路是：小任務(wù)用小 Token，大任務(wù)才用大 Token。這點(diǎn)特別重要。

OpenAI 內(nèi)部員工數(shù)據(jù)也證明了這一點(diǎn)：在最簡(jiǎn)單的 10% 任務(wù)里，Codex 比 GPT-5 少用了 93.7% 的 Token，幾乎縮小了 20 倍。但在最復(fù)雜的 10% 任務(wù)里，Codex 反而用得更多，推理、編輯、測(cè)試都花更多時(shí)間。這就是它的靈活性。

第二個(gè)亮點(diǎn)，它是專門訓(xùn)練來做代碼審查和發(fā)現(xiàn)關(guān)鍵漏洞的。

圖片

審查時(shí)，它會(huì)在你的代碼庫里導(dǎo)航，推理依賴關(guān)系，還會(huì)實(shí)際運(yùn)行代碼和測(cè)試，來驗(yàn)證正確性。

這位嘗鮮測(cè)試的網(wǎng)友還透露，他在和 OpenAI 員工聊天時(shí)，對(duì)方反復(fù)強(qiáng)調(diào)這一點(diǎn)：

GPT5-Codex 可不是簡(jiǎn)單的對(duì)比代碼差異，而是會(huì)在云端的容器里跑你的代碼、測(cè)試它、找 bug。

據(jù)爆料，OpenAI 內(nèi)部還用了實(shí)際的開源項(xiàng)目做了測(cè)試。每個(gè)提交都由有經(jīng)驗(yàn)的軟件工程師來評(píng)估 Codex 的審查意見是否正確和有用。結(jié)果發(fā)現(xiàn)，GPT-5 Codex 的評(píng)論更少出錯(cuò)或沒意義，能讓用戶把注意力集中在關(guān)鍵問題上。

Browne 表示，“大部分 AI 代碼審查工具我用下來，喜歡瞎扯一堆沒價(jià)值的東西。CodeRabbit 和 Codex 在這點(diǎn)都改進(jìn)了，這點(diǎn)讓人很暖心。甚至其他不夠靠譜的工具，也可以調(diào)用 Codex 來提高審查質(zhì)量。”

還有一個(gè)體驗(yàn)非常好的亮點(diǎn)。

Codex 在代碼審查上表現(xiàn)得很強(qiáng)。它不只是看 diff，而是會(huì)跑代碼、執(zhí)行測(cè)試、找關(guān)鍵 bug。實(shí)際效果比大部分 AI Code Review 工具靠譜，錯(cuò)判少了三分之二，輸出的評(píng)論也更聚焦關(guān)鍵問題。

不過，Codex 也有很多問題：搜索功能非常拉胯，UI 體驗(yàn)還不成熟，各種小 bug 讓人抓狂。

例如，在使用 Codex CLI 的代碼搜索工具時(shí)，表現(xiàn) surprisingly 糟糕。比如環(huán)境變量管理、擴(kuò)展里的交互邏輯、甚至默認(rèn)用 npm 而不是你真正用的工具，都挺煩的。不過，這可以能通過優(yōu)化系統(tǒng)提示詞更新來修復(fù)。（測(cè)評(píng)者并沒有要求的一些內(nèi)容，Codex很莽很激進(jìn)的去思考執(zhí)行了！）

圖片

尤其在UI方面，Codex 經(jīng)常會(huì)出現(xiàn) GPT-5很少會(huì)出現(xiàn)的元素重疊、分層異常的問題。

圖片

此外，Codex 的云端測(cè)試效果也有些讓人失望。

它基本沒跑出什么結(jié)果。這就是我對(duì)它的感受——半殘廢狀態(tài)。雖然偶爾會(huì)顯示一些改動(dòng)，但經(jīng)常胡亂幻覺，比如把模型名字編造錯(cuò)了——其實(shí)是 Fal/ Gemini 2.5 Flash Image / Edit，結(jié)果它給了完全假的名字。它根本沒去查網(wǎng)頁，就胡編。
說實(shí)話，云端這部分讓我很失望。我用過的那些后臺(tái) agent 也都差不多，都沒啥好體驗(yàn)。Codex 在一些基本操作上總是出問題，比如 rip grep 文件、找模型名字。我明明告訴它模型不存在，按理說它應(yīng)該上網(wǎng)查，而不是去 node_modules 里瞎翻。

更糟的是通知系統(tǒng)。我拍完視頻后發(fā)現(xiàn) Codex 在我手機(jī)上掛了一個(gè)半小時(shí)，說任務(wù)完成了，可以開 PR，但實(shí)際上啥也沒跑出來。

所以，Browne給出了這樣的結(jié)論：“整體上看，新模型它還不算一個(gè)成熟的產(chǎn)品，更像是和我們一起成長(zhǎng)的實(shí)驗(yàn)品。”

3.吐槽：Codex 名字的產(chǎn)品都有十個(gè)了！

吐槽 OpenAI 有一堆名字都叫 Codex 的產(chǎn)品（得有十來個(gè)吧），讓人一頭霧水。這次的新模型又往里面加了一層。

不過至少“GPT-5-Codex”這個(gè)名字（用了兩個(gè)連字符）足夠明確，不至于讓混亂更嚴(yán)重。

一位知開發(fā)者大牛Simon Willson認(rèn)為，可以把 Codex 理解為 OpenAI 針對(duì)編程相關(guān)模型和工具的品牌名稱。

圖片

4.如何使用？

要嘗試這款新模型，需要確保先將 codex cli 更新至 v0.36.0：

`npm install -g @openai/codex@latest`

然后使用以下命令運(yùn)行 codex：

`codex -m gpt-5-codex -c model_reasoning_effort="high"`

npm install -g @openai/codex@latest
  codex -m gpt-5-codex -c model_reasoning_effort="high"

5.OpenAI的編程稱霸路并不平坦，零件有了，但拼在一起容易散架

從 GPT-5-Codex 的推出，可以看出，OpenAI 正在為編程智能體構(gòu)建一個(gè)更成熟的產(chǎn)品矩陣：

工具鏈覆蓋 IDE、CLI、云端、移動(dòng)端、GitHub
性能重點(diǎn)放在 代碼審查、重構(gòu)、移動(dòng)端開發(fā)優(yōu)化
核心創(chuàng)新在于 動(dòng)態(tài)思考能力，為長(zhǎng)時(shí)任務(wù)打開了可能性

而這三點(diǎn)，也是今年夏天以來，奧特曼尋求重金收購 Cursor、Windsurf 未果后，給自家編程產(chǎn)品的三個(gè)改進(jìn)信號(hào)。

在競(jìng)爭(zhēng)白熱化的 AI 編程市場(chǎng)，OpenAI 悟了：市場(chǎng)不僅是需要更棒的模型性能，同樣更需要生態(tài)整合。GPT-5-Codex 可能就是他們的關(guān)鍵一子。

但問題就在于，這一次的整合遠(yuǎn)沒有達(dá)到理想。

上述測(cè)評(píng)的開發(fā)者表示，Codex 生態(tài)的整體感覺就是：

零件都有了，但拼成完整拼圖時(shí)總是散架。缺乏整體的連貫性，這是個(gè)大問題。

GPT-5 本身還是我用過的最強(qiáng)的 Agentic 代碼模型，但 Codex 工具套件，尤其是 Web 界面和 VS Code 插件，顯得很笨拙。
相比之下，我寧愿在 GPT-5 上用其他第三方工具，比如 OpenCode、KiloCode 之類。Codex CLI 在進(jìn)步，但這些進(jìn)步?jīng)]傳遞到 Web 版本和編輯器擴(kuò)展里。

參考鏈接

https://simonwillison.net/2025/Sep/15/gpt-5-codex/

https://www.youtube.com/watch?v=j9wvCrON3XA&t=253s

責(zé)任編輯：武曉燕來源： 51CTO技術(shù)棧