實(shí)測(cè)OpenAI最新模型!亮點(diǎn)真的爽,坑點(diǎn)兩行淚!解決GPT5頑疾!犀利吐槽:半發(fā)布的實(shí)驗(yàn)品,編程生態(tài)零件齊了,拼一塊兒就散架
原創(chuàng) 精選編輯 | 云昭
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
今天凌晨 1 點(diǎn),OpenAI 又搞了一件讓開發(fā)者大呼過癮的產(chǎn)品!
圖片
嚴(yán)格地說,這次的發(fā)布是一款新模型,而且是“半發(fā)布”:GPT-5-Codex。這是一個(gè)在 GPT-5 基礎(chǔ)上專門微調(diào)的版本,明確面向 OpenAI 的各種 AI 編程輔助工具。
之所以說是“半發(fā)布”,是因?yàn)樗壳斑€不能通過 API 使用,但 OpenAI 表示“計(jì)劃很快在 API 中開放 GPT-5-Codex”。
這款變體新模型的最大特點(diǎn),就是可以動(dòng)態(tài)分配“思考時(shí)間” —— 從幾秒鐘到七個(gè)小時(shí)不等,根據(jù)任務(wù)復(fù)雜度靈活調(diào)整。這讓它在 agentic 編程基準(zhǔn)測(cè)試 和 代碼重構(gòu)評(píng)測(cè)中表現(xiàn)大幅提升。
圖片
雖然沒有提供API,但最酷的是:
這個(gè)模型和我們平時(shí)用的工具綁定得非常深,比如 Codex CLI、Codex Web 界面,還有 Codex 擴(kuò)展。OpenAI 這一點(diǎn)真的幫開發(fā)者省了不少事。
據(jù)官網(wǎng)介紹,GPT-5-Codex 已經(jīng)集成到多個(gè) OpenAI 的編程工具中:
- VS Code 插件
- Codex CLI
- Codex Cloud(異步編程代理,可通過 iPhone App 使用)
- GitHub 集成
- ChatGPT 產(chǎn)品(Plus、Pro、Business、Edu、Enterprise 用戶可用)
此外,Codex Cloud 還增加了一個(gè)新功能:你可以把它配置成自動(dòng)對(duì)特定 GitHub 倉庫運(yùn)行代碼審查(可以在chatgpt.com/codex/settings/code-review 中找到這個(gè)選項(xiàng)),系統(tǒng)會(huì)為這些審查創(chuàng)建一個(gè)臨時(shí)容器。官方文檔里有詳細(xì)說明。
ps:官方文檔的鏈接,小編也為大家扒下來了:
https://developers.openai.com/codex/cloud/code-review
圖片
1.先來看,OpenAI都做了哪些工作?
那么,這次,GPT-5-Codex 具體哪些方面提升了呢?小編概括了以下6點(diǎn)OpenAI 做出的改進(jìn)方向。
首先,OpenAI 團(tuán)隊(duì)專門針對(duì)代碼審查進(jìn)行了訓(xùn)練,這正好支撐了他們的新功能。
其次,“GPT-5-Codex 會(huì)根據(jù)任務(wù)復(fù)雜度,更動(dòng)態(tài)地調(diào)整思考時(shí)間。” 簡(jiǎn)單任務(wù)(如“列出當(dāng)前目錄文件”)運(yùn)行更快,而大型復(fù)雜任務(wù)可能會(huì)運(yùn)行很久 —— OpenAI 表示在某些情況下 Codex 會(huì)持續(xù)工作 七個(gè)小時(shí)。
第三,在其專有的“代碼重構(gòu)評(píng)測(cè)”中,分?jǐn)?shù)從 GPT-5 的 33.9% 提升到 GPT-5-Codex 的 51.3%。雖然沒有完整評(píng)測(cè)細(xì)節(jié)很難完全理解,但至少能說明他們特別關(guān)注重構(gòu)能力。
其四,“GPT-5-Codex 在創(chuàng)建移動(dòng)網(wǎng)站時(shí),在人類偏好評(píng)測(cè)中有顯著提升。” 比如,之前大家一般總習(xí)慣在提示中強(qiáng)調(diào):“一定要移動(dòng)端友好”,現(xiàn)在可能不用再額外強(qiáng)調(diào)了。
其五,“我們發(fā)現(xiàn) GPT-5-Codex 的評(píng)論更少出現(xiàn)錯(cuò)誤或無關(guān)緊要的情況。” (減少代碼中無用的評(píng)論,這確實(shí)是進(jìn)步。)
第六,還有一個(gè)非常 Nice 的地方值得各位細(xì)讀,即,Codex CLI 中 GPT-5-Codex 的系統(tǒng)提示詞,它比其他模型的提示詞明顯更短。
圖片
有手快的網(wǎng)友已經(jīng)做了 diff 對(duì)比。
圖片
省流版地總結(jié)一下重點(diǎn):
- 動(dòng)態(tài)思考:不再像路由器那樣一開始就固定算力和時(shí)間,而是能在運(yùn)行過程中動(dòng)態(tài)決定是否需要更多時(shí)間。
- 代碼重構(gòu):在專有評(píng)測(cè)中,GPT-5 從 33.9% 提升到 GPT-5-Codex 的 51.3%。
- 移動(dòng)網(wǎng)站優(yōu)化:在人類偏好評(píng)測(cè)中有顯著提升,移動(dòng)端開發(fā)體驗(yàn)更好。
- 評(píng)論質(zhì)量:評(píng)論更少出錯(cuò)或無關(guān)緊要,減少無效信息干擾。
2.實(shí)測(cè)亮點(diǎn)和坑點(diǎn)
那么,實(shí)測(cè)效果如何呢?一位開發(fā)者已經(jīng)放出了自己的測(cè)評(píng)視頻,香是真的香。
網(wǎng)友 Theo Browne 在評(píng)測(cè)視頻中表示,整體印象不錯(cuò)。尤其是解決了GPT-5自發(fā)布以來飽受用戶詬病的“Token很快耗完”的問題。
“你們知道我對(duì) GPT-5 最大的抱怨之一,就是它在開發(fā)任務(wù)上又慢又費(fèi) Token。而 Codex 的優(yōu)化方向之一,正是這個(gè)痛點(diǎn)。”
圖片
舉個(gè)例子:任務(wù)復(fù)雜度不同,消耗的 Token 數(shù)差別巨大。
簡(jiǎn)單的比如“數(shù)到 10”,可能只需要 10 個(gè) Token;
但要是你讓它寫 15 種語言的代碼,或者數(shù)單詞里有多少個(gè)字母 R,那就是另一回事了。
對(duì)于代碼任務(wù),這個(gè)跨度更夸張,從 100 個(gè) Token 到上百萬都有可能。我自己隨便玩都跑到 62.8 萬 Token,用著用著還多次突破 100 萬。
所以, Codex 的思路是:小任務(wù)用小 Token,大任務(wù)才用大 Token。這點(diǎn)特別重要。
OpenAI 內(nèi)部員工數(shù)據(jù)也證明了這一點(diǎn):在最簡(jiǎn)單的 10% 任務(wù)里,Codex 比 GPT-5 少用了 93.7% 的 Token,幾乎縮小了 20 倍。但在最復(fù)雜的 10% 任務(wù)里,Codex 反而用得更多,推理、編輯、測(cè)試都花更多時(shí)間。這就是它的靈活性。
第二個(gè)亮點(diǎn),它是專門訓(xùn)練來做代碼審查和發(fā)現(xiàn)關(guān)鍵漏洞的。
圖片
審查時(shí),它會(huì)在你的代碼庫里導(dǎo)航,推理依賴關(guān)系,還會(huì)實(shí)際運(yùn)行代碼和測(cè)試,來驗(yàn)證正確性。
這位嘗鮮測(cè)試的網(wǎng)友還透露,他在和 OpenAI 員工聊天時(shí),對(duì)方反復(fù)強(qiáng)調(diào)這一點(diǎn):
GPT5-Codex 可不是簡(jiǎn)單的對(duì)比代碼差異,而是會(huì)在云端的容器里跑你的代碼、測(cè)試它、找 bug。
據(jù)爆料,OpenAI 內(nèi)部還用了實(shí)際的開源項(xiàng)目做了測(cè)試。每個(gè)提交都由有經(jīng)驗(yàn)的軟件工程師來評(píng)估 Codex 的審查意見是否正確和有用。結(jié)果發(fā)現(xiàn),GPT-5 Codex 的評(píng)論更少出錯(cuò)或沒意義,能讓用戶把注意力集中在關(guān)鍵問題上。
Browne 表示,“大部分 AI 代碼審查工具我用下來,喜歡瞎扯一堆沒價(jià)值的東西。CodeRabbit 和 Codex 在這點(diǎn)都改進(jìn)了,這點(diǎn)讓人很暖心。甚至其他不夠靠譜的工具,也可以調(diào)用 Codex 來提高審查質(zhì)量。”
還有一個(gè)體驗(yàn)非常好的亮點(diǎn)。
Codex 在代碼審查上表現(xiàn)得很強(qiáng)。它不只是看 diff,而是會(huì)跑代碼、執(zhí)行測(cè)試、找關(guān)鍵 bug。實(shí)際效果比大部分 AI Code Review 工具靠譜,錯(cuò)判少了三分之二,輸出的評(píng)論也更聚焦關(guān)鍵問題。
不過,Codex 也有很多問題:搜索功能非常拉胯,UI 體驗(yàn)還不成熟,各種小 bug 讓人抓狂。
例如,在使用 Codex CLI 的代碼搜索工具時(shí),表現(xiàn) surprisingly 糟糕。比如環(huán)境變量管理、擴(kuò)展里的交互邏輯、甚至默認(rèn)用 npm 而不是你真正用的工具,都挺煩的。不過,這可以能通過優(yōu)化系統(tǒng)提示詞更新來修復(fù)。(測(cè)評(píng)者并沒有要求的一些內(nèi)容,Codex很莽很激進(jìn)的去思考執(zhí)行了!)
圖片
尤其在UI方面,Codex 經(jīng)常會(huì)出現(xiàn) GPT-5很少會(huì)出現(xiàn)的元素重疊、分層異常的問題。
圖片
圖片
此外,Codex 的云端測(cè)試效果也有些讓人失望。
它基本沒跑出什么結(jié)果。這就是我對(duì)它的感受——半殘廢狀態(tài)。雖然偶爾會(huì)顯示一些改動(dòng),但經(jīng)常胡亂幻覺,比如把模型名字編造錯(cuò)了——其實(shí)是 Fal/ Gemini 2.5 Flash Image / Edit,結(jié)果它給了完全假的名字。它根本沒去查網(wǎng)頁,就胡編。
說實(shí)話,云端這部分讓我很失望。我用過的那些后臺(tái) agent 也都差不多,都沒啥好體驗(yàn)。Codex 在一些基本操作上總是出問題,比如 rip grep 文件、找模型名字。我明明告訴它模型不存在,按理說它應(yīng)該上網(wǎng)查,而不是去 node_modules 里瞎翻。
更糟的是通知系統(tǒng)。我拍完視頻后發(fā)現(xiàn) Codex 在我手機(jī)上掛了一個(gè)半小時(shí),說任務(wù)完成了,可以開 PR,但實(shí)際上啥也沒跑出來。
所以,Browne給出了這樣的結(jié)論:“整體上看,新模型它還不算一個(gè)成熟的產(chǎn)品,更像是和我們一起成長(zhǎng)的實(shí)驗(yàn)品。”
3.吐槽:Codex 名字的產(chǎn)品都有十個(gè)了!
吐槽 OpenAI 有一堆名字都叫 Codex 的產(chǎn)品(得有十來個(gè)吧),讓人一頭霧水。這次的新模型又往里面加了一層。
不過至少“GPT-5-Codex”這個(gè)名字(用了兩個(gè)連字符)足夠明確,不至于讓混亂更嚴(yán)重。
一位知開發(fā)者大牛Simon Willson認(rèn)為,可以把 Codex 理解為 OpenAI 針對(duì)編程相關(guān)模型和工具的品牌名稱。
圖片
4.如何使用?
要嘗試這款新模型,需要確保先將 codex cli 更新至 v0.36.0:
`npm install -g @openai/codex@latest`然后使用以下命令運(yùn)行 codex:
`codex -m gpt-5-codex -c model_reasoning_effort="high"`npm install -g @openai/codex@latest
codex -m gpt-5-codex -c model_reasoning_effort="high"5.OpenAI的編程稱霸路并不平坦,零件有了,但拼在一起容易散架
從 GPT-5-Codex 的推出,可以看出,OpenAI 正在為編程智能體構(gòu)建一個(gè)更成熟的產(chǎn)品矩陣:
- 工具鏈覆蓋 IDE、CLI、云端、移動(dòng)端、GitHub
- 性能重點(diǎn)放在 代碼審查、重構(gòu)、移動(dòng)端開發(fā)優(yōu)化
- 核心創(chuàng)新在于 動(dòng)態(tài)思考能力,為長(zhǎng)時(shí)任務(wù)打開了可能性
而這三點(diǎn),也是今年夏天以來,奧特曼尋求重金收購 Cursor、Windsurf 未果后,給自家編程產(chǎn)品的三個(gè)改進(jìn)信號(hào)。
在競(jìng)爭(zhēng)白熱化的 AI 編程市場(chǎng),OpenAI 悟了:市場(chǎng)不僅是需要更棒的模型性能,同樣更需要生態(tài)整合。GPT-5-Codex 可能就是他們的關(guān)鍵一子。
但問題就在于,這一次的整合遠(yuǎn)沒有達(dá)到理想。
上述測(cè)評(píng)的開發(fā)者表示,Codex 生態(tài)的整體感覺就是:
零件都有了,但拼成完整拼圖時(shí)總是散架。缺乏整體的連貫性,這是個(gè)大問題。
GPT-5 本身還是我用過的最強(qiáng)的 Agentic 代碼模型,但 Codex 工具套件,尤其是 Web 界面和 VS Code 插件,顯得很笨拙。
相比之下,我寧愿在 GPT-5 上用其他第三方工具,比如 OpenCode、KiloCode 之類。Codex CLI 在進(jìn)步,但這些進(jìn)步?jīng)]傳遞到 Web 版本和編輯器擴(kuò)展里。































