GPT-5.1 Codex 比Claude便宜 55%，代碼漏洞更少！全棧開發(fā)老鳥警告：Anthropic 需要重新考慮定價(jià)了！原創(chuàng)

發(fā)布于 2025-11-17 15:12

瀏覽

0收藏

編輯 | 聽雨

出品 | 51CTO技術(shù)棧（微信號(hào)：blog51cto）

現(xiàn)在已經(jīng)有太多能寫代碼、而且寫得非常好的模型了。Sonnets、Haiku 4.5、Codex 系列、GLM、Kimi K2 Thinking、GPT 5.1……幾乎每個(gè)都足以應(yīng)付日常的大多數(shù)編碼任務(wù)。

但對(duì)于開發(fā)者來說，誰也不想把時(shí)間和金錢花在一個(gè)排名第二或第三的模型上。最近，小編注意到一位全棧工程師 Rohith Singh 在Reddit上發(fā)表了一篇帖子，介紹他如何對(duì)四個(gè)模型（Kimi K2 Thinking、Sonnet 4.5、GPT-5 Codex 和 GPT-5.1 Codex）進(jìn)行了實(shí)測(cè)。

GPT-5.1 Codex 比Claude便宜 55%，代碼漏洞更少！全棧開發(fā)老鳥警告：Anthropic 需要重新考慮定價(jià)了！-AI.x社區(qū) 圖片

他給四個(gè)模型提供了完全相同的提示，要求它們解決可觀測(cè)性平臺(tái)中的兩個(gè)復(fù)雜問題：統(tǒng)計(jì)異常檢測(cè)和分布式告警去重。同一套代碼庫、完全一致的需求、同樣的 IDE 配置。

最終結(jié)論是GPT-5和GPT-5.1 Codex 的表現(xiàn)非常出色，它們真正交付了可上線運(yùn)行的代碼，漏洞最少；他也分析了每個(gè)模型各自的長處：Sonnet 4.5擅長提供高質(zhì)量、經(jīng)過充分推理的架構(gòu)設(shè)計(jì)和文檔輸出，Kimi則勝在創(chuàng)意十足且成本低。

最關(guān)鍵的是，GPT-5 Codex 相比Claude的可用代碼成本便宜 43%，GPT-5.1 則便宜了55%。

這位老哥在 Reddit 上表示：OpenAI 顯然在追逐 Anthropic 的企業(yè)利潤，而 Anthropic 需要重新考慮定價(jià)策略了！

完整代碼：

github.com/rohittcodes/tracer

如果你想深入研究可以去看看。提前說一句：這是作者專門為這次評(píng)測(cè)搭的測(cè)試框架，并不是一個(gè)打磨完善的產(chǎn)品，所以會(huì)有些粗糙的地方。

一、先放結(jié)論：GPT-5.1 Codex 是最終贏家

測(cè)試 1 ：高級(jí)異常檢測(cè)GPT-5 和 GPT-5.1 Codex 都成功產(chǎn)出了可運(yùn)行的代碼。Claude 和 Kimi 則都存在會(huì)在生產(chǎn)環(huán)境中崩潰的關(guān)鍵性錯(cuò)誤。GPT-5.1 在架構(gòu)上改進(jìn)了 GPT-5，并且速度更快（11 分鐘 vs 18 分鐘）。

測(cè)試 2 ：分布式告警去重兩款 Codex 再次獲勝，并真正完成了端到端集成。Claude 的整體架構(gòu)不錯(cuò)，但沒有把流程串起來。Kimi 有一些聰明的想法，但重復(fù)檢測(cè)邏輯是壞的。

測(cè)試環(huán)境使用了各模型自帶的 CLI agent：

Claude Code：Sonnet 4.5
GPT-5 和 5.1 Codex：Codex CLI
Kimi K2 Thinking：Kimi CLI

關(guān)鍵在于，GPT-5 Codex 總成本是0.95美元，而 Claude 則是1.68美元。也就是說 Codex 便宜 43%，而且代碼是真的能跑。GPT-5.1 更高效，總成本為0.76美元（測(cè)試1花了0.39美元，測(cè)試 2 花了0.37美元），比 Claude 便宜了55%。

GPT-5.1 Codex 比Claude便宜 55%，代碼漏洞更少！全棧開發(fā)老鳥警告：Anthropic 需要重新考慮定價(jià)了！-AI.x社區(qū) 圖片

GPT 5.1 Codex：

GPT-5.1 Codex 比Claude便宜 55%，代碼漏洞更少！全棧開發(fā)老鳥警告：Anthropic 需要重新考慮定價(jià)了！-AI.x社區(qū) 圖片

官方基準(zhǔn)：

GPT-5.1 Codex 比Claude便宜 55%，代碼漏洞更少！全棧開發(fā)老鳥警告：Anthropic 需要重新考慮定價(jià)了！-AI.x社區(qū) 圖片

定價(jià)：

Claude：輸入 $3 / 百萬 token，輸出 $15 / 百萬 token
GPT-5.1：輸入 $1.25 / 百萬 token，輸出 $10 / 百萬 token
Kimi：輸入 $0.60 / 百萬 token，輸出 $2.50 / 百萬 token

測(cè)試如何進(jìn)行：

我給所有模型提供了完全相同的提示，讓它們解決可觀測(cè)性平臺(tái)中的兩個(gè)高難度問題：統(tǒng)計(jì)異常檢測(cè)和分布式告警去重。這些可不是玩具題，而是需要對(duì)邊界情況、系統(tǒng)架構(gòu)進(jìn)行深入推理的那種任務(wù)。

我在 Cursor IDE 中完成所有設(shè)置，并記錄了token 使用量、耗時(shí)、代碼質(zhì)量，以及是否真正與現(xiàn)有代碼庫完成集成。最后這一點(diǎn)的影響遠(yuǎn)超我的預(yù)期。

關(guān)于工具的小提示：Codex CLI 自我上次使用以來已經(jīng)好很多了。支持推理流式輸出、會(huì)話恢復(fù)更可靠，還能顯示緩存 token 的使用情況。Claude Code 依然是最精致的：內(nèi)聯(lián)代碼點(diǎn)評(píng)、可回放步驟、思維鏈條清晰。Kimi CLI 感覺還比較早期。看不到模型的推理過程、上下文很快被填滿、費(fèi)用追蹤幾乎沒有（只能看儀表板上的數(shù)字）。整體讓迭代過程有點(diǎn)痛苦。

二、測(cè)試 1：統(tǒng)計(jì)異常檢測(cè)

任務(wù)要求：構(gòu)建一個(gè)系統(tǒng)，能夠?qū)W習(xí)基線錯(cuò)誤率，使用 z-score 和移動(dòng)平均（moving average），捕捉變化率尖峰（rate-of-change spikes），并在 10ms 內(nèi)處理每分鐘 10 萬條以上日志。

1.Claude 的嘗試

耗時(shí)：11 分23 秒|成本：$1.20|7 個(gè)文件新增，3,178 行代碼

Claude寫得非常“豪華”：用 z-score、EWMA、變化率檢查構(gòu)建了一個(gè)統(tǒng)計(jì)檢測(cè)器，文檔寫得很詳細(xì)，還提供了合成基準(zhǔn)測(cè)試，乍一看相當(dāng)令人印象深刻。但當(dāng)我實(shí)際運(yùn)行時(shí)，問題就來了。

GPT-5.1 Codex 比Claude便宜 55%，代碼漏洞更少！全棧開發(fā)老鳥警告：Anthropic 需要重新考慮定價(jià)了！-AI.x社區(qū) 圖3

實(shí)際情況：

calculateRateOfChange() 在前一個(gè)窗口為 0 時(shí)返回 Infinity
告警格式化器對(duì)它調(diào)用 toFixed() → 立即觸發(fā) RangeError 崩潰
基線根本不是滾動(dòng)的：

circular buffer 會(huì)丟棄舊樣本

但 RunningStats 會(huì)保留所有數(shù)據(jù)→ 無法適應(yīng)系統(tǒng)狀態(tài)變化（regime changes）

單測(cè)使用 Math.random() → 整個(gè)測(cè)試套件非確定性
更致命的是：這些代碼完全沒有接入真實(shí)的處理管線（processor pipeline）

結(jié)論是：一個(gè)“很酷的原型”，但在生產(chǎn)環(huán)境中完全不可用。

2.GPT-5 Codex 的嘗試tokens：86,714 輸入（+ 1.5M 緩存）/ 40,805 輸出（29,056 推理）

耗時(shí)：18 分鐘 | 成本：$0.35 | 四個(gè)文件凈增加 157 行

Codex 實(shí)際上完成了集成。修改了現(xiàn)有的 AnomalyDetector 類，并將其連接到 index.ts。它可以立即在生產(chǎn)環(huán)境中運(yùn)行。

GPT-5.1 Codex 比Claude便宜 55%，代碼漏洞更少！全棧開發(fā)老鳥警告：Anthropic 需要重新考慮定價(jià)了！-AI.x社區(qū) Image 4

邊緣情況處理很穩(wěn)健，會(huì)檢查 Number.POSITIVE_INFINITY，并在調(diào)用 toFixed() 時(shí)使用描述性字符串而不是崩潰。基線確實(shí)是滾動(dòng)的，使用循環(huán)緩沖和增量統(tǒng)計(jì)（sum、sum-of-squares），更新復(fù)雜度為 O(1)。時(shí)間桶與實(shí)際時(shí)鐘對(duì)齊，保證可預(yù)測(cè)性。測(cè)試是確定性的，并使用受控的桶觸發(fā)。

有一些權(quán)衡。桶方法更簡(jiǎn)單，但靈活性略低于循環(huán)緩沖。它是在擴(kuò)展現(xiàn)有類，而不是創(chuàng)建新類，這讓統(tǒng)計(jì)檢測(cè)和閾值邏輯耦合在一起。文檔相比 Claude 的長篇說明來說很少。

但重點(diǎn)是：這段代碼可以直接上線。現(xiàn)在就能運(yùn)行。

3.GPT-5.1 Codex 的嘗試tokens：59,495 輸入（+607,616 緩存）/ 26,401 輸出（17,600 推理）

耗時(shí)：11 分鐘 | 成本：$0.39 | 三個(gè)文件凈增加 351 行

GPT-5.1 采用了不同的架構(gòu)方式。它沒有使用時(shí)間桶，而是使用基于樣本的滾動(dòng)窗口，通過頭尾指針實(shí)現(xiàn) O(1) 剪枝。RollingWindowStats 類維護(hù)增量的 sum 和 sum-of-squares，從而可以瞬時(shí)計(jì)算均值和標(biāo)準(zhǔn)差。RateOfChangeWindow 則單獨(dú)追蹤 5 分鐘緩沖區(qū)內(nèi)最舊和最新的樣本。

實(shí)現(xiàn)更加簡(jiǎn)潔。邊緣情況通過 MIN_RATE_CHANGE_BASE_RATE 處理，避免在比較速率時(shí)出現(xiàn)除以零的情況。基線更新被限流，每個(gè)服務(wù)每 5 秒更新一次，減少冗余計(jì)算。測(cè)試是確定性的，使用受控時(shí)間戳。文檔全面，解釋了流數(shù)據(jù)的處理流程和性能特點(diǎn)。

相比 GPT-5 的關(guān)鍵改進(jìn)：

執(zhí)行更快：11 分鐘 vs 18 分鐘
架構(gòu)更簡(jiǎn)單：不再需要單獨(dú)的 ErrorRateModel 類
內(nèi)存管理更好：周期性壓縮緩沖區(qū)
質(zhì)量同樣可上線，但效率更高

4.Kimi 的嘗試耗時(shí)：約 20 分鐘 | 成本：約 $0.25（估算） | 增加 2,800 行

Kimi 嘗試同時(shí)支持流式日志和批量指標(biāo)，新增了基于 MAD（中位數(shù)絕對(duì)偏差）和 EMA（指數(shù)移動(dòng)平均）的檢測(cè)，非常有野心。

GPT-5.1 Codex 比Claude便宜 55%，代碼漏洞更少！全棧開發(fā)老鳥警告：Anthropic 需要重新考慮定價(jià)了！-AI.x社區(qū) Image 5

但是基礎(chǔ)實(shí)現(xiàn)有問題。它在檢查新值之前就更新了基線，使得 z-score 實(shí)際上總是零，真正的異常根本不會(huì)觸發(fā)。存在 TypeScript 編譯錯(cuò)誤：DEFAULT_METRIC_WINDOW_SECONDS 在聲明前被使用。速率變化計(jì)算直接除以前一個(gè)值，未檢查是否為零，會(huì)導(dǎo)致和 Claude 一樣的 Infinity 崩潰。測(cè)試中在緊密循環(huán)里重復(fù)使用同一個(gè)日志對(duì)象，從未出現(xiàn)真實(shí)的模式。沒有任何東西被集成。

這段代碼甚至都無法編譯。

5.第一輪快速對(duì)比

	Claude	GPT-5	GPT-5.1	Kimi
是否集成	否	是	是	否
邊緣情況處理	崩潰	已處理	已處理	崩潰
測(cè)試是否可用	不確定	是	是	不現(xiàn)實(shí)
是否可上線	否	是	是	否
耗時(shí)	11分23秒	18分	11分	約20分
成本	$1.20	$0.35	$0.39	約$0.25
架構(gòu)	循環(huán)緩沖	時(shí)間桶	樣本窗口	MAD/EMA

總結(jié)：GPT-5 和 GPT-5.1 都交付了可工作的、集成的代碼。GPT-5.1 在速度和架構(gòu)上進(jìn)行了改進(jìn)，同時(shí)保持了同樣的生產(chǎn)就緒質(zhì)量。

三、測(cè)試 2：分布式告警去重

工具路由集成：

我想先自己用一下處于測(cè)試階段的 Tool Router，它基本上允許你添加任意 Composio 應(yīng)用，并且根據(jù)任務(wù)上下文僅在需要時(shí)從對(duì)應(yīng)工具包加載工具。這大幅度減少了你的 MCP 上下文膨脹。可以閱讀這里了解更多：Tool Router (Beta)

在啟動(dòng) 測(cè)試 2 之前，我通過我們的工具路由將所有內(nèi)容集成到 MCP 中，而 MCP 是隨 Tracer 一起發(fā)布的。快速回顧一下為什么要這樣做：Tool Router 將用戶連接的所有應(yīng)用暴露為可調(diào)用的工具給任何智能體（agent）。每個(gè)用戶只需一次 OAuth 授權(quán)，AI SDK 就可以獲得統(tǒng)一接口，而不用我手動(dòng)對(duì)接 Slack、Jira、PagerDuty 以及未來可能接入的其他工具。

實(shí)際好處在于：

統(tǒng)一訪問 + 每用戶授權(quán)：一個(gè)路由就能管理 500+ 個(gè)應(yīng)用，每個(gè)會(huì)話只看到用戶實(shí)際連接的集成。
無需重新部署，SDK 原生支持：新的連接可以即時(shí)出現(xiàn)，帶有正確的參數(shù)和 schema，使智能體可以直接調(diào)用，無需膠水代碼。

（順便提一句，這正是 Rube MCP 后端所依賴的服務(wù)。）創(chuàng)建它的輔助代碼在 packages/ai/src/composio-client.ts：

export class ComposioClient {
  constructor(config: ToolRouterConfig) {
    this.apiKey = config.apiKey;
    this.userId = config.userId || 'tracer-system';
    this.toolkits = config.toolkits || ['slack', 'gmail'];

    this.composio = new Composio({
      apiKey: this.apiKey,
      provider: new OpenAIAgentsProvider(),
    }) as any;
  }

  async createMCPClient() {
    const session = await this.getSession();

    return await experimental_createMCPClient({
      transport: {
        type: 'http',
        url: session.mcpUrl,
        headers: session.sessionId
          ? { 'X-Session-Id': session.sessionId }
          : undefined,
      },
    });
  }
}

有了這個(gè)，任何 LLM 都可以直接接入相同的 Slack/Jira/PagerDuty 鉤子，而不用我手動(dòng)管理 token。只要替換工具包列表或智能體，甚至是內(nèi)部自動(dòng)化，就能獲得同樣穩(wěn)定的工具目錄。

測(cè)試 2：分布式告警去重

挑戰(zhàn)：解決多個(gè)處理器同時(shí)檢測(cè)到同一異常時(shí)的競(jìng)態(tài)條件。處理 ≤3 秒的時(shí)鐘偏差和處理器崩潰問題。防止處理器在 5 秒內(nèi)重復(fù)觸發(fā)同一告警。

1.Claude 的方案

耗時(shí)：7 分 1 秒 | 成本：$0.48 | 四個(gè)文件增加 1,439 行

Claude 設(shè)計(jì)了一個(gè)三層架構(gòu)：

L1 緩存
L2 建議鎖 + 數(shù)據(jù)庫查詢
L3 唯一約束
時(shí)鐘偏差通過數(shù)據(jù)庫的 NOW() 而非處理器時(shí)間戳來處理。
PostgreSQL 建議鎖在連接關(guān)閉時(shí)自動(dòng)釋放，優(yōu)雅地處理崩潰。
測(cè)試套件 493 行，覆蓋了緩存命中、鎖爭(zhēng)用、時(shí)鐘偏差和崩潰情況。

問題同測(cè)試 1：沒有集成到 apps/processor/src/index.ts。

L1 緩存使用 Math.abs(ageMs)，沒有考慮時(shí)鐘偏差（盡管 L2 會(huì)處理）。
建議鎖的 key 是 service:alertType，沒有時(shí)間戳，會(huì)導(dǎo)致不必要的串行化。
唯一約束阻止所有重復(fù)的活躍告警，而不僅僅是 5 秒窗口內(nèi)的重復(fù)告警。

總結(jié)：架構(gòu)很棒，但仍然只是原型。

2.GPT-5 的方案

tokens：44,563 輸入（+1.99M 緩存）/ 39,792 輸出（30,464 推理）

耗時(shí)：約 20 分鐘 | 成本：$0.60 | 六個(gè)文件凈增加 166 行

Codex 完成了集成。修改了現(xiàn)有的 processAlert 函數(shù)，并加入了去重邏輯。

GPT-5.1 Codex 比Claude便宜 55%，代碼漏洞更少！全棧開發(fā)老鳥警告：Anthropic 需要重新考慮定價(jià)了！-AI.x社區(qū)

使用基于預(yù)留（reservation）的方法，配合專用的 alert_dedupe 表并設(shè)置過期時(shí)間，比建議鎖（advisory locks）更簡(jiǎn)單，也更容易理解。
使用事務(wù)和 FOR UPDATE 鎖來實(shí)現(xiàn)串行化協(xié)調(diào)。
時(shí)鐘偏差通過數(shù)據(jù)庫 NOW() 處理。
處理器崩潰通過事務(wù)回滾處理，自動(dòng)清除預(yù)留記錄。

注意事項(xiàng)：

在 ON CONFLICT 子句中存在輕微競(jìng)態(tài)條件：兩個(gè)處理器可能在任一方提交前都通過 WHERE 檢查。
沒有后臺(tái)清理過期的 alert_dedupe 條目（不過每次插入時(shí)會(huì)清理過期條目）。
去重鍵包含 projectId，同一服務(wù)+類型在不同項(xiàng)目中被視為不同條目，這可能是有意設(shè)計(jì)，但值得注意。

總結(jié)：除了 ON CONFLICT 的小問題外，這份方案可直接投入生產(chǎn)。

3.GPT-5.1 Codex 的方案

tokens：49,255 輸入（+1.09M 緩存）/ 31,206 輸出（25,216 推理）

耗時(shí)：約 16 分鐘 | 成本：$0.37 | 四個(gè)文件凈增加 98 行

GPT-5.1 采用了不同的方法，使用 PostgreSQL 建議鎖（advisory locks），類似 Claude 的設(shè)計(jì)，但實(shí)現(xiàn)更簡(jiǎn)單。

acquireAdvisoryLock? 函數(shù)通過 SHA-256 哈希生成 service:alertType 的鎖鍵，確保去重檢測(cè)的串行化。
時(shí)鐘偏差由 getServerTimestamp() 獲取的服務(wù)器時(shí)間處理，如果處理器崩潰，鎖會(huì)在連接關(guān)閉時(shí)自動(dòng)釋放。

去重邏輯：

先檢查 5 秒窗口內(nèi)的最近活躍告警；如果沒有，再檢查所有活躍告警。
如果存在重復(fù)告警，則根據(jù)新告警的嚴(yán)重程度更新。
建議鎖確保一次只有一個(gè)處理器可以進(jìn)行檢查和插入，消除了競(jìng)態(tài)條件。

相比 GPT-5 的預(yù)留表方法更簡(jiǎn)潔，不需要額外表，只用建議鎖和簡(jiǎn)單查詢即可。

已直接集成到 processAlert，包含正確的錯(cuò)誤處理，并在 finally 塊中清理鎖。

4.Kimi 的方案

耗時(shí)：約 20 分鐘 | 成本：約 $0.25（估算） | 七個(gè)文件凈增加 185 行

Kimi 這次實(shí)際上完成了集成。修改了 processAlert 并加入了去重邏輯。

使用離散的 5 秒時(shí)間桶，比預(yù)留表方法更簡(jiǎn)單。
使用數(shù)據(jù)庫原生的 ON CONFLICT DO UPDATE 原子 upsert 來處理競(jìng)態(tài)條件。
實(shí)現(xiàn)了指數(shù)退避（exponential backoff）重試邏輯。

關(guān)鍵問題：

去重檢測(cè)比較的是 createdAt 時(shí)間戳，對(duì)于同時(shí)插入的告警時(shí)間戳相同，會(huì)返回錯(cuò)誤的 isDuplicate 標(biāo)志。
重試邏輯計(jì)算了新的桶，但從未使用，仍然傳入相同時(shí)間戳，導(dǎo)致再次遇到相同沖突。
更新嚴(yán)重級(jí)別的 SQL 過于復(fù)雜，冗余。

總結(jié)：方法思路不錯(cuò)，但執(zhí)行有嚴(yán)重問題。

5.第二輪快速對(duì)比

	Claude	GPT-5	GPT-5.1	Kimi
是否集成	否	是	是	是
方法	建議鎖	預(yù)留表	建議鎖	時(shí)間桶
關(guān)鍵漏洞	無（但未接入）	小型競(jìng)態(tài)	無	去重檢測(cè)有問題
成本	$0.48	$0.60	$0.37	約 $0.25

總結(jié)：GPT-5 和 GPT-5.1 都交付了可工作的代碼。GPT-5.1 的建議鎖方法比 GPT-5 的預(yù)留表更簡(jiǎn)潔，并且消除了競(jìng)態(tài)條件。

6.成本對(duì)比

兩個(gè)測(cè)試的總成本：

Claude：$1.68
GPT-5 Codex：$0.95（便宜 43%）
GPT-5.1 Codex：$0.76（便宜 55%）
Kimi：約 $0.51（根據(jù)總成本估算）

雖然 Codex 使用了更多tokens，但成本更低。原因是：

Claude 的長篇推理和更高的輸出費(fèi)用（$15/M vs $10/M）拉高了成本。
Codex 利用緩存讀取（超過 150 萬tokens）大幅降低了成本。
GPT-5.1 在此基礎(chǔ)上進(jìn)一步優(yōu)化了tokens效率，測(cè)試 1 成本 $0.39，測(cè)試 2 成本 $0.37。
Kimi 的 CLI 只能顯示整個(gè)項(xiàng)目的總花費(fèi)，因此每次測(cè)試的成本需要估算。

四、GPT漏洞最少，Claude文檔全面，Kimi最有創(chuàng)意

這兩項(xiàng)測(cè)試的最終贏家是GPT-5 和 GPT-5.1 Codex，它們交付了可上線的生產(chǎn)代碼，且嚴(yán)重漏洞最少。相比之下，Claude 架構(gòu)更好，Kimi 有創(chuàng)意點(diǎn)子，但只有 Codex 持續(xù)交付可工作的代碼。

1.Codex 勝出的原因：

真正集成了代碼，而不是創(chuàng)建平行原型
捕捉了其他人遺漏的邊緣情況（例如 Infinity.toFixed() 的 bug，Claude 和 Kimi 都中招）
GPT-5 和 GPT-5.1 的實(shí)現(xiàn)都是生產(chǎn)就緒
比 Claude（GPT-5）便宜 43%，GPT-5.1 更高效

缺點(diǎn)：

文檔不如 Claude 全面
測(cè)試 2 中有輕微 ON CONFLICT 競(jìng)態(tài)（GPT-5）
GPT-5 運(yùn)行時(shí)間較長（18-20 分鐘 vs Claude 的 7-11 分鐘），但 GPT-5.1 與 Claude 速度相當(dāng)

2.什么時(shí)候用 Claude Sonnet 4.5：

擅長：架構(gòu)設(shè)計(jì)和文檔

思路出色，測(cè)試 2 的三層防御顯示出對(duì)分布式系統(tǒng)的深刻理解
文檔詳盡（測(cè)試 1 用了 7 個(gè)文件）
執(zhí)行速度快：7-11 分鐘
延展思考結(jié)合自我反思，輸出方案推理充分

缺點(diǎn)：

不會(huì)真正集成，輸出的是需要手動(dòng)連接的原型
兩個(gè)測(cè)試都有嚴(yán)重漏洞
成本高：$1.68
過度設(shè)計(jì)（3,178 行 vs Codex 157 行凈增）

使用場(chǎng)景：當(dāng)你需要深入的架構(gòu)評(píng)審或文檔優(yōu)化，且愿意花時(shí)間手動(dòng)集成和修復(fù)漏洞時(shí)。

3.什么時(shí)候用 Kimi K2 Thinking

擅長：創(chuàng)造性方案和另類思路

測(cè)試 2 的時(shí)間桶、測(cè)試 1 的 MAD/EMA 嘗試顯示出創(chuàng)造性思考
實(shí)際集成了代碼，像 Codex 一樣
測(cè)試覆蓋不錯(cuò)
成本可能最低（CLI 不顯示使用情況）

缺點(diǎn)：

核心邏輯處處有嚴(yán)重 bug
測(cè)試 2 的重復(fù)檢測(cè)和重試邏輯有問題，測(cè)試 1 的基線更新順序有問題
CLI 限制（無法查看成本，上下文容易填滿）
基本邏輯錯(cuò)誤導(dǎo)致代碼無法正常運(yùn)行

使用場(chǎng)景：當(dāng)你想要?jiǎng)?chuàng)意方案，并且可以花時(shí)間重構(gòu)輸出、修復(fù)漏洞時(shí)。

總的來說，GPT-5.1 Codex 真的是非常出色。它交付了集成好的代碼，能處理邊緣情況，成本比 Claude 低 43%，而且?guī)缀醪恍枰~外打磨。GPT-5 已經(jīng)很穩(wěn)了，但 GPT-5.1 在速度和架構(gòu)上的改進(jìn)，使它成為新項(xiàng)目的明顯首選。

至于Claude，我會(huì)用它做架構(gòu)評(píng)審或文檔優(yōu)化，雖然知道還得花時(shí)間手動(dòng)接入和修復(fù)漏洞。而Kimi勝在創(chuàng)意十足且成本低，但邏輯漏洞很多，需要額外時(shí)間重構(gòu)。

三個(gè)模型生成的代碼都很“漂亮”，但只有 Codex 持續(xù)交付可用、集成的代碼。Claude 設(shè)計(jì)更好，但不集成。Kimi 有聰明點(diǎn)子，但會(huì)出現(xiàn)致命錯(cuò)誤

對(duì)于需要快速獲得可用代碼的實(shí)際開發(fā)場(chǎng)景，Codex 是最實(shí)用的選擇，而 GPT-5.1 則是在此基礎(chǔ)上的進(jìn)一步進(jìn)化，使它更出色。

而在 Reddit 評(píng)論區(qū)，很多網(wǎng)友紛紛表示，自己會(huì)用Codex 審查 Claude Code，效果很好。

GPT-5.1 Codex 比Claude便宜 55%，代碼漏洞更少！全棧開發(fā)老鳥警告：Anthropic 需要重新考慮定價(jià)了！-AI.x社區(qū) 圖片

網(wǎng)友 a1454a 則分享了自己的具體步驟：

我也是這樣做的。關(guān)鍵在于上下文管理：研究顯示，LLM 的上下文越多，性能可能越差。對(duì)于復(fù)雜代碼庫，實(shí)現(xiàn)一個(gè)功能可能就占用了大量上下文，幾輪迭代后上下文占用可能達(dá)到 70%。
我的做法是：
1、清空上下文
2、讓 Claude 制定多階段實(shí)現(xiàn)計(jì)劃，每階段都有可驗(yàn)證的驗(yàn)收標(biāo)準(zhǔn)
3、Claude 實(shí)現(xiàn)一兩輪后，讓 GPT-5 高級(jí)思維審查實(shí)現(xiàn)結(jié)果，并反饋給 Claude 修改
4、GPT 滿意后，清空 Claude 上下文，開始下一階段
這樣 Claude 的上下文始終干凈專注于實(shí)現(xiàn)功能，GPT 的上下文則專注于檢查完成的實(shí)現(xiàn)。

還有網(wǎng)友同意作者的觀點(diǎn)：Anthropic 現(xiàn)在定價(jià)太貴了。

GPT-5.1 Codex 比Claude便宜 55%，代碼漏洞更少！全棧開發(fā)老鳥警告：Anthropic 需要重新考慮定價(jià)了！-AI.x社區(qū) 圖片