精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-5.1 Codex 比Claude便宜 55%,代碼漏洞更少!全棧開發(fā)老鳥警告:Anthropic 需要重新考慮定價(jià)了! 原創(chuàng)

發(fā)布于 2025-11-17 15:12
瀏覽
0收藏

編輯 | 聽雨

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

現(xiàn)在已經(jīng)有太多能寫代碼、而且寫得非常好的模型了。Sonnets、Haiku 4.5、Codex 系列、GLM、Kimi K2 Thinking、GPT 5.1……幾乎每個(gè)都足以應(yīng)付日常的大多數(shù)編碼任務(wù)。

但對(duì)于開發(fā)者來說,誰也不想把時(shí)間和金錢花在一個(gè)排名第二或第三的模型上。最近,小編注意到一位全棧工程師 Rohith Singh 在Reddit上發(fā)表了一篇帖子,介紹他如何對(duì)四個(gè)模型(Kimi K2 Thinking、Sonnet 4.5、GPT-5 Codex 和 GPT-5.1 Codex)進(jìn)行了實(shí)測(cè)。

GPT-5.1 Codex 比Claude便宜 55%,代碼漏洞更少!全棧開發(fā)老鳥警告:Anthropic 需要重新考慮定價(jià)了!-AI.x社區(qū)圖片

他給四個(gè)模型提供了完全相同的提示,要求它們解決可觀測(cè)性平臺(tái)中的兩個(gè)復(fù)雜問題:統(tǒng)計(jì)異常檢測(cè)和分布式告警去重。同一套代碼庫、完全一致的需求、同樣的 IDE 配置。

最終結(jié)論是GPT-5和GPT-5.1 Codex 的表現(xiàn)非常出色,它們真正交付了可上線運(yùn)行的代碼,漏洞最少;他也分析了每個(gè)模型各自的長處:Sonnet 4.5擅長提供高質(zhì)量、經(jīng)過充分推理的架構(gòu)設(shè)計(jì)和文檔輸出,Kimi則勝在創(chuàng)意十足且成本低。

最關(guān)鍵的是,GPT-5 Codex 相比Claude的可用代碼成本便宜 43%,GPT-5.1 則便宜了55%。

這位老哥在 Reddit 上表示:OpenAI 顯然在追逐 Anthropic 的企業(yè)利潤,而 Anthropic 需要重新考慮定價(jià)策略了!

完整代碼:

github.com/rohittcodes/tracer

如果你想深入研究可以去看看。提前說一句:這是作者專門為這次評(píng)測(cè)搭的測(cè)試框架,并不是一個(gè)打磨完善的產(chǎn)品,所以會(huì)有些粗糙的地方。

一、先放結(jié)論:GPT-5.1 Codex 是最終贏家

測(cè)試 1 : 高級(jí)異常檢測(cè)GPT-5 和 GPT-5.1 Codex 都成功產(chǎn)出了可運(yùn)行的代碼。Claude 和 Kimi 則都存在會(huì)在生產(chǎn)環(huán)境中崩潰的關(guān)鍵性錯(cuò)誤。GPT-5.1 在架構(gòu)上改進(jìn)了 GPT-5,并且速度更快(11 分鐘 vs 18 分鐘)。

測(cè)試 2 :分布式告警去重兩款 Codex 再次獲勝,并真正完成了端到端集成。Claude 的整體架構(gòu)不錯(cuò),但沒有把流程串起來。Kimi 有一些聰明的想法,但重復(fù)檢測(cè)邏輯是壞的。

測(cè)試環(huán)境使用了各模型自帶的 CLI agent:

  • Claude Code:Sonnet 4.5
  • GPT-5 和 5.1 Codex:Codex CLI
  • Kimi K2 Thinking:Kimi CLI

關(guān)鍵在于,GPT-5 Codex 總成本是0.95美元,而 Claude 則是1.68美元。也就是說 Codex 便宜 43%,而且代碼是真的能跑。GPT-5.1 更高效,總成本為0.76美元(測(cè)試1花了0.39美元,測(cè)試 2 花了0.37美元),比 Claude 便宜了55%。

GPT-5.1 Codex 比Claude便宜 55%,代碼漏洞更少!全棧開發(fā)老鳥警告:Anthropic 需要重新考慮定價(jià)了!-AI.x社區(qū)圖片

GPT 5.1 Codex:

GPT-5.1 Codex 比Claude便宜 55%,代碼漏洞更少!全棧開發(fā)老鳥警告:Anthropic 需要重新考慮定價(jià)了!-AI.x社區(qū)圖片

官方基準(zhǔn):

GPT-5.1 Codex 比Claude便宜 55%,代碼漏洞更少!全棧開發(fā)老鳥警告:Anthropic 需要重新考慮定價(jià)了!-AI.x社區(qū)圖片

定價(jià):

  • Claude:輸入 $3 / 百萬 token,輸出 $15 / 百萬 token
  • GPT-5.1:輸入 $1.25 / 百萬 token,輸出 $10 / 百萬 token
  • Kimi:輸入 $0.60 / 百萬 token,輸出 $2.50 / 百萬 token

測(cè)試如何進(jìn)行:

我給所有模型提供了完全相同的提示,讓它們解決可觀測(cè)性平臺(tái)中的兩個(gè)高難度問題:統(tǒng)計(jì)異常檢測(cè)和分布式告警去重。這些可不是玩具題,而是需要對(duì)邊界情況、系統(tǒng)架構(gòu)進(jìn)行深入推理的那種任務(wù)。

我在 Cursor IDE 中完成所有設(shè)置,并記錄了token 使用量、耗時(shí)、代碼質(zhì)量,以及是否真正與現(xiàn)有代碼庫完成集成。最后這一點(diǎn)的影響遠(yuǎn)超我的預(yù)期。

關(guān)于工具的小提示:Codex CLI 自我上次使用以來已經(jīng)好很多了。支持推理流式輸出、會(huì)話恢復(fù)更可靠,還能顯示緩存 token 的使用情況。Claude Code 依然是最精致的:內(nèi)聯(lián)代碼點(diǎn)評(píng)、可回放步驟、思維鏈條清晰。Kimi CLI 感覺還比較早期。看不到模型的推理過程、上下文很快被填滿、費(fèi)用追蹤幾乎沒有(只能看儀表板上的數(shù)字)。整體讓迭代過程有點(diǎn)痛苦。

二、測(cè)試 1:統(tǒng)計(jì)異常檢測(cè)

任務(wù)要求:構(gòu)建一個(gè)系統(tǒng),能夠?qū)W習(xí)基線錯(cuò)誤率,使用 z-score 和移動(dòng)平均(moving average),捕捉變化率尖峰(rate-of-change spikes),并在 10ms 內(nèi)處理每分鐘 10 萬條以上日志。

1.Claude 的嘗試

耗時(shí):11 分23 秒|成本:$1.20|7 個(gè)文件新增,3,178 行代碼

Claude寫得非常“豪華”:用 z-score、EWMA、變化率檢查構(gòu)建了一個(gè)統(tǒng)計(jì)檢測(cè)器,文檔寫得很詳細(xì),還提供了合成基準(zhǔn)測(cè)試,乍一看相當(dāng)令人印象深刻。但當(dāng)我實(shí)際運(yùn)行時(shí),問題就來了。

GPT-5.1 Codex 比Claude便宜 55%,代碼漏洞更少!全棧開發(fā)老鳥警告:Anthropic 需要重新考慮定價(jià)了!-AI.x社區(qū)圖3

實(shí)際情況:

  • calculateRateOfChange() 在前一個(gè)窗口為 0 時(shí)返回 Infinity
  • 告警格式化器對(duì)它調(diào)用 toFixed() → 立即觸發(fā) RangeError 崩潰
  • 基線根本不是滾動(dòng)的:

circular buffer 會(huì)丟棄舊樣本

但 RunningStats 會(huì)保留所有數(shù)據(jù)→ 無法適應(yīng)系統(tǒng)狀態(tài)變化(regime changes)

  • 單測(cè)使用 Math.random() → 整個(gè)測(cè)試套件非確定性
  • 更致命的是:這些代碼完全沒有接入真實(shí)的處理管線(processor pipeline)

結(jié)論是:一個(gè)“很酷的原型”,但在生產(chǎn)環(huán)境中完全不可用。

2.GPT-5 Codex 的嘗試tokens:86,714 輸入(+ 1.5M 緩存)/ 40,805 輸出(29,056 推理)

耗時(shí):18 分鐘 | 成本:$0.35 | 四個(gè)文件凈增加 157 行

Codex 實(shí)際上完成了集成。修改了現(xiàn)有的 AnomalyDetector 類,并將其連接到 index.ts。它可以立即在生產(chǎn)環(huán)境中運(yùn)行。

GPT-5.1 Codex 比Claude便宜 55%,代碼漏洞更少!全棧開發(fā)老鳥警告:Anthropic 需要重新考慮定價(jià)了!-AI.x社區(qū)Image 4

邊緣情況處理很穩(wěn)健,會(huì)檢查 Number.POSITIVE_INFINITY,并在調(diào)用 toFixed() 時(shí)使用描述性字符串而不是崩潰。基線確實(shí)是滾動(dòng)的,使用循環(huán)緩沖和增量統(tǒng)計(jì)(sum、sum-of-squares),更新復(fù)雜度為 O(1)。時(shí)間桶與實(shí)際時(shí)鐘對(duì)齊,保證可預(yù)測(cè)性。測(cè)試是確定性的,并使用受控的桶觸發(fā)。

有一些權(quán)衡。桶方法更簡(jiǎn)單,但靈活性略低于循環(huán)緩沖。它是在擴(kuò)展現(xiàn)有類,而不是創(chuàng)建新類,這讓統(tǒng)計(jì)檢測(cè)和閾值邏輯耦合在一起。文檔相比 Claude 的長篇說明來說很少。

但重點(diǎn)是:這段代碼可以直接上線。現(xiàn)在就能運(yùn)行。

3.GPT-5.1 Codex 的嘗試tokens:59,495 輸入(+607,616 緩存)/ 26,401 輸出(17,600 推理)

耗時(shí):11 分鐘 | 成本:$0.39 | 三個(gè)文件凈增加 351 行

GPT-5.1 采用了不同的架構(gòu)方式。它沒有使用時(shí)間桶,而是使用基于樣本的滾動(dòng)窗口,通過頭尾指針實(shí)現(xiàn) O(1) 剪枝。RollingWindowStats 類維護(hù)增量的 sum 和 sum-of-squares,從而可以瞬時(shí)計(jì)算均值和標(biāo)準(zhǔn)差。RateOfChangeWindow 則單獨(dú)追蹤 5 分鐘緩沖區(qū)內(nèi)最舊和最新的樣本。

實(shí)現(xiàn)更加簡(jiǎn)潔。邊緣情況通過 MIN_RATE_CHANGE_BASE_RATE 處理,避免在比較速率時(shí)出現(xiàn)除以零的情況。基線更新被限流,每個(gè)服務(wù)每 5 秒更新一次,減少冗余計(jì)算。測(cè)試是確定性的,使用受控時(shí)間戳。文檔全面,解釋了流數(shù)據(jù)的處理流程和性能特點(diǎn)。

相比 GPT-5 的關(guān)鍵改進(jìn):

  • 執(zhí)行更快:11 分鐘 vs 18 分鐘
  • 架構(gòu)更簡(jiǎn)單:不再需要單獨(dú)的 ErrorRateModel 類
  • 內(nèi)存管理更好:周期性壓縮緩沖區(qū)
  • 質(zhì)量同樣可上線,但效率更高

4.Kimi 的嘗試耗時(shí):約 20 分鐘 | 成本:約 $0.25(估算) | 增加 2,800 行

Kimi 嘗試同時(shí)支持流式日志和批量指標(biāo),新增了基于 MAD(中位數(shù)絕對(duì)偏差)和 EMA(指數(shù)移動(dòng)平均)的檢測(cè),非常有野心。

GPT-5.1 Codex 比Claude便宜 55%,代碼漏洞更少!全棧開發(fā)老鳥警告:Anthropic 需要重新考慮定價(jià)了!-AI.x社區(qū)Image 5

但是基礎(chǔ)實(shí)現(xiàn)有問題。它在檢查新值之前就更新了基線,使得 z-score 實(shí)際上總是零,真正的異常根本不會(huì)觸發(fā)。存在 TypeScript 編譯錯(cuò)誤:DEFAULT_METRIC_WINDOW_SECONDS 在聲明前被使用。速率變化計(jì)算直接除以前一個(gè)值,未檢查是否為零,會(huì)導(dǎo)致和 Claude 一樣的 Infinity 崩潰。測(cè)試中在緊密循環(huán)里重復(fù)使用同一個(gè)日志對(duì)象,從未出現(xiàn)真實(shí)的模式。沒有任何東西被集成。

這段代碼甚至都無法編譯。

5.第一輪快速對(duì)比


Claude

GPT-5

GPT-5.1

Kimi

是否集成

邊緣情況處理

崩潰

已處理

已處理

崩潰

測(cè)試是否可用

不確定

不現(xiàn)實(shí)

是否可上線

耗時(shí)

11分23秒

18分

11分

約20分

成本

$1.20

$0.35

$0.39

約$0.25

架構(gòu)

循環(huán)緩沖

時(shí)間桶

樣本窗口

MAD/EMA

總結(jié):GPT-5 和 GPT-5.1 都交付了可工作的、集成的代碼。GPT-5.1 在速度和架構(gòu)上進(jìn)行了改進(jìn),同時(shí)保持了同樣的生產(chǎn)就緒質(zhì)量。

三、測(cè)試 2:分布式告警去重

工具路由集成:

我想先自己用一下處于測(cè)試階段的 Tool Router,它基本上允許你添加任意 Composio 應(yīng)用,并且根據(jù)任務(wù)上下文僅在需要時(shí)從對(duì)應(yīng)工具包加載工具。這大幅度減少了你的 MCP 上下文膨脹。可以閱讀這里了解更多:Tool Router (Beta)

在啟動(dòng) 測(cè)試 2 之前,我通過我們的工具路由將所有內(nèi)容集成到 MCP 中,而 MCP 是隨 Tracer 一起發(fā)布的。快速回顧一下為什么要這樣做:Tool Router 將用戶連接的所有應(yīng)用暴露為可調(diào)用的工具給任何智能體(agent)。每個(gè)用戶只需一次 OAuth 授權(quán),AI SDK 就可以獲得統(tǒng)一接口,而不用我手動(dòng)對(duì)接 Slack、Jira、PagerDuty 以及未來可能接入的其他工具。

實(shí)際好處在于:

  1. 統(tǒng)一訪問 + 每用戶授權(quán):一個(gè)路由就能管理 500+ 個(gè)應(yīng)用,每個(gè)會(huì)話只看到用戶實(shí)際連接的集成。
  2. 無需重新部署,SDK 原生支持:新的連接可以即時(shí)出現(xiàn),帶有正確的參數(shù)和 schema,使智能體可以直接調(diào)用,無需膠水代碼。

(順便提一句,這正是 Rube MCP 后端所依賴的服務(wù)。)創(chuàng)建它的輔助代碼在 packages/ai/src/composio-client.ts:

export class ComposioClient {
  constructor(config: ToolRouterConfig) {
    this.apiKey = config.apiKey;
    this.userId = config.userId || 'tracer-system';
    this.toolkits = config.toolkits || ['slack', 'gmail'];

    this.composio = new Composio({
      apiKey: this.apiKey,
      provider: new OpenAIAgentsProvider(),
    }) as any;
  }

  async createMCPClient() {
    const session = await this.getSession();

    return await experimental_createMCPClient({
      transport: {
        type: 'http',
        url: session.mcpUrl,
        headers: session.sessionId
          ? { 'X-Session-Id': session.sessionId }
          : undefined,
      },
    });
  }
}

有了這個(gè),任何 LLM 都可以直接接入相同的 Slack/Jira/PagerDuty 鉤子,而不用我手動(dòng)管理 token。只要替換工具包列表或智能體,甚至是內(nèi)部自動(dòng)化,就能獲得同樣穩(wěn)定的工具目錄。

測(cè)試 2:分布式告警去重

挑戰(zhàn):解決多個(gè)處理器同時(shí)檢測(cè)到同一異常時(shí)的競(jìng)態(tài)條件。處理 ≤3 秒的時(shí)鐘偏差和處理器崩潰問題。防止處理器在 5 秒內(nèi)重復(fù)觸發(fā)同一告警。

1.Claude 的方案

耗時(shí):7 分 1 秒 | 成本:$0.48 | 四個(gè)文件增加 1,439 行

Claude 設(shè)計(jì)了一個(gè)三層架構(gòu):

  • L1 緩存
  • L2 建議鎖 + 數(shù)據(jù)庫查詢
  • L3 唯一約束
  • 時(shí)鐘偏差通過數(shù)據(jù)庫的 NOW() 而非處理器時(shí)間戳來處理。
  • PostgreSQL 建議鎖在連接關(guān)閉時(shí)自動(dòng)釋放,優(yōu)雅地處理崩潰。
  • 測(cè)試套件 493 行,覆蓋了緩存命中、鎖爭(zhēng)用、時(shí)鐘偏差和崩潰情況。

問題同測(cè)試 1:沒有集成到 apps/processor/src/index.ts。

  • L1 緩存使用 Math.abs(ageMs),沒有考慮時(shí)鐘偏差(盡管 L2 會(huì)處理)。
  • 建議鎖的 key 是 service:alertType,沒有時(shí)間戳,會(huì)導(dǎo)致不必要的串行化。
  • 唯一約束阻止所有重復(fù)的活躍告警,而不僅僅是 5 秒窗口內(nèi)的重復(fù)告警。

總結(jié):架構(gòu)很棒,但仍然只是原型。

2.GPT-5 的方案

tokens:44,563 輸入(+1.99M 緩存)/ 39,792 輸出(30,464 推理)

耗時(shí):約 20 分鐘 | 成本:$0.60 | 六個(gè)文件凈增加 166 行

Codex 完成了集成。修改了現(xiàn)有的 processAlert 函數(shù),并加入了去重邏輯。

GPT-5.1 Codex 比Claude便宜 55%,代碼漏洞更少!全棧開發(fā)老鳥警告:Anthropic 需要重新考慮定價(jià)了!-AI.x社區(qū)

  • 使用基于預(yù)留(reservation)的方法,配合專用的 alert_dedupe 表并設(shè)置過期時(shí)間,比建議鎖(advisory locks)更簡(jiǎn)單,也更容易理解。
  • 使用事務(wù)和 FOR UPDATE 鎖來實(shí)現(xiàn)串行化協(xié)調(diào)。
  • 時(shí)鐘偏差通過數(shù)據(jù)庫 NOW() 處理。
  • 處理器崩潰通過事務(wù)回滾處理,自動(dòng)清除預(yù)留記錄。

注意事項(xiàng):

  • 在 ON CONFLICT 子句中存在輕微競(jìng)態(tài)條件:兩個(gè)處理器可能在任一方提交前都通過 WHERE 檢查。
  • 沒有后臺(tái)清理過期的 alert_dedupe 條目(不過每次插入時(shí)會(huì)清理過期條目)。
  • 去重鍵包含 projectId,同一服務(wù)+類型在不同項(xiàng)目中被視為不同條目,這可能是有意設(shè)計(jì),但值得注意。

總結(jié):除了 ON CONFLICT 的小問題外,這份方案可直接投入生產(chǎn)。

3.GPT-5.1 Codex 的方案

tokens:49,255 輸入(+1.09M 緩存)/ 31,206 輸出(25,216 推理)

耗時(shí):約 16 分鐘 | 成本:$0.37 | 四個(gè)文件凈增加 98 行

GPT-5.1 采用了不同的方法,使用 PostgreSQL 建議鎖(advisory locks),類似 Claude 的設(shè)計(jì),但實(shí)現(xiàn)更簡(jiǎn)單。

  • acquireAdvisoryLock? 函數(shù)通過 SHA-256 哈希生成 service:alertType 的鎖鍵,確保去重檢測(cè)的串行化。
  • 時(shí)鐘偏差由 getServerTimestamp() 獲取的服務(wù)器時(shí)間處理,如果處理器崩潰,鎖會(huì)在連接關(guān)閉時(shí)自動(dòng)釋放。

去重邏輯:

  • 先檢查 5 秒窗口內(nèi)的最近活躍告警;如果沒有,再檢查所有活躍告警。
  • 如果存在重復(fù)告警,則根據(jù)新告警的嚴(yán)重程度更新。
  • 建議鎖確保一次只有一個(gè)處理器可以進(jìn)行檢查和插入,消除了競(jìng)態(tài)條件。

相比 GPT-5 的預(yù)留表方法更簡(jiǎn)潔,不需要額外表,只用建議鎖和簡(jiǎn)單查詢即可。

  • 已直接集成到 processAlert,包含正確的錯(cuò)誤處理,并在 finally 塊中清理鎖。
4.Kimi 的方案

耗時(shí):約 20 分鐘 | 成本:約 $0.25(估算) | 七個(gè)文件凈增加 185 行

Kimi 這次實(shí)際上完成了集成。修改了 processAlert 并加入了去重邏輯。

  • 使用離散的 5 秒時(shí)間桶,比預(yù)留表方法更簡(jiǎn)單。
  • 使用數(shù)據(jù)庫原生的 ON CONFLICT DO UPDATE 原子 upsert 來處理競(jìng)態(tài)條件。
  • 實(shí)現(xiàn)了指數(shù)退避(exponential backoff)重試邏輯。

關(guān)鍵問題:

  • 去重檢測(cè)比較的是 createdAt 時(shí)間戳,對(duì)于同時(shí)插入的告警時(shí)間戳相同,會(huì)返回錯(cuò)誤的 isDuplicate 標(biāo)志。
  • 重試邏輯計(jì)算了新的桶,但從未使用,仍然傳入相同時(shí)間戳,導(dǎo)致再次遇到相同沖突。
  • 更新嚴(yán)重級(jí)別的 SQL 過于復(fù)雜,冗余。

總結(jié):方法思路不錯(cuò),但執(zhí)行有嚴(yán)重問題。

5.第二輪快速對(duì)比


Claude

GPT-5

GPT-5.1

Kimi

是否集成

方法

建議鎖

預(yù)留表

建議鎖

時(shí)間桶

關(guān)鍵漏洞

無(但未接入)

小型競(jìng)態(tài)

去重檢測(cè)有問題

成本

$0.48

$0.60

$0.37

約 $0.25

總結(jié):GPT-5 和 GPT-5.1 都交付了可工作的代碼。GPT-5.1 的建議鎖方法比 GPT-5 的預(yù)留表更簡(jiǎn)潔,并且消除了競(jìng)態(tài)條件。

6.成本對(duì)比

兩個(gè)測(cè)試的總成本:

  • Claude:$1.68
  • GPT-5 Codex:$0.95(便宜 43%)
  • GPT-5.1 Codex:$0.76(便宜 55%)
  • Kimi:約 $0.51(根據(jù)總成本估算)

雖然 Codex 使用了更多tokens,但成本更低。原因是:

  • Claude 的長篇推理和更高的輸出費(fèi)用($15/M vs $10/M)拉高了成本。
  • Codex 利用緩存讀取(超過 150 萬tokens)大幅降低了成本。
  • GPT-5.1 在此基礎(chǔ)上進(jìn)一步優(yōu)化了tokens效率,測(cè)試 1 成本 $0.39,測(cè)試 2 成本 $0.37。
  • Kimi 的 CLI 只能顯示整個(gè)項(xiàng)目的總花費(fèi),因此每次測(cè)試的成本需要估算。

四、GPT漏洞最少,Claude文檔全面,Kimi最有創(chuàng)意

這兩項(xiàng)測(cè)試的最終贏家是GPT-5 和 GPT-5.1 Codex,它們交付了可上線的生產(chǎn)代碼,且嚴(yán)重漏洞最少。相比之下,Claude 架構(gòu)更好,Kimi 有創(chuàng)意點(diǎn)子,但只有 Codex 持續(xù)交付可工作的代碼。

1.Codex 勝出的原因:

  • 真正集成了代碼,而不是創(chuàng)建平行原型
  • 捕捉了其他人遺漏的邊緣情況(例如 Infinity.toFixed() 的 bug,Claude 和 Kimi 都中招)
  • GPT-5 和 GPT-5.1 的實(shí)現(xiàn)都是生產(chǎn)就緒
  • 比 Claude(GPT-5)便宜 43%,GPT-5.1 更高效

缺點(diǎn):

  • 文檔不如 Claude 全面
  • 測(cè)試 2 中有輕微 ON CONFLICT 競(jìng)態(tài)(GPT-5)
  • GPT-5 運(yùn)行時(shí)間較長(18-20 分鐘 vs Claude 的 7-11 分鐘),但 GPT-5.1 與 Claude 速度相當(dāng)

2.什么時(shí)候用 Claude Sonnet 4.5:

擅長:架構(gòu)設(shè)計(jì)和文檔

  • 思路出色,測(cè)試 2 的三層防御顯示出對(duì)分布式系統(tǒng)的深刻理解
  • 文檔詳盡(測(cè)試 1 用了 7 個(gè)文件)
  • 執(zhí)行速度快:7-11 分鐘
  • 延展思考結(jié)合自我反思,輸出方案推理充分

缺點(diǎn):

  • 不會(huì)真正集成,輸出的是需要手動(dòng)連接的原型
  • 兩個(gè)測(cè)試都有嚴(yán)重漏洞
  • 成本高:$1.68
  • 過度設(shè)計(jì)(3,178 行 vs Codex 157 行凈增)

使用場(chǎng)景:當(dāng)你需要深入的架構(gòu)評(píng)審或文檔優(yōu)化,且愿意花時(shí)間手動(dòng)集成和修復(fù)漏洞時(shí)。

3.什么時(shí)候用 Kimi K2 Thinking

擅長:創(chuàng)造性方案和另類思路

  • 測(cè)試 2 的時(shí)間桶、測(cè)試 1 的 MAD/EMA 嘗試顯示出創(chuàng)造性思考
  • 實(shí)際集成了代碼,像 Codex 一樣
  • 測(cè)試覆蓋不錯(cuò)
  • 成本可能最低(CLI 不顯示使用情況)

缺點(diǎn):

  • 核心邏輯處處有嚴(yán)重 bug
  • 測(cè)試 2 的重復(fù)檢測(cè)和重試邏輯有問題,測(cè)試 1 的基線更新順序有問題
  • CLI 限制(無法查看成本,上下文容易填滿)
  • 基本邏輯錯(cuò)誤導(dǎo)致代碼無法正常運(yùn)行

使用場(chǎng)景:當(dāng)你想要?jiǎng)?chuàng)意方案,并且可以花時(shí)間重構(gòu)輸出、修復(fù)漏洞時(shí)。

總的來說,GPT-5.1 Codex 真的是非常出色。它交付了集成好的代碼,能處理邊緣情況,成本比 Claude 低 43%,而且?guī)缀醪恍枰~外打磨。GPT-5 已經(jīng)很穩(wěn)了,但 GPT-5.1 在速度和架構(gòu)上的改進(jìn),使它成為新項(xiàng)目的明顯首選。

至于Claude,我會(huì)用它做架構(gòu)評(píng)審或文檔優(yōu)化,雖然知道還得花時(shí)間手動(dòng)接入和修復(fù)漏洞。而Kimi勝在創(chuàng)意十足且成本低,但邏輯漏洞很多,需要額外時(shí)間重構(gòu)。

三個(gè)模型生成的代碼都很“漂亮”,但只有 Codex 持續(xù)交付可用、集成的代碼。Claude 設(shè)計(jì)更好,但不集成。Kimi 有聰明點(diǎn)子,但會(huì)出現(xiàn)致命錯(cuò)誤

對(duì)于需要快速獲得可用代碼的實(shí)際開發(fā)場(chǎng)景,Codex 是最實(shí)用的選擇,而 GPT-5.1 則是在此基礎(chǔ)上的進(jìn)一步進(jìn)化,使它更出色。

而在 Reddit 評(píng)論區(qū),很多網(wǎng)友紛紛表示,自己會(huì)用Codex 審查 Claude Code,效果很好。

GPT-5.1 Codex 比Claude便宜 55%,代碼漏洞更少!全棧開發(fā)老鳥警告:Anthropic 需要重新考慮定價(jià)了!-AI.x社區(qū)圖片

網(wǎng)友 a1454a 則分享了自己的具體步驟:

我也是這樣做的。關(guān)鍵在于上下文管理:研究顯示,LLM 的上下文越多,性能可能越差。對(duì)于復(fù)雜代碼庫,實(shí)現(xiàn)一個(gè)功能可能就占用了大量上下文,幾輪迭代后上下文占用可能達(dá)到 70%。

我的做法是:

1、清空上下文

2、讓 Claude 制定多階段實(shí)現(xiàn)計(jì)劃,每階段都有可驗(yàn)證的驗(yàn)收標(biāo)準(zhǔn)

3、Claude 實(shí)現(xiàn)一兩輪后,讓 GPT-5 高級(jí)思維審查實(shí)現(xiàn)結(jié)果,并反饋給 Claude 修改

4、GPT 滿意后,清空 Claude 上下文,開始下一階段

這樣 Claude 的上下文始終干凈專注于實(shí)現(xiàn)功能,GPT 的上下文則專注于檢查完成的實(shí)現(xiàn)。

還有網(wǎng)友同意作者的觀點(diǎn):Anthropic 現(xiàn)在定價(jià)太貴了。

GPT-5.1 Codex 比Claude便宜 55%,代碼漏洞更少!全棧開發(fā)老鳥警告:Anthropic 需要重新考慮定價(jià)了!-AI.x社區(qū)圖片

那么評(píng)論區(qū)的各位大佬們:

你更傾向于用哪一款模型呢?你覺得它們之間有何優(yōu)劣?

參考鏈接:??https://www.reddit.com/r/ClaudeAI/comments/1oy36ag/i_tested_gpt51_codex_against_sonnet_45_and_its/??

??https://composio.dev/blog/kimi-k2-thinking-vs-claude-4-5-sonnet-vs-gpt-5-codex-tested-the-best-models-for-agentic-coding??

本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:聽雨

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄

    亚洲一卡二卡三卡四卡五卡| 韩国av一区二区三区在线观看| 日韩高清欧美高清| 无码人妻丰满熟妇区毛片| 91亚洲精选| 国产精品99久久久久久久vr| 欧美一区二区.| 91麻豆精品成人一区二区| 中文一区二区三区四区| 日本二三区不卡| 久久www视频| 牛牛澡牛牛爽一区二区| 蜜臀va亚洲va欧美va天堂| 久久久久久成人精品| 永久免费观看片现看| 国产毛片精品| 555夜色666亚洲国产免| 久久婷婷五月综合色国产香蕉| 超碰在线caoporen| 国产清纯白嫩初高生在线观看91 | 成人午夜免费在线视频| 免费福利在线观看| 东方aⅴ免费观看久久av| 国产精品爽黄69天堂a| 久久视频免费在线观看| 97精品中文字幕| 亚洲免费高清视频| 日本一区二区免费视频| 亚洲香蕉久久| 在线欧美小视频| 18禁免费观看网站| 蜜臀av国内免费精品久久久夜夜| 国产精品福利一区| 欧美日韩中文国产一区发布| 色窝窝无码一区二区三区| 国产中文字幕精品| 国产精品免费视频xxxx| 人人爽人人爽人人片av| 999亚洲国产精| 欧美精品激情在线观看| 亚洲色婷婷一区二区三区| 日韩精品首页| 亚洲最新av网址| 免费看黄色的视频| 精品在线91| 亚洲精品国产综合久久| 黑丝av在线播放| 久久国产精品免费精品3p| 欧美tickling网站挠脚心| 中文字幕一二三| 韩国三级成人在线| 欧美一卡二卡三卡四卡| 视频免费1区二区三区| 欧美一级做a| 欧美精品久久久久久久多人混战 | 香蕉视频免费版| 欧美jizz18性欧美| 亚洲欧美日韩国产另类专区| 一区二区三区四区欧美| 欧美激情视频在线播放| 亚洲色图欧洲色图婷婷| 无码人妻精品一区二区三区99v| 午夜小视频在线| 日韩毛片一二三区| 老司机午夜网站| 国产乱码在线| 日韩欧美极品在线观看| 国产裸体舞一区二区三区| 亚州一区二区三区| 欧美日韩亚洲高清一区二区| 中文字幕成人在线视频| 精品国模一区二区三区欧美| 日韩一级在线观看| 激情av中文字幕| 欧美91在线| 亚洲人成网站999久久久综合| 性欧美一区二区| 欧美h版在线| 欧美激情精品久久久久| 国产手机在线视频| 日本欧美久久久久免费播放网| 成人xvideos免费视频| 国产视频第二页| 成人三级伦理片| 日本一区二区三区视频在线播放| 在线观看av的网站| 亚洲一区二区三区不卡国产欧美 | 碰碰在线视频| 欧美色男人天堂| 国产又黄又嫩又滑又白| 思热99re视热频这里只精品| 日韩中文字幕在线视频| 久久久久久久久97| 日韩成人一级大片| 成人免费视频网站| av播放在线观看| 亚洲成av人在线观看| 美女喷白浆视频| 日韩激情欧美| 一区二区成人av| 国产污片在线观看| 日韩av一级片| 国产三区二区一区久久| 无遮挡的视频在线观看| 亚洲成va人在线观看| www.国产区| 永久免费精品视频| 在线观看91久久久久久| 精品无码人妻一区二区三区| 美女诱惑一区二区| 久久综合久久久| av网站免费在线观看| 日韩欧美亚洲综合| 白丝校花扒腿让我c| 日韩欧美伦理| 日本高清不卡在线| 黄色aaa毛片| 亚洲欧美怡红院| 国产无套内射久久久国产| 日韩一二三区| 日韩天堂在线视频| 在线免费观看国产精品| av在线不卡电影| 青青草综合在线| 日韩在线你懂得| 伊人伊成久久人综合网站| 日韩欧美视频在线免费观看| 国产精品99久久久久久似苏梦涵 | 亚洲综合日韩中文字幕v在线| 久久经典视频| 精品福利免费观看| 中文在线观看免费视频| 欧美另类专区| 亚洲资源在线看| 免费的黄网站在线观看| 色婷婷av一区二区三区gif| 日本一区二区在线观看视频| 欧美啪啪一区| 97久久天天综合色天天综合色hd| 久做在线视频免费观看| 欧美日韩国产精品自在自线| 最新中文字幕av| 美女久久网站| 日本一区二区在线| 欧美大电影免费观看| 精品网站999www| 日韩欧美一区二区一幕| 成+人+亚洲+综合天堂| 男人添女荫道口图片| 6080成人| 91精品国产91久久久| 午夜小视频免费| 精品欧美aⅴ在线网站| 中文文字幕文字幕高清| 国产精品一页| 欧美日韩免费观看一区| 欧美大片免费| 亚洲香蕉成人av网站在线观看| 国产性生活视频| 国产欧美日本一区二区三区| 九一精品在线观看| 欧美丰满日韩| 7777精品久久久大香线蕉小说| 五月婷婷视频在线观看| 精品福利一二区| 黄网在线观看视频| 国产亲近乱来精品视频| 国产乱女淫av麻豆国产| 国内综合精品午夜久久资源| 黄色99视频| 韩日精品一区| 久久夜色精品亚洲噜噜国产mv| 精品毛片一区二区三区| 亚洲电影在线免费观看| 国产三级视频网站| 日本不卡的三区四区五区| 中文字幕一区二区三区有限公司 | 久久99热国产| 视色,视色影院,视色影库,视色网| 在线一区二区三区视频| 欧洲成人免费视频| 欧美成年黄网站色视频| 日韩久久久精品| 黄瓜视频在线免费观看| 亚洲人成精品久久久久| 国产伦理在线观看| 日韩精品国产精品| 在线观看成人免费| 一区二区三区四区在线看| 91精品久久久久久久久久| 国产探花在线观看| 国产一区二区三区视频| 精品人妻一区二区三区浪潮在线| 亚洲18女电影在线观看| 国精产品一区一区| 99久久免费国产| 午夜久久久精品| 亚洲激情网址| 亚洲一区二区三区涩| youjizz欧美| 国产精品普通话| ****av在线网毛片| 久久天天躁日日躁| 欧美男男同志| 日韩美女在线视频| 真实的国产乱xxxx在线91| 亚洲妇女屁股眼交7| 99精品中文字幕| 92精品国产成人观看免费| 亚洲制服在线观看| 日韩成人午夜电影| 日本www在线播放| 国产精品hd| 国产精品亚洲天堂| 精品国产乱码久久久久久果冻传媒| 成人国产一区二区| 国产精品美女久久久久人| 国产精品白嫩美女在线观看| 国产丝袜精品丝袜| 日韩视频免费观看| av片在线免费观看| 亚洲色图25p| 亚洲av毛片成人精品| 日韩欧美成人激情| 国产一区二区三区四区视频 | 香港三级韩国三级日本三级| 欧美国产91| 中日韩在线视频| 欧美亚洲国产一区| 欧美美乳视频网站在线观看| youjizzjizz亚洲| 99电影网电视剧在线观看| 99视频这里有精品| 成人激情视频在线| 黄色精品视频网站| 国产成人综合精品在线| 日韩a**中文字幕| 热99在线视频| 亚洲淫成人影院| 欧美专区在线观看| 日本不卡网站| 日韩美女视频在线观看| 一区二区三区电影大全| 欧美在线视频免费| 玛雅亚洲电影| 国产成人欧美在线观看| 日韩三区在线| 国产精品入口免费视频一| 成人黄色免费网站| 国产一区视频在线| 99亚洲男女激情在线观看| 91色精品视频在线| 日韩激情欧美| 精品国产综合久久| 国产成人调教视频在线观看| 欧美中日韩一区二区三区| 精品免费在线| 亚洲欧美日韩精品在线| 91综合在线| 99在线观看视频免费| 国产日韩视频| www.99在线| 激情文学综合丁香| 黄页网站在线看| 91亚洲永久精品| 亚洲天堂岛国片| **性色生活片久久毛片| 国产在线一区视频| 色综合av在线| 91在线观看喷潮| 欧美成人一级视频| 深夜影院在线观看| 中文字幕一区电影| 色噜噜狠狠狠综合欧洲色8| 91成人天堂久久成人| 99久久久国产精品免费调教网站| 成人写真福利网| 巨人精品**| 神马影院我不卡午夜| 91精品91| 免费无码av片在线观看| 麻豆视频观看网址久久| 一区二区三区四区影院| 91免费视频大全| 亚洲精品一区二区三区在线播放| 夜夜精品视频一区二区| 成人公开免费视频| 欧美一区二区人人喊爽| 日本啊v在线| 欧美成aaa人片免费看| 新版的欧美在线视频| 成人久久精品视频| 婷婷综合一区| 国产精品日韩三级| 免费成人美女在线观看.| 欧美xxxxx精品| 国产精品乱人伦一区二区| 日韩伦人妻无码| 欧美精品国产精品| 国产在线网站| 久久久久久久久国产精品| 国产福利亚洲| 久久久99国产精品免费| 欧美伊人久久| 黄色国产小视频| yourporn久久国产精品| 国产天堂av在线| 色久优优欧美色久优优| 日本wwwxxxx| 久久香蕉频线观| 成人看片毛片免费播放器| 精品日产一区2区三区黄免费| 香蕉视频官网在线观看日本一区二区| 成人久久久久久久久| 国产·精品毛片| 秋霞欧美一区二区三区视频免费| 色综合久久久久| 内射无码专区久久亚洲| 久久久999国产精品| 中文字幕系列一区| 蜜桃91精品入口| 亚洲黄网站黄| 91精品国产高清91久久久久久| 国产精品初高中害羞小美女文| 青青视频在线免费观看| 亚洲国产欧美一区二区三区同亚洲| 超鹏97在线| 成人精品福利视频| 欧美3p在线观看| 天天干天天玩天天操| 国产精品无圣光一区二区| 波多野结衣高清在线| 亚洲免费电影一区| 日韩电影网站| 欧美在线一区二区三区四区| 久久精品一区二区国产| 噜噜噜在线视频| 欧美日韩精品在线观看| 秋霞视频一区二区| 久久久影视精品| 成人资源在线| 国产原创popny丨九色| 成人久久久精品乱码一区二区三区| 朝桐光av在线| 日韩欧美专区在线| 日本高清成人vr专区| 91亚色免费| 在线日本高清免费不卡| 老熟妇精品一区二区三区| 亚洲国产成人高清精品| 日批视频在线播放| 欧美亚洲成人xxx| 国产欧美日韩精品一区二区三区| 毛片一区二区三区四区| 国产免费观看久久| 亚洲无码久久久久| 欧美大奶子在线| 岛国av一区| 国产精品97在线| 国产精品青草久久| av手机免费看| 韩国国内大量揄拍精品视频| 夜夜春成人影院| 手机看片一级片| 亚洲免费高清视频在线| 丰满少妇在线观看bd| 97超级碰碰人国产在线观看| 国产麻豆精品久久| 国产福利精品一区二区三区| 一区二区三区免费在线观看| 日韩在线视频免费| 日本中文字幕久久看| 欧美韩日一区| 国产精品果冻传媒| 一本到不卡精品视频在线观看| 永久av在线| 国产亚洲情侣一区二区无| 首页国产欧美久久| av成人免费网站| 日韩电影大全免费观看2023年上| 午夜精品成人av| 热久久最新地址| 久久久噜噜噜久久人人看 | 久久99国产精品久久99 | 日韩欧美在线字幕| 日本成a人片在线观看| 国产女主播一区二区| 日本aⅴ亚洲精品中文乱码| 激情四射综合网| 亚洲欧美综合图区| 91精品导航| 一路向西2在线观看| 亚洲高清不卡在线观看| 一广人看www在线观看免费视频| 成人情视频高清免费观看电影| 日本va欧美va欧美va精品| 欧美一级视频免费观看| 精品国产区一区二区三区在线观看| 日韩伦理一区二区三区| 国产高清999|