OpenAI深夜放大招！Codex-Max上線，與Gemini 3巔峰對決原創

算家計算

發布于 2025-11-20 15:16

瀏覽

0收藏

兩大AI巨頭同時發力，兩大編程助手誰強誰弱？

昨天，Gemini 3剛剛發布，就在AI領域掀起了不小的波瀾。熱度還沒消退，昨晚OpenAI緊跟著推出了旗下最強編程模型——GPT-5.1-Codex-Max。

OpenAI深夜放大招！Codex-Max上線，與Gemini 3巔峰對決-AI.x社區
?
兩大AI巨頭接連出牌，讓這場模型之爭陡然升溫。

那么，這款新發布的GPT-5.1-Codex-Max與Gemini 3究竟有何不同？

性能表現

GPT-5.1-Codex-Max被OpenAI稱為“代理性”編碼模型，其核心優勢在于處理那些需要長時間專注的復雜工程任務。根據OpenAI的介紹，該模型在內部測試中能夠持續工作超過24小時，處理諸如修復測試失敗、迭代實現等任務。

這種持久作戰能力得益于一項名為“壓縮”的技術。當模型的上下文窗口被填滿時，它會自動壓縮會話歷史，保留關鍵信息并丟棄不重要的細節，從而在數百萬個token的跨度中保持對核心任務的跟蹤。

這種機制使得GPT-5.1-Codex-Max成為首個能夠在多個上下文窗口中以這種方式本地訓練的模型。

在性能表現上，GPT-5.1-Codex-Max在SWE-Bench Verified測試中達到了77.9%的得分，在SWE-Lancer IC SWE測評中更是達到79.9%。

OpenAI深夜放大招！Codex-Max上線，與Gemini 3巔峰對決-AI.x社區
?

它在保持質量的同時，比前代模型減少了30%的“思考token”使用量，在現實任務中的運行速度也快了27%至42%。

OpenAI深夜放大招！Codex-Max上線，與Gemini 3巔峰對決-AI.x社區
?

Gemini 3的全方位挑戰

谷歌的Gemini 3則呈現出不同的優勢特點。根據官方測試數據，Gemini 3在多項基準測試中表現出色，在GPQA Diamond上達到91.9%的分數，展示了博士級別的推理能力。

OpenAI深夜放大招！Codex-Max上線，與Gemini 3巔峰對決-AI.x社區
?

Gemini 3的亮點在于其生成式體驗功能，能夠直接在瀏覽器中構建動畫和交互式UI界面來解釋復雜概念。比如，它可以生成完全交互式的利率計算器，包含滑塊、可編輯文本字段、彩色表格等豐富的網頁元素。
?

谷歌還增強了Gemini 3的代理能力，使其能夠處理多步驟命令。例如，你可以要求聊天機器人為你的下一次旅行預訂車輛，它不僅會查看電子郵件，還會通過模擬瀏覽器瀏覽互聯網，從租賃機構找到可用車輛。

從兩者的特性來看，OpenAI選擇了深度專業化的路線，專門針對編程任務優化，尤其是那些需要長時間專注的復雜工作。而谷歌則采取了全面發展的策略，使Gemini 3在推理、多模態理解和交互體驗上都有出色表現。

目前，GPT-5.1-Codex-Max現已向ChatGPT Plus、Pro、Team、Edu和Enterprise用戶開放。使用限制因訂閱類型而異，Plus用戶每5小時可發送45至225條本地消息和10至60條云任務，而Pro用戶則享有更多容量。

Gemini 3也遵循類似的免費增值模式，幾乎所有功能都向免費用戶開放，但高級功能需要訂閱。

?
對于注重成本效益的開發者，GPT-5.1-Codex-Max在效率上的提升可能帶來長期收益。思考token減少30%意味著在處理復雜任務時能夠更快地獲得結果，同時可能降低使用成本。

對于開發者社區而言，這種競爭最終將帶來更好的工具和更高的工作效率。隨著這些AI助手不斷進化，它們將承擔越來越多繁瑣和耗時的編程任務，讓我們能夠專注于真正需要人類創造力和判斷力的工作。
?

兩款頂級AI編程助手你挺誰？歡迎在評論區交流討論！

寫在最后：如果您正在進行AI領域的創業或研究，卻受困于高昂的算力成本或高并發下的推理穩定性等問題，歡迎留言或私信我們，找到您的降本增效突破口~

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

贊

回復

舉報

社區頭條

回復

相關推薦

Gemini的AI生圖消失數月終重返！Imagen 3或成谷歌“大招”，為避免Deepfake絞盡腦汁，網友：最逼真的AI人像

51CTO技術棧 ? 4415瀏覽 ? 0回復
谷歌放大招開源SynthID Text，火眼金睛鑒別AI，還能為AI生成的多媒體內容添加隱形水印！

51CTO技術棧 ? 4225瀏覽 ? 0回復
騰訊放大招，超Meta！史上參數最大，開源專家混合模型

Aceryt ? 3353瀏覽 ? 0回復
OpenAI VS Deepmind：年度最大AI對決！

NLP前沿1 ? 3671瀏覽 ? 0回復
通義實驗室放大招

NLP前沿1 ? 3142瀏覽 ? 0回復
大模型對決：DeepSeek R1與o3-mini

丟翅膀的魚 ? 4240瀏覽 ? 0回復
Gemini 2.0 Flash Thinking：谷歌放大招！能"直播思考"的AI來了，推理能力吊打OpenAI？

Halo咯咯 ? 6501瀏覽 ? 0回復
Meta放大招！Llama 4三大模型來襲，開源免費還超能打

Halo咯咯 ? 4309瀏覽 ? 0回復
OpenAI深夜放大招！GPT-4.1系列震撼發布：百萬token上下文+性能全面碾壓，性價比拉滿

AI博物院 ? 2762瀏覽 ? 0回復
剛剛，OpenAI丟出最強編程智能體Codex！倒反天罡——新上線功能竟是微軟Copilotb鼻祖？

51CTO技術棧 ? 2817瀏覽 ? 0回復
OpenAI深夜發布通用Agent

探索AGI ? 3306瀏覽 ? 0回復
OpenAI 深夜祭Agent大招！背后研究人員曝光！奧特曼：感受AGI！VibePPT將至，Manus曬對比測評

51CTO技術棧 ? 1841瀏覽 ? 0回復
ChatGPT Agent介紹，OpenAI又要放大招了？

Halo咯咯 ? 3956瀏覽 ? 0回復
阿里達摩院偷偷放大招！RynnEC讓機器人“看懂世界”只需一句話

穿越時空111 ? 2282瀏覽 ? 0回復
通義千問放大招！4800億參數MoE架構，Qwen3-Coder厲害在哪里

Halo咯咯 ? 5962瀏覽 ? 0回復
Qwen3-Max Preview 發布：阿里帶來首個萬億參數大模型，挑戰長上下文極限

Halo咯咯 ? 5137瀏覽 ? 0回復
谷歌放大招！EmbeddingGemma 免費商用：200MB 內存搞定 100 種語言 RAG，性能翻倍

穿越時空111 ? 3514瀏覽 ? 0回復
OpenAI Codex深度配置與避坑指南（附完整AGENTS.md）

AI博物院 ? 1.0w瀏覽 ? 0回復
OpenAI版小程序誕生！奧特曼深夜五連發！ChatGPT可內置應用，Codex超強更新，AI構建者時代已至

51CTO技術棧 ? 1273瀏覽 ? 0回復

算家計算

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

51CTO

51CTO博客

51CTO學堂

OpenAI深夜放大招！Codex-Max上線，與Gemini 3巔峰對決原創

性能表現

Gemini 3的全方位挑戰

目錄

51CTO

51CTO博客

51CTO學堂

OpenAI深夜放大招！Codex-Max上線，與Gemini 3巔峰對決 原創

性能表現

Gemini 3的全方位挑戰

目錄

OpenAI深夜放大招！Codex-Max上線，與Gemini 3巔峰對決原創