OpenAI深夜放大招!Codex-Max上線,與Gemini 3巔峰對決 原創
兩大AI巨頭同時發力,兩大編程助手誰強誰弱?
?
昨天,Gemini 3剛剛發布,就在AI領域掀起了不小的波瀾。熱度還沒消退,昨晚OpenAI緊跟著推出了旗下最強編程模型——GPT-5.1-Codex-Max。
?

?
兩大AI巨頭接連出牌,讓這場模型之爭陡然升溫。
?
那么,這款新發布的GPT-5.1-Codex-Max與Gemini 3究竟有何不同?
?
性能表現
?
GPT-5.1-Codex-Max被OpenAI稱為“代理性”編碼模型,其核心優勢在于處理那些需要長時間專注的復雜工程任務。根據OpenAI的介紹,該模型在內部測試中能夠持續工作超過24小時,處理諸如修復測試失敗、迭代實現等任務。
?
這種持久作戰能力得益于一項名為“壓縮”的技術。當模型的上下文窗口被填滿時,它會自動壓縮會話歷史,保留關鍵信息并丟棄不重要的細節,從而在數百萬個token的跨度中保持對核心任務的跟蹤。
?
這種機制使得GPT-5.1-Codex-Max成為首個能夠在多個上下文窗口中以這種方式本地訓練的模型。
?
在性能表現上,GPT-5.1-Codex-Max在SWE-Bench Verified測試中達到了77.9%的得分,在SWE-Lancer IC SWE測評中更是達到79.9%。
?

?
它在保持質量的同時,比前代模型減少了30%的“思考token”使用量,在現實任務中的運行速度也快了27%至42%。
?

?
Gemini 3的全方位挑戰
?
谷歌的Gemini 3則呈現出不同的優勢特點。根據官方測試數據,Gemini 3在多項基準測試中表現出色,在GPQA Diamond上達到91.9%的分數,展示了博士級別的推理能力。
?

?
Gemini 3的亮點在于其生成式體驗功能,能夠直接在瀏覽器中構建動畫和交互式UI界面來解釋復雜概念。比如,它可以生成完全交互式的利率計算器,包含滑塊、可編輯文本字段、彩色表格等豐富的網頁元素。
?
谷歌還增強了Gemini 3的代理能力,使其能夠處理多步驟命令。例如,你可以要求聊天機器人為你的下一次旅行預訂車輛,它不僅會查看電子郵件,還會通過模擬瀏覽器瀏覽互聯網,從租賃機構找到可用車輛。
?
從兩者的特性來看,OpenAI選擇了深度專業化的路線,專門針對編程任務優化,尤其是那些需要長時間專注的復雜工作。而谷歌則采取了全面發展的策略,使Gemini 3在推理、多模態理解和交互體驗上都有出色表現。
?
目前,GPT-5.1-Codex-Max現已向ChatGPT Plus、Pro、Team、Edu和Enterprise用戶開放。使用限制因訂閱類型而異,Plus用戶每5小時可發送45至225條本地消息和10至60條云任務,而Pro用戶則享有更多容量。
?
Gemini 3也遵循類似的免費增值模式,幾乎所有功能都向免費用戶開放,但高級功能需要訂閱。
?
對于注重成本效益的開發者,GPT-5.1-Codex-Max在效率上的提升可能帶來長期收益。思考token減少30%意味著在處理復雜任務時能夠更快地獲得結果,同時可能降低使用成本。
?
對于開發者社區而言,這種競爭最終將帶來更好的工具和更高的工作效率。隨著這些AI助手不斷進化,它們將承擔越來越多繁瑣和耗時的編程任務,讓我們能夠專注于真正需要人類創造力和判斷力的工作。
?
兩款頂級AI編程助手你挺誰?歡迎在評論區交流討論!
?
寫在最后:如果您正在進行AI領域的創業或研究,卻受困于高昂的算力成本或高并發下的推理穩定性等問題,歡迎留言或私信我們,找到您的降本增效突破口~

















