最先進推理模型！ OpenAI 推出 o3 和 o4-mini 模型

作者：崔皓 2025-04-23 08:30:05

OpenAI 的 o3 和 o4-mini 模型代表了人工智能能力的重大進步，特別是在推理和多模態理解方面。通過將深層推理與多才多藝的工具使用以及“以圖像思考”的新能力相結合，為人工智能的智能和效用設定了新標準。

譯者 | 崔皓

審校 | 重樓

開篇

就在OpenAI推出 GPT 4.1 系列幾天后，又發布了o3 和 o4-mini 的推理模型，這表明大模型正式邁向 AGI（人工通用智能）。 o3 和 o4-mini 不僅僅是 AI 模型；它們還具備智能性、自治性、可調用工具以及與真實軟件對接的技能，是一個真正意義上的AI 系統。新模型不會被動工作；而是主動使用工具自動完成任務！接下來，就讓我們深入了解“O 系”模型：o3 和 o4-mini 的功能、性能和應用。

o3 和 o4-mini 是什么？

o3 和 o4-mini 是 OpenAI 最新的推理模型，取代了 o 系列之前的模型，比如 o1 和 o3-mini。o 系模型不同于主要關注模式識別和文本生成的LLMs（大語言模型），o 系模型作為推理模型采用了更長的內部“思維鏈”模式。

這種方式使模型能夠分解復雜問題，評估不同步驟，并得出更準確和慎重的解決方案。因此，在諸如 STEM、編碼和邏輯推理等領域，它們尤其擅長。此外， o 系模型首創了整合工具套件的能力，能夠主動使用和組合 ChatGPT 中提供的完整工具套件。

o3 是 OpenAI 最先進的推理模型，擅長處理在各個領域需要深入分析思考的任務。該模型的計算量是 o1 的 10 倍，引入了“圖像推理”的能力。這使其能夠直接在認知過程中處理和推理關于視覺輸入的信息。

o4-mini 是 o3 模型的替代品，相對于o3而言o4-mini更加緊湊、高效、以及成本更低。盡管o4-mini模型的參數少于o3模型，但它在數學、編碼和視覺任務等領域表現出色。通過對模型的優化設計可以確保模型具備更快的響應速度和更高的吞吐量，使其適用于高效的應用場景。

同時，OpenAI 還發布了 o4-mini-high 變體，它會花費更多時間處理用戶請求，并給出更可靠的答案。

未來，OpenAI計劃向訂閱用戶發布更強大的o3-pro版本，它將使用更多計算資源，同時也提供更好的服務。

o3 和 o4-mini 的主要功能

o3與o4-mini的強大離不開如下關鍵特性：

主動行為：主動解決問題的能力，自主確定復雜任務的最佳方法，并高效地執行多步解決方案。
高級工具集成：無縫地利用諸如網絡瀏覽、代碼執行和圖像生成等工具，以增強其回答并有效應對復雜查詢。
多模態推理：直接處理和整合視覺信息到他們的推理過程中，從而解釋和分析圖像與文本數據并行。
高級視覺推理（“用圖像思考”）：解釋復雜的視覺輸入，例如圖表、白板草圖，甚至模糊/低質量照片。它們甚至可以將這些圖像（放大、裁剪、旋轉、增強）作為推理過程的一部分，從而提取相關信息。

o3 和 o4-mini 是否反映了 AGI？

這兩個“o 系”模型會在生成響應前執行復雜的多步推理。

當用戶給出問題時， o3先會使用“蠻力”得出解決方案。接著，會嘗試找到更智能的計算方法并以更簡潔的格式呈現。然后，繼續核對答案并簡化，從而提供給用戶簡單和易于理解的回應。

盡管整個思考過程部分基于計算和訓練，但在模型的訓練過程中，并沒有被明確教導去簡化答案或重新檢查過程。不過模型的響應過程，這使之具備自我進化和自我學習的能力，從而逐漸逼近通用人工智能。

此外，o3 能夠自主決定何時以及如何使用 ChatGPT 中的各種工具（網絡搜索、Python 數據分析、DALL·E 圖像生成和視覺），以解決復雜、多方面的查詢。它可以鏈接多個工具調用，迭代搜索網絡，分析結果，并在各種模式之間綜合信息。

對 o3、o4-mini 和 o4-mini-high 進行實際測試

現在讓我們在一些實際應用中嘗試這些備受期待的新 o 系列模型。我們將測試所有三個模型在它們擅長的任務上的表現。這包括：

使用 o3 進行編碼
使用 o4-mini 進行數學推理
使用 o4-mini-high 進行視覺推理

讓我們開始吧！

任務 1：使用 o3 進行編碼

提示詞: “創建一個 Python 模擬，其中有 2 個球 - 一個是黃色的，另一個是藍色的 - 它們在一個順時針旋轉的五邊形內的厚六邊形框架中彈跳。每次它們相撞時，球必須變成綠色，并在下一次相撞時恢復原來的顏色。它們必須以遞增的速度移動。”

o3 在不到一分鐘內生成了完全功能的、無錯的代碼，并附加了它的解釋，輸出結果非常棒！我嘗試過在其他各種模型上使用類似的提示，這絕對是第一次生成的最佳模擬之一。無論是形狀、運動方向和速度，還是顏色的變化 - 都是十分準確的！唯一出錯的是球一直在框架外移動。

任務 2：使用 o4-mini 進行數學推理的任務

提示詞: “從給定的算式中選出兩個數字，互換位置還能夠讓等式成立？”14 + 39 – (√256 ÷ 3) + (5 × 4) – 6 = 58″

o4-mini 只花了大約 10 秒鐘來回答這個問題。它展示了在生成最終答案之前的思考過程和分析，這使其更可信。結果準確無誤，速度也很快。

任務 3：使用 o4-mini-high 進行視覺推理的任務

提示詞： “軟木板上寫的點綴色是什么？”

輸入圖像:

o4-mini-high 在約一分鐘內分析了圖像并讀取了手寫文本。它首先評估了圖像的大小，放大到便利貼貼在的部分。然后裁剪圖像，將模糊部分清晰化，然后嘗試閱讀文本。這是非常出色的，目前沒有其他模型能夠做到這一點。

盡管 o4-mini-high 可以讀到便簽上寫的“ACCENT COLOURS”，但只看到了其中提到的 4 種顏色中的 3 種，甚至讀錯了。然而，有趣的是，在它的思維過程中，該模型提到無法清楚閱讀文本是因為字體太小。

出于好奇，問 o4-mini-high“顯示器和頭盔是什么品牌？”，它立刻正確識別了它們。

o3 和 o4-mini 的可用性

這兩個模型都可以通過 OpenAI 的 ChatGPT 平臺和 API 服務進行訪問：

ChatGPT 訪問 ：ChatGPT Plus、Pro 和 Team 計劃的用戶可以直接在聊天界面上使用 o3、o4-mini 和 o4-mini-high 模型。

企業和教育用戶將在一周內獲得訪問權限。

免費用戶可以在提交查詢之前選擇“Think”選項來體驗 o4-mini。

API Access：開發者可以通過 OpenAI 的API將 o3 和 o4-mini 集成到其應用程序中，從而在各種平臺上實現定制 AI 解決方案。

o3 和 o4-mini：基準性能

o3 和 o4-mini 模型在一系列標準基準測試中展現出了出色的能力。

SWE-Lancer：這兩個模型的高變異體在這個編碼基準測試中表現出色，令它們的前輩相形見絀。
經過 SWE-Bench 驗證（軟件工程）：o3 取得了 69.1%的成績，而 o4-mini 緊隨其后，達到了 68.1%。這兩個模型在表現上明顯優于以往的模型，如 o3-mini（49.3%）和像 Claude 3.7 Sonnet（63.7%）。
Aider Polyglot（代碼編輯）：這兩個模型在代碼編輯基準測試中被證明是 OpenAI 中最佳的，創下了新紀錄。

AIME 2025 (數學)：o4-mini 通過配備 Python 解釋器創下了新的基準，得分為 99.5%，而 o3 緊隨其后，得分為 98.4%。
Codeforces （競技編程）: o4-mini 實現了 2719 的 Elo 評分，反映了其在競技編程場景中的先進問題解決能力。與此同時，o3 得分為 2706，仍遠遠優于其他模型的表現。
GPQA Diamond (PhD 級)：o3 在不使用任何工具的情況下，通過在該基準測試上達到 87.7%的準確性，展示了先進的科學推理能力。o4-mini 緊隨其后，準確率為 81.4%。

MMMU（大規模多模態多任務理解）：o3 在這項基準測試中表現出色，展示出其處理涉及文本和視覺數據的多樣且復雜任務的能力。

Humanity’s Last Exam ：在跨領域專家級推理能力的基準測試中，o3 的準確度達到了 26.6%，勝過所有其他 OpenAI 模型。與此同時，o4-mini 明顯優于其前身 o3-mini。

o3 和 o4-mini 的應用

o3 和 o4-mini 的增強推理、工具使用和視覺能力解鎖了各種潛在應用，包括：

復雜數據分析和報告：通過編寫和執行 Python 代碼分析數據集，從網絡獲取補充信息，并生成摘要或可視化。
高級科學研究：通過解釋復雜圖表、分析實驗數據、搜索文獻，并可能提出新的研究方向，來協助研究人員。
高級編碼和軟件工程：調試復雜的代碼，基于視覺模擬或圖表生成代碼，理解存儲庫結構，并執行多步驟的軟件開發任務。
教育和輔導：使用逐步推理解釋復雜的 STEM 概念，解釋教科書圖表或手寫筆記，并提供互動問題解決協助。
多模態內容創作與理解：生成圖像的詳細描述或分析，創建需要整合文本和視覺元素的內容，并根據視覺證據回答問題。
商業智能與策略：使用實時網絡數據分析市場趨勢，制定預測，并基于綜合信息來源創建戰略計劃。
創新問題解決：解決需要結合不同類型信息和推理步驟的開放性挑戰。

結論

OpenAI 的 o3 和 o4-mini 模型代表了人工智能能力的重大進步，特別是在推理和多模態理解方面。通過將深層推理與多才多藝的工具使用以及“以圖像思考”的新能力相結合，為人工智能的智能和效用設定了新標準。在各種基準測試中的出色表現，凸顯了在處理軟件工程以及科學研究等領域的復雜任務的潛力。

o3 即使面對最苛刻任務也展現出高性能的一面，而o4-mini 則展現了能力、速度和成本的一種平衡。無論如何，兩個模型都擁有自主能力，體現了人工智能的先進程度。隨著人工智能的不斷發展，這種創新模型將為更復雜和多樣化的應用鋪平道路，使我們更接近實現 AGI（通用人工智能）。

譯者介紹

崔皓，51CTO社區編輯，資深架構師，擁有18年的軟件開發和架構經驗，10年分布式架構經驗。

原文標題：o3 and o4-mini: OpenAI’s Most Advanced Reasoning Models，作者：K.C. Sabreena Basheer

責任編輯：姜華來源： 51CTO內容精選

OpenAI 人工智能推理模型