精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

最先進推理模型! OpenAI 推出 o3 和 o4-mini 模型

譯文 精選
人工智能
OpenAI 的 o3 和 o4-mini 模型代表了人工智能能力的重大進步,特別是在推理和多模態理解方面。通過將深層推理與多才多藝的工具使用以及“以圖像思考”的新能力相結合,為人工智能的智能和效用設定了新標準。

譯者 | 崔皓

審校 | 重樓

開篇

就在OpenAI推出 GPT 4.1 系列幾天后,又發布了o3 和 o4-mini 的推理模型,這表明大模型正式邁向 AGI( 人工通用智能 )。 o3 和 o4-mini 不僅僅是 AI 模型;它們還具備智能性、自治性、可調用工具以及與真實軟件對接的技能,是一個真正意義上的AI 系統。 新模型不會被動工作;而是主動使用工具自動完成任務! 接下來,就讓我們深入了解“O 系”模型:o3 和 o4-mini 的功能、性能和應用。

o3 和 o4-mini 是什么?

o3 和 o4-mini 是 OpenAI 最新的推理模型,取代了 o 系列之前的模型,比如 o1 和 o3-mini。o 系模型不同于主要關注模式識別和文本生成的LLMs(大語言模型),o 系模型作為推理模型采用了更長的內部“思維鏈”模式。

這種方式使模型能夠分解復雜問題,評估不同步驟,并得出更準確和慎重的解決方案。因此,在諸如 STEM、編碼和邏輯推理等領域,它們尤其擅長。此外, o 系模型首創了整合工具套件的能力,能夠主動使用和組合 ChatGPT 中提供的完整工具套件。

o3 是 OpenAI 最先進的推理模型,擅長處理在各個領域需要深入分析思考的任務。該模型的計算量是 o1 的 10 倍,引入了“圖像推理”的能力。這使其能夠直接在認知過程中處理和推理關于視覺輸入的信息。

o4-mini 是 o3 模型的替代品, 相對于o3而言o4-mini更加緊湊、高效、以及成本更低。盡管o4-mini模型的參數少于o3模型,但它在數學、編碼和視覺任務等領域表現出色。通過對模型的優化設計可以確保模型具備更快的響應速度和更高的吞吐量,使其適用于高效的應用場景。

同時,OpenAI 還發布了 o4-mini-high 變體,它會花費更多時間處理用戶請求,并給出更可靠的答案。

未來,OpenAI計劃向訂閱用戶發布更強大的o3-pro版本,它將使用更多計算資源,同時也提供更好的服務。

o3 和 o4-mini 的主要功能

o3與o4-mini的強大離不開如下關鍵特性:

  • 主動行為:主動解決問題的能力,自主確定復雜任務的最佳方法,并高效地執行多步解決方案。
  • 高級工具集成:無縫地利用諸如網絡瀏覽、代碼執行和圖像生成等工具,以增強其回答并有效應對復雜查詢 。
  • 多模態推理:直接處理和整合視覺信息到他們的推理過程中,從而解釋和分析圖像與文本數據并行。
  • 高級視覺推理(“用圖像思考”):解釋復雜的視覺輸入,例如圖表、白板草圖,甚至模糊/低質量照片。它們甚至可以將這些圖像(放大、裁剪、旋轉、增強)作為推理過程的一部分,從而提取相關信息。

o3 和 o4-mini 是否反映了 AGI?

這兩個“o 系”模型會在生成響應前執行復雜的多步推理。

當用戶給出問題時, o3先會使用“蠻力”得出解決方案。接著,會嘗試找到更智能的計算方法并以更簡潔的格式呈現。然后,繼續核對答案并簡化,從而提供給用戶簡單和易于理解的回應。

盡管整個思考過程部分基于計算和訓練,但在模型的訓練過程中,并沒有被明確教導去簡化答案或重新檢查過程。不過模型的響應過程,這使之具備自我進化和自我學習的能力,從而逐漸逼近通用人工智能。

此外,o3 能夠自主決定何時以及如何使用 ChatGPT 中的各種工具(網絡搜索、Python 數據分析、DALL·E 圖像生成和視覺),以解決復雜、多方面的查詢。它可以鏈接多個工具調用,迭代搜索網絡,分析結果,并在各種模式之間綜合信息。

對 o3、o4-mini 和 o4-mini-high 進行實際測試

現在讓我們在一些實際應用中嘗試這些備受期待的新 o 系列模型。我們將測試所有三個模型在它們擅長的任務上的表現。這包括:

  • 使用 o3 進行編碼
  • 使用 o4-mini 進行數學推理
  • 使用 o4-mini-high 進行視覺推理

讓我們開始吧!

任務 1:使用 o3 進行編碼

提示詞: “創建一個 Python 模擬,其中有 2 個球 - 一個是黃色的,另一個是藍色的 - 它們在一個順時針旋轉的五邊形內的厚六邊形框架中彈跳。每次它們相撞時,球必須變成綠色,并在下一次相撞時恢復原來的顏色。它們必須以遞增的速度移動。”

o3 在不到一分鐘內生成了完全功能的、無錯的代碼,并附加了它的解釋,輸出結果非常棒!我嘗試過在其他各種模型上使用類似的提示,這絕對是第一次生成的最佳模擬之一。無論是形狀、運動方向和速度,還是顏色的變化 - 都是十分準確的!唯一出錯的是球一直在框架外移動。

任務 2:使用 o4-mini 進行數學推理的任務

提示詞: “從給定的算式中選出兩個數字,互換位置還能夠讓等式成立?”14 + 39 – (√256 ÷ 3) + (5 × 4) – 6 = 58″

o4-mini 只花了大約 10 秒鐘來回答這個問題。它展示了在生成最終答案之前的思考過程和分析,這使其更可信。結果準確無誤,速度也很快。

任務 3:使用 o4-mini-high 進行視覺推理的任務

提示詞: “軟木板上寫的點綴色是什么?”

輸入圖像:

o4-mini-high 在約一分鐘內分析了圖像并讀取了手寫文本。它首先評估了圖像的大小,放大到便利貼貼在的部分。然后裁剪圖像,將模糊部分清晰化,然后嘗試閱讀文本。這是非常出色的,目前沒有其他模型能夠做到這一點。

盡管 o4-mini-high 可以讀到便簽上寫的“ACCENT COLOURS”,但只看到了其中提到的 4 種顏色中的 3 種,甚至讀錯了。然而,有趣的是,在它的思維過程中,該模型提到無法清楚閱讀文本是因為字體太小。

出于好奇,問 o4-mini-high“顯示器和頭盔是什么品牌?”,它立刻正確識別了它們。

o3 和 o4-mini 的可用性

這兩個模型都可以通過 OpenAI 的 ChatGPT 平臺和 API 服務進行訪問:

ChatGPT 訪問 :ChatGPT Plus、Pro 和 Team 計劃的用戶可以直接在聊天界面上使用 o3、o4-mini 和 o4-mini-high 模型。

企業和教育用戶將在一周內獲得訪問權限。

免費用戶可以在提交查詢之前選擇“Think”選項來體驗 o4-mini。

API Access:開發者可以通過 OpenAI 的API將 o3 和 o4-mini 集成到其應用程序中,從而在各種平臺上實現定制 AI 解決方案。

o3 和 o4-mini:基準性能

o3 和 o4-mini 模型在一系列標準基準測試中展現出了出色的能力。

  • SWE-Lancer:這兩個模型的高變異體在這個編碼基準測試中表現出色,令它們的前輩相形見絀。
  • 經過 SWE-Bench 驗證(軟件工程):o3 取得了 69.1%的成績,而 o4-mini 緊隨其后,達到了 68.1%。這兩個模型在表現上明顯優于以往的模型,如 o3-mini(49.3%)和像 Claude 3.7 Sonnet63.7%
  • Aider Polyglot(代碼編輯):這兩個模型在代碼編輯基準測試中被證明是 OpenAI 中最佳的,創下了新紀錄。

  • AIME 2025 (數學):o4-mini 通過配備 Python 解釋器創下了新的基準,得分為 99.5%,而 o3 緊隨其后,得分為 98.4%。
  • Codeforces (競技編程): o4-mini 實現了 2719 的 Elo 評分,反映了其在競技編程場景中的先進問題解決能力。與此同時,o3 得分為 2706,仍遠遠優于其他模型的表現。
  • GPQA Diamond (PhD 級):o3 在不使用任何工具的情況下,通過在該基準測試上達到 87.7%的準確性,展示了先進的科學推理能力。o4-mini 緊隨其后,準確率為 81.4%。

  • MMMU(大規模多模態多任務理解):o3 在這項基準測試中表現出色,展示出其處理涉及文本和視覺數據的多樣且復雜任務的能力。

  • Humanity’s Last Exam :在跨領域專家級推理能力的基準測試中,o3 的準確度達到了 26.6%,勝過所有其他 OpenAI 模型。與此同時,o4-mini 明顯優于其前身 o3-mini。

o3 和 o4-mini 的應用

o3 和 o4-mini 的增強推理、工具使用和視覺能力解鎖了各種潛在應用,包括:

  • 復雜數據分析和報告: 通過編寫和執行 Python 代碼分析數據集,從網絡獲取補充信息,并生成摘要或可視化。
  • 高級科學研究:通過解釋復雜圖表、分析實驗數據、搜索文獻,并可能提出新的研究方向,來協助研究人員。
  • 高級編碼和軟件工程:調試復雜的代碼,基于視覺模擬或圖表生成代碼,理解存儲庫結構,并執行多步驟的軟件開發任務。
  • 教育和輔導:使用逐步推理解釋復雜的 STEM 概念,解釋教科書圖表或手寫筆記,并提供互動問題解決協助。
  • 多模態內容創作與理解:生成圖像的詳細描述或分析,創建需要整合文本和視覺元素的內容,并根據視覺證據回答問題。
  • 商業智能與策略:使用實時網絡數據分析市場趨勢,制定預測,并基于綜合信息來源創建戰略計劃。
  • 創新問題解決:解決需要結合不同類型信息和推理步驟的開放性挑戰。

結論

OpenAI 的 o3 和 o4-mini 模型代表了人工智能能力的重大進步,特別是在推理和多模態理解方面。通過將深層推理與多才多藝的工具使用以及“以圖像思考”的新能力相結合,為人工智能的智能和效用設定了新標準。在各種基準測試中的出色表現,凸顯了在處理軟件工程以及科學研究等領域的復雜任務的潛力。

o3 即使面對最苛刻任務也展現出高性能的一面,而o4-mini 則展現了能力、速度和成本的一種平衡。無論如何,兩個模型都擁有自主能力,體現了人工智能的先進程度。隨著人工智能的不斷發展,這種創新模型將為更復雜和多樣化的應用鋪平道路,使我們更接近實現 AGI(通用人工智能)。

譯者介紹

崔皓,51CTO社區編輯,資深架構師,擁有18年的軟件開發和架構經驗,10年分布式架構經驗。

原文標題:o3 and o4-mini: OpenAI’s Most Advanced Reasoning Models,作者:K.C. Sabreena Basheer

責任編輯:姜華 來源: 51CTO內容精選
相關推薦

2024-12-24 16:15:04

2025-04-18 11:18:51

2025-04-07 07:18:48

2024-09-24 11:01:03

2025-08-06 07:42:26

2025-04-21 16:25:58

OpenAI測試模型

2025-08-06 09:02:31

2025-04-17 06:10:57

2025-05-13 08:24:14

2025-06-03 08:26:00

2025-02-08 17:00:11

2025-06-11 09:19:46

2025-04-17 08:59:59

2025-01-20 19:52:50

2025-04-17 06:36:29

2025-05-28 00:00:00

2025-04-25 10:26:19

2025-02-18 08:15:03

2025-06-11 08:56:54

2025-06-08 14:15:42

點贊
收藏

51CTO技術棧公眾號

欧美性xxxxxx少妇| 爱情岛论坛亚洲自拍| www.四虎在线| 美丽的姑娘在线观看免费动漫| 日本在线中文字幕一区二区三区 | 色94色欧美sute亚洲线路一久| 成人av资源在线播放| 泷泽萝拉在线播放| 91黄页在线观看| 精品一区二区久久久| 亚洲日韩中文字幕在线播放| www.av毛片| 99免费在线视频| 91综合网人人| 欧美在线色视频| 欧美日本亚洲| 日韩不卡在线播放| 丁香一区二区| 一区二区三区不卡在线观看 | 成人性生活毛片| 高清av一区二区三区| 伊人夜夜躁av伊人久久| 成人在线视频福利| 中国黄色a级片| а√在线天堂官网| 91在线免费播放| 久久久久久久电影一区| 无码人妻丰满熟妇啪啪网站| 成人软件在线观看| 久久精品人人爽人人爽| 欧美整片在线观看| 全黄一级裸体片| 成人欧美magnet| 国产亚洲精品超碰| 精品国产一区二区三区免费| 六月丁香婷婷综合| 亚洲有吗中文字幕| 日韩视频在线观看一区二区| 国产欧美日韩小视频| 欧美亚洲精品在线观看| 国内精品嫩模av私拍在线观看| 日韩美一区二区三区| www.av片| 性xxxxfjsxxxxx欧美| 99亚偷拍自图区亚洲| 日本成熟性欧美| 日韩美女黄色片| 美女毛片一区二区三区四区| 91精品福利在线| 黄色网页免费在线观看| 毛片免费在线播放| 91亚洲国产成人精品一区二三| 欧美一性一乱一交一视频| 一级片手机在线观看| 国内精品偷拍| 亚洲精品一区二区三区蜜桃下载 | 色噜噜噜噜噜噜| 亚洲毛片在线免费| 亚洲国产欧美在线人成| 欧美成人在线免费观看| 这里只有精品国产| 午夜久久tv| 亚洲免费av片| 在线观看免费不卡av| 182在线视频观看| 亚洲国产成人精品视频| 欧洲精品在线播放| 成人18在线| 国产91精品免费| 日本道色综合久久影院| 久久久蜜桃一区二区| 亚洲国产精品久久久天堂 | 精品国产91久久久久久| 日本一区视频在线观看免费| 超碰在线人人干| 日本在线不卡视频| 欧美黑人狂野猛交老妇| 国产三级短视频| 日韩久久综合| 精品亚洲一区二区三区在线播放 | 成人免费在线观看视频| 一区二区三区四区视频精品免费| 亚洲 欧美 综合 另类 中字| 激情aⅴ欧美一区二区欲海潮 | 一级黄色片在线看| 亚洲伦伦在线| 久久视频在线观看免费| 国产精品无码一区二区三区免费| 蜜臀91精品国产高清在线观看| 一区二区三区四区视频| 久久久久亚洲AV成人无码国产| 欧美黄色网络| 色噜噜狠狠成人网p站| 色悠悠久久综合网| 国产美女高潮在线观看| 欧美制服丝袜第一页| 日韩精品视频网址| 成人在线免费av| 精品国产伦一区二区三区观看方式| 成人免费看aa片| 国产精品久久久久久影院8一贰佰| 亚洲欧美中文日韩v在线观看| 美女av免费看| 欧洲视频一区| 亚洲视频在线免费看| 欧美特级一级片| 性欧美精品高清| 97精品国产97久久久久久免费| 农村妇女精品一区二区| 国产视频一区在线观看一区免费| 欧美激情综合亚洲一二区| 无码视频一区二区三区| 国产ts人妖一区二区| 欧洲精品一区色| 狠狠v欧美ⅴ日韩v亚洲v大胸 | 亚洲a级在线观看| 国产又粗又猛又爽又黄的| 日本美女视频一区二区| 国产一区二区无遮挡| 日本成人动漫在线观看| 中文字幕视频一区| 自拍偷拍99| 中文字幕有码在线视频| 亚洲综合在线免费观看| 香蕉视频网站入口| 免费视频观看成人| 日韩成人av在线| 18禁裸乳无遮挡啪啪无码免费| 亚洲最新色图| 国产日韩精品在线观看| 国产三级三级在线观看| 国产成人精品三级| 国产69精品久久久久9999apgf | 国产在线精品一区在线观看麻豆| 91综合免费在线| 国产福利在线| ...xxx性欧美| 国产一区二区在线免费播放| 蜜桃一区二区三区| 欧美一级淫片丝袜脚交| 天天干天天操av| 26uuu国产电影一区二区| 800av在线免费观看| 精品久久久久久久久久岛国gif| 日韩精品一区二区三区四区| 成人免费精品动漫网站| 一区二区日韩免费看| 国产精品久久中文| 国产欧美日韩综合精品一区二区三区| 日本一区二区动态图| 日韩人妻一区二区三区蜜桃视频| 色呦呦在线资源| 日韩一区二区精品在线观看| 男人的天堂久久久| 国模一区二区三区白浆 | 亚洲老妇激情| 91欧美激情另类亚洲| 高清免费电影在线观看| 亚洲一区二区成人在线观看| 成人一对一视频| 国产第一精品| 深夜精品寂寞黄网站在线观看| 亚洲欧美小视频| 国产精品亚洲一区二区三区在线| 久久综合九色综合久99| av资源亚洲| 在线播放日韩欧美| 亚洲一区在线观| 白白色亚洲国产精品| 国产在线播放观看| 日韩在线麻豆| 欧美国产在线视频| 五月婷婷六月色| 亚洲卡通欧美制服中文| 欧美日韩一区二区在线免费观看| 嫩呦国产一区二区三区av | 爱福利在线视频| 精品视频一区三区九区| 你懂的在线观看网站| 久久成人国产| 国产精品一区二区三区四区五区| 午夜激情在线观看| 日韩欧美在线网址| 精品人妻一区二区免费视频| 伊人久久大香线| 国产美女99p| 91精品论坛| 久久天天躁狠狠躁夜夜爽蜜月| 高潮一区二区三区乱码| 亚洲欧美在线观看| 波多野吉衣在线视频| 午夜久久免费观看| 成人情视频高清免费观看电影| 玖玖在线播放| 精品国产乱码久久久久久闺蜜 | 蜜桃视频网站在线观看| 色哟哟精品一区| 欲求不满的岳中文字幕| 日本不卡的三区四区五区| 成年人深夜视频| av中文一区| 国产欧美日韩一区二区三区| 国产精品天堂蜜av在线播放| 午夜精品理论片| 日本高清中文字幕在线| 亚洲精品久久7777777| 国产对白videos麻豆高潮| 国产日产欧美精品一区二区三区| 又大又长粗又爽又黄少妇视频| 日日夜夜精品视频天天综合网| 欧美日韩国产精品一卡| 欧美第一在线视频| 国产精品热视频| 午夜激情电影在线播放| 日韩精品在线视频美女| 国产精品爽爽久久| 日韩欧美在线网址 | 色悠悠亚洲一区二区| 九九九久久久久| 国产69精品久久久久毛片| 天天碰免费视频| 国产精品嫩草99av在线| 91成人综合网| 欧美 日韩 国产一区二区在线视频| 欧美日韩亚洲综合一区二区三区激情在线| 视频精品二区| 国外成人性视频| 视频一区二区在线播放| 色www精品视频在线观看| 国产亚洲精久久久久久无码77777| 成人午夜av电影| 夫妻免费无码v看片| 国产毛片一区二区三区| 国产日韩欧美黄色| 电影天堂国产精品| 日韩有码在线播放| 亚洲精品国产精品国| 精品久久久视频| 久久久久99精品成人片毛片| 亚洲丝袜另类动漫二区| www.四虎精品| 国产伦精品一区二区三区免费迷| 男女视频在线看| 青青草91视频| 蜜臀av免费观看| 久久精品国产在热久久| 免费在线看黄色片| 欧美成人一区二免费视频软件| 91香蕉视频网址| 国内精品麻豆美女在线播放视频| 999视频在线免费观看| 成人福利片网站| www.亚洲一区| 超碰在线caoporen| 九九久久精品一区| 国产小视频在线播放| 国产偷亚洲偷欧美偷精品| 视频二区在线| 一二美女精品欧洲| 日本中文在线| 久久天天躁狠狠躁老女人| 色噜噜狠狠狠综合欧洲色8| 久久久久久国产免费| 国模精品视频| 国产www精品| 女同视频在线观看| 国产一区二区三区在线观看网站| 99精品久久久久久中文字幕 | 91高潮在线观看| 国产精品va在线观看视色| 欧美老女人性视频| www欧美xxxx| 日本精品性网站在线观看| 欧美黑人xx片| 97超级碰碰碰久久久| 日韩一区二区三区免费| 成人在线播放av| 另类尿喷潮videofree| 国产精品一区二区电影| 少妇视频一区| 国产精品久久久久久av| 日韩伦理在线一区| 日本欧美中文字幕| 四虎成人精品一区二区免费网站| 国产成人高清激情视频在线观看 | 国产欧美日本| 日本爱爱免费视频| 国产黄色精品网站| 欧美狂猛xxxxx乱大交3| 综合中文字幕亚洲| 黄色片视频网站| 亚洲激情第一区| 欧美性猛交bbbbb精品| 在线观看91av| 一二三四区视频| 精品精品欲导航| 午夜精品久久久久久久99老熟妇| 亚洲国产精品va在线| 亚洲第一大网站| 国产亚洲欧洲黄色| 欧洲精品二区| 国产美女久久精品| 欧美日韩一区二区三区四区不卡 | 污视频网站观看| 日本女人一区二区三区| av漫画在线观看| 国产精品污网站| 亚洲久久在线观看| 色综合天天做天天爱| 精品人妻一区二区三区三区四区 | 都市激情国产精品| 成人激情视频在线观看| 久久99国内| 国产a级片网站| 国产一二三精品| 成人在线手机视频| 欧美日韩在线第一页| 日本少妇毛茸茸高潮| 67194成人在线观看| 国产三级按摩推拿按摩| 夜夜嗨av一区二区三区四区| 日本在线啊啊| 成人精品一二区| 国产精品久久久久久麻豆一区软件| 欧美两根一起进3p做受视频| 成人sese在线| 国产特黄级aaaaa片免| 亚洲国产欧美一区二区三区丁香婷| 91久久久久久久久久久久| 亚洲色图美腿丝袜| 色多多在线观看| 黑人中文字幕一区二区三区| 国模吧视频一区| 九色91porny| 亚洲色图20p| 国产情侣av在线| 久久夜精品香蕉| 国产高清亚洲| 精品麻豆av| 亚洲精品偷拍| yy1111111| 精品电影在线观看| 天天操天天插天天射| 国内久久久精品| 老司机精品在线| 69堂免费视频| www久久精品| 成人免费毛片男人用品| 91精品国产品国语在线不卡| 蜜桃av噜噜一区二区三区麻豆| 欧美裸体男粗大视频在线观看| 精品国产乱码一区二区三区| 天天综合五月天| 中文在线不卡| 香蕉视频黄色在线观看| 欧美性猛交xxxx乱大交极品| 四虎在线免费看| 国产精品久久久久9999| 日韩精品水蜜桃| 久久综合桃花网| 亚洲成人自拍网| 欧美偷拍视频| 久久69精品久久久久久国产越南| 亚洲精品在线播放| 亚洲成人第一| 一区二区动漫| xxxx日本黄色| 黑人与娇小精品av专区| 青青草免费在线| 国产裸体写真av一区二区| 久久久久久久久久久久久久久久久久 | 麻豆一区二区三区| 美女福利视频在线观看| 欧美在线一区二区三区| 日本中文字幕伦在线观看| 91免费看网站| 欧美亚洲一级| 久久嫩草捆绑紧缚| 欧美性猛交xxx| 男人的天堂在线视频免费观看| 99re在线播放| 老牛嫩草一区二区三区日本 | 亚洲 小说区 图片区| 免费av一区二区| 国精品产品一区| 超碰人人爱人人| 久99久精品视频免费观看| 亚洲色成人网站www永久四虎| 亚洲二区视频在线| 九色网友自拍视频手机在线| 成人免费淫片视频软件| 亚洲激情二区| 国产又黄又粗又猛又爽的| 色婷婷亚洲一区二区三区| 日本中文字幕伦在线观看| 国产精品三区www17con| 麻豆精品一二三| 日本熟妇乱子伦xxxx| 久久精品视频va| 国产成人久久精品一区二区三区|