精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

實測o3/o4-mini:3分鐘解決歐拉問題,OpenAI最強模型名副其實!

人工智能
使用基于結果的強化學習可能會導致模型盲目猜測,并且某些行為(如模擬代碼工具)可能會在某些任務上提高準確性,但在其他任務上造成混淆。

號稱“OpenAI迄今為止最強模型”,o3/o4-mini真實能力究竟如何?

就在發布后的幾小時內,網友們的第一波實測已新鮮出爐。

最強推理模型o3,即使遇上首位全職提示詞工程師Riley Goodside的“刻意刁難”,也順利過關:

圖片圖片

可以看到,面對藏在一堆玩具里的手繪圖表,它也能通過圖像識別和推理能力正確解答。

圖片圖片

而o4-mini作為一款專為快速、經濟高效的推理而優化的小模型,在數學能力方面堪稱強悍——

用時2分55秒,解決了最新的歐拉問題,并且該網友強調:

至今只有15個人能夠在30分鐘內解決它。

圖片圖片

與此同時,OpenAI內部技術人員也表示,o3的出現讓他第一次萌生了將模型稱為通用人工智能(AGI)的念頭。

圖片圖片

眼見氣氛都烘托到這兒了,那我們還不得趕緊看看更多實測效果(doge)。

網友實測o3/o4-mini

首次帶圖深度思考

首先,官方提到,o3和o4-mini是OpenAI首次能將上傳圖像集成到思維鏈中的模型——

這意味著,它們可以基于圖像展開思考。

比如有人隨手上傳一張照片,讓o3來判斷拍攝時間和地點,而且要求能具體到地圖上的某一個點。

結果令這位小哥驚訝的是,其答案和實際情況之間的誤差非常?。?/p>

地點僅相差1000英尺(約305米),時間僅相差2分鐘。

圖片圖片

更有意思的是,假如一張圖上的小字看不清,通過扒思維鏈還能發現——o3甚至會自己“偷偷放大”。

圖片圖片

難怪在針對復雜多模態謎題的EnigmaEva測試基準中,o3能拿下SOTA。

圖片圖片

不過值得注意的是,據自稱OpenAI員工的網友爆料,雖然基準測試結果存在差異,但o4-mini實際上是比o3更好的視覺模型。

該網友甚至直接建議大家:

在任何涉及視覺的任務中使用o4-mini-high而不是o3。

圖片圖片

巧合的是,在大多需要計算復雜數學題的帶圖測試中,大家竟默契選擇了o4-mini而非o3。

除了一開頭提到的解答歐拉問題的例子,o4-mini也被用來解讀技術圖紙。

該網友表示,對于這種大多AI都很難搞定的難題,它一次就成功了:

o4 mini(high)能夠分析該部件的尺寸并準確計算出正確體積。

圖片圖片

編程能力

其次,兩個新模型這次在編程能力上都有一定程度升級,測試結果表明:

其中o3 High取代谷歌Gemini-2.5,拿下編程第一。

圖片圖片

順帶OpenAI這次還開源了一個本地代碼智能體Codex CLI——

它是一種聊天驅動的開發方式 ,能夠理解并執行本地代碼庫,兼容所有OpenAI模型,包括剛剛發布的o3、o4-mini和GPT-4.1。

賓大沃頓商學院教授Ethan Mollick,這次直接利用o3的推理+編程能力制作了一個小短片:

圖片圖片

從完整制作過程來看,這里還同步考察了o3調用各項工具的能力。

  • 第一步:理解需求;
  • 第二步:使用編程庫生成幀,并將這些幀組合成一個視頻文件;
  • 第三步:使用Python的PIL庫(Pillow)來處理圖像,使用imageio庫來創建視頻文件;
  • 第四步:生成幀;
  • ……

圖片圖片

最后我們也簡單實測了一把,重點考察一下o3和o4-mini的推理能力。

比如讓它們分別幫忙看看“手相”,o3的結果如下:

圖片圖片

o4-mini:

圖片圖片

可以看到,兩個模型對人物性格特征的判斷大致相似,不過o3還額外給了一些提示建議。

p.s. 原圖為AI生成,大家感興趣可以自己試試~

One More Thing

有趣的是,有網友在實測o3的過程中還發現了一個現象:

o系列模型比GPT系列模型更容易錯誤地聲稱使用了代碼工具

圖片圖片

為此他們還專門寫了一篇博客,其中揭露了:o3經常編造其為滿足用戶請求而采取的行動,并在用戶質疑時詳細地為這些編造進行辯解。

圖片圖片

就像下面這樣,模型聲稱它在筆記本電腦上運行了實際并不存在的代碼。

圖片圖片

而且通過進一步研究發現,這些偽造行為包括下面這些:

1、錯誤地聲稱執行代碼,聲稱“我本地運行了這個”或“運行它產生了”后面跟著特定輸出,而模型沒有能力執行Python或其他編程語言;

2、編造詳細的計算結果,包括特定的數值、統計數據和加密哈希值,表現為它們是實際執行輸出而不是估計或示例;

3、……

圖片圖片

同時,他們也初步提出了造成這一現象的可能原因:

首先就是模型幻覺和獎勵黑客攻擊,他們表示這些問題在o系列模型中尤為普遍。

另外,使用基于結果的強化學習可能會導致模型盲目猜測,并且某些行為(如模擬代碼工具)可能會在某些任務上提高準確性,但在其他任務上造成混淆。

最后就是,o系列模型在處理連續對話時有一個限制,它們無法訪問之前的推理過程,這可能導致模型在回答問題時出現不準確或不一致的情況。

圖片圖片

順便一提,即日起,ChatGPT的Plus、Pro會員以及Team用戶,都能直接體驗o3、o4-mini和o4-mini-high,而原本的o1、o3-mini和o3-mini-high則已悄然下架。

你怎么看OpenAI這次發布的o3和o4-mini?

博客:https://transluce.org/investigating-o3-truthfulness

參考鏈接:

[1]https://x.com/goodside/status/1912604138518851990

[2]https://x.com/johnohallman/status/1912608446274498747

[3]https://x.com/bio_bootloader/status/1912566454823870801

[4]https://x.com/TransluceAI/status/1912552046269771985


責任編輯:武曉燕 來源: 量子位
相關推薦

2025-04-23 08:30:05

2025-04-21 16:25:58

OpenAI測試模型

2024-12-24 16:15:04

2025-04-07 07:18:48

2025-04-17 06:10:57

2025-04-17 08:59:59

2025-05-13 08:24:14

2025-04-21 08:22:25

2025-04-17 07:23:10

2025-04-17 14:09:52

OpenAI模型編程

2025-05-28 00:00:00

2025-04-17 06:36:29

2025-08-06 07:42:26

2025-02-08 17:00:11

2025-04-25 10:26:19

2025-05-15 08:52:00

2025-06-13 08:11:11

2025-09-30 09:10:09

Mini-o3OpenAI o3模型

2025-05-14 10:09:12

2025-02-07 09:05:36

點贊
收藏

51CTO技術棧公眾號

久久国内精品| 成人在线视频成人| 欧美日本三区| 精品sm捆绑视频| 日本国产中文字幕| 五月婷婷丁香花| 首页国产欧美久久| 精品国内自产拍在线观看| 91蝌蚪视频在线| 国产经典三级在线| 久久精品综合网| 国产日韩精品一区二区| 免费中文字幕在线| 色吊丝一区二区| 欧美性大战久久久久久久蜜臀| 四虎一区二区| 99久久亚洲精品日本无码| 亚洲天堂黄色| 一区二区三区日韩在线| 中文字幕avav| 三级在线看中文字幕完整版| 国产精品毛片a∨一区二区三区| 亚洲最大成人网色| 青青视频在线免费观看| 国产精品精品国产一区二区| 亚洲国产精品女人久久久| 九热视频在线观看| 天堂av在线电影| 久久精品在这里| 99国精产品一二二线| 黄色av网站免费观看| 伊人情人综合网| 亚洲欧美一区二区激情| 免费看的av网站| 国产v综合v| 亚洲一级片在线观看| 天天爽天天狠久久久| 免费a级片在线观看| 免费在线看一区| 91黑丝高跟在线| 老司机成人免费视频| 免费看av成人| 日韩欧美国产麻豆| 中文字幕第88页| 成人免费网站视频| 亚洲一本大道在线| 中文字幕在线亚洲三区| 欧洲毛片在线| 99久久伊人网影院| 亚洲www在线| 成人av网站在线播放| 精品成人一区| 久久国产精品电影| 99热在线观看精品| 成人综合专区| 亚洲欧洲日产国产网站| 久久久国产精品无码| 亚洲一级大片| 欧美一卡2卡3卡4卡| 一区二区三区 欧美| 天天综合网站| 色哟哟国产精品| 免费看一级大黄情大片| 国模雨婷捆绑高清在线| 一区二区三区丝袜| 2021狠狠干| 麻豆av在线免费看| 亚洲欧洲精品天堂一级| 亚洲精品tv久久久久久久久| 可以免费看污视频的网站在线| 97成人超碰视| 国内精品视频在线播放| 亚洲精品无码久久久| 国产福利一区二区三区| 91亚色免费| 99久久精品国产一区色| 国产黄色91视频| 91久久爱成人| 亚洲欧美另类综合| 99国产精品久| 久久精品中文字幕一区二区三区 | 国产日韩影视精品| 欧美在线日韩精品| 在线免费观看黄色网址| 亚洲国产精品二十页| 亚洲欧洲精品一区二区| 黄av在线播放| 亚洲激情第一区| 青草视频在线观看视频| av手机在线观看| 狠狠色狠狠色综合日日五| 成人一级片网站| 成人自拍视频网| 欧美巨大另类极品videosbest | a资源在线观看| 不卡中文一二三区| 久久夜色精品国产亚洲aⅴ| 欧美日韩国产精品综合 | 国产呦萝稀缺另类资源| 97视频热人人精品| 日韩电影免费| 国产精品福利影院| 蜜臀精品一区二区| 三上悠亚激情av一区二区三区 | 国产又大又黑又粗| 成人三级在线视频| 欧美一级爽aaaaa大片| 麻豆视频在线观看免费网站| 亚洲午夜视频在线观看| 欧美私人情侣网站| 欧美另类中文字幕| 日韩国产激情在线| 亚洲一级二级片| 在线欧美一区| 国产免费一区二区三区在线观看 | 日本伊人色综合网| 97久久人人超碰caoprom欧美| 污视频在线免费观看| 国产精品三级av在线播放| 日韩免费在线观看av| 久久精品女人天堂av免费观看| 3d动漫精品啪啪一区二区竹菊 | 亚洲欧美在线人成swag| 亚洲国产欧美久久| 成人18视频免费69| 香蕉久久久久久久av网站| 成人av在线网址| 五月激情婷婷综合| 有坂深雪av一区二区精品| 免费日韩中文字幕| 黑色丝袜福利片av久久| 久久夜色精品国产欧美乱| 欧美brazzers| 成人国产精品视频| 在线观看三级网站| 欧美三区四区| 亚洲精品电影网在线观看| 成年人一级黄色片| 毛片av一区二区三区| 久久久久欧美| 69av成人| 精品久久久久久无| 99鲁鲁精品一区二区三区| 日韩精品电影一区亚洲| 久久久久九九九| 欧美色图天堂| 欧美一区二区日韩| 九九热久久免费视频| 免费日韩av片| 国内不卡一区二区三区| 毛片在线网址| 欧美一区二区视频在线观看2022 | 91视频欧美| 日韩免费看网站| 婷婷激情四射网| 麻豆精品视频在线| 亚洲日本一区二区三区在线不卡| 欧美性猛交xxx高清大费中文| 欧美精品一区二区高清在线观看| 久久免费看少妇高潮v片特黄| 久久av老司机精品网站导航| 欧美一级爽aaaaa大片| 中文字幕乱码中文乱码51精品 | 日韩欧美电影在线观看| 欧美日韩国产精品| 黄色a一级视频| 国产午夜精品一区二区三区欧美| 国产一区精品在线| 国产在线精彩视频| 精品五月天久久| 精品欧美一区二区三区免费观看| 成人高清伦理免费影院在线观看| 久久99久久久久久| 伦理一区二区| 69**夜色精品国产69乱| 亚洲欧美日本在线观看| 欧美日韩综合视频| 久久丫精品忘忧草西安产品| 免费在线欧美视频| 异国色恋浪漫潭| 国产免费av国片精品草莓男男| 欧美成人免费大片| 成人午夜视频一区二区播放| 亚洲综合另类小说| 美女又爽又黄视频毛茸茸| 模特精品在线| 亚洲a∨一区二区三区| 久久99国产精品二区高清软件| 日韩小视频在线| www.xxxx国产| 婷婷六月综合亚洲| 国产伦理片在线观看| 麻豆精品一区二区| 欧美一级爱爱视频| 亚洲国产精品嫩草影院久久av| 国产97在线|亚洲| 日本最新在线视频| 欧美v国产在线一区二区三区| jizz国产免费| 久久久久久9999| 99九九99九九九99九他书对| 国产字幕视频一区二区| 久久影视中文粉嫩av| 国产精品4hu.www| 欧美激情国产精品| 九色在线观看| 欧美一区二区三区播放老司机| 国产成人无码精品久久久久| 国产精品欧美一区喷水| 伦理片一区二区| 蜜桃视频一区二区三区 | 精品1卡二卡三卡四卡老狼| 美女精品在线观看| 免费cad大片在线观看| 亚洲小说图片视频| 91在线视频一区| 爱情电影社保片一区| 精品久久久91| 久久久久久久久亚洲精品| 欧美一级专区免费大片| 中文字幕精品视频在线观看| 亚洲欧美乱综合| 国产真实乱人偷精品人妻| 国产成人午夜片在线观看高清观看| 欧美性大战久久久久xxx| 亚洲色欲色欲www在线观看| 久久无码高潮喷水| 女人香蕉久久**毛片精品| 日韩.欧美.亚洲| 伊人久久影院| 国产美女扒开尿口久久久| 麻豆网站免费在线观看| 欧美成人免费观看| www 日韩| 亚洲国产精品一区二区久| 国产精品国产精品国产专区| 色国产精品一区在线观看| 国产亚洲第一页| 亚洲三级在线免费| 西西444www无码大胆| 成人黄页在线观看| 亚洲图片 自拍偷拍| 蜜桃视频在线观看一区二区| 男人操女人免费| 精品动漫3d一区二区三区免费| 欧美爱爱视频网站| 成人在线电影在线观看视频| 欧美日韩免费高清| 久久精品福利| 97超碰人人模人人爽人人看| 亚洲精品第一| 国产91精品在线播放| 欧美伦理91| 麻豆乱码国产一区二区三区| 午夜免费播放观看在线视频| 亚洲社区在线观看| 你懂得网站在线| 日韩精品中文字幕有码专区 | 先锋资源久久| 亚洲精品第一区二区三区| 国产精品一区2区3区| 久久涩涩网站| 奇米影视777在线欧美电影观看| 97碰碰视频| 6080成人| 国产精品中出一区二区三区| 国产精品毛片久久久| 国产精品视频免费一区二区三区| 综合成人在线| 粉嫩av免费一区二区三区| 亚洲精品不卡在线观看| 国产精品一国产精品最新章节| 88久久精品| 国产精品午夜av在线| 卡通动漫国产精品| 国产伦精品一区二区三毛| 久久久久影视| 欧美日韩在线播放一区二区| 成人一区二区| 佐佐木明希av| 很黄很黄激情成人| 免费黄色日本网站| 日本成人在线一区| 红桃视频一区二区三区免费| 国产成人在线免费| 亚洲精品视频大全| 国产精品久线在线观看| www.5588.com毛片| 亚洲夂夂婷婷色拍ww47| 在线观看免费av片| 欧美日韩五月天| 国产jzjzjz丝袜老师水多 | 天堂网在线观看视频| 日韩精品欧美国产精品忘忧草 | 欧美日本乱大交xxxxx| 国产普通话bbwbbwbbw| 亚洲福利在线播放| 福利在线午夜| 欧美另类老女人| 日本а中文在线天堂| 国产精品老牛影院在线观看| 精品国产亚洲一区二区在线观看| 国产视频精品网| 欧美军人男男激情gay| 欧美日韩视频免费在线观看| 亚洲三级国产| 国产超碰在线播放| 丰满白嫩尤物一区二区| 四虎国产精品成人免费入口| 亚洲欧美日韩系列| 黄色大片网站在线观看| 在线不卡的av| 午夜在线观看视频18| 日韩中文字幕免费| 九九色在线视频| 国产日韩在线免费| 欧美亚洲tv| 艳母动漫在线观看| 久久精品一区二区国产| 制服下的诱惑暮生| 国产欧美va欧美不卡在线| 久久一二三四区| 欧美日韩激情一区二区三区| 人妻丰满熟妇av无码区hd| 中文欧美日本在线资源| 国产激情在线播放| 91免费看网站| 久久精品国产99久久| 欧美三级一级片| 国产aⅴ综合色| 黑人狂躁日本娇小| 色网站国产精品| 免费国产精品视频| 欧美久久精品午夜青青大伊人| 欧美日韩国产v| 国产日韩一区二区三区| 女人色偷偷aa久久天堂| 亚洲另类第一页| 久久久蜜桃精品| 日本三级欧美三级| 日韩一卡二卡三卡| 日本三级视频在线播放| 日本不卡免费高清视频| 欧美人体视频| 精品国产av无码一区二区三区| 极品少妇一区二区三区精品视频 | 国产精品视频一区二区三区综合| 欧美福利一区二区三区| 日韩天堂av| 香蕉视频免费网站| 亚洲另类中文字| 国产又粗又猛又黄| 中文字幕av一区二区| 精品免费av在线| 美国av一区二区三区| 亚洲人成在线影院| 久久福利小视频| 性做久久久久久免费观看欧美| 成人av免费播放| 欧美高清视频一区二区| 亚洲无线观看| 轻点好疼好大好爽视频| 国产成人免费视频一区| 久久久久久免费观看| 精品国内片67194| 黄网站在线观| 懂色一区二区三区av片| 亚洲美女黄色| 亚洲欧美色图视频| 一本一道久久a久久精品综合蜜臀 一本一道综合狠狠老 | 一二三区免费视频| 亚洲男人天堂2023| 电影亚洲精品噜噜在线观看 | 欧美gay男男猛男无套| 亚洲天堂国产视频| 亚洲九九爱视频| 亚洲欧美激情在线观看| 国内久久久精品| 日韩最新在线| 欧美自拍小视频| 国产精品福利一区二区| 精品国产伦一区二区三| 国内精品小视频在线观看| 日本中文字幕在线一区| 成人精品视频一区二区| 国产精品天美传媒| 国产成人精品白浆久久69| 欧美激情中文网| 久久99国产成人小视频| 亚洲这里只有精品| 一区二区在线免费| 少妇喷水在线观看| 国产精品视频公开费视频| 91九色精品| 日本一卡二卡在线| 91精品福利视频| 国内外激情在线| 国严精品久久久久久亚洲影视| 石原莉奈在线亚洲三区| 欧美性生交大片|