精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

o3全網震撼實測:AGI真來了?最強氛圍編程秒殺人類,卻被曝捏造事實

人工智能 新聞
OpenAI新模型全網實測驚艷來襲!o3縮放圖像被玩瘋,o4-mini速解Project Euler,碾壓人類。AI初創CEO說,OpenAI憑此一役已經重回榜首,甚至有經濟學家直言AGI已經來臨!

昨夜o3的發布,讓人不盡感慨:打了這么久嘴炮的OpenAI,這回終于實實在在拿出了點真東西。

史上首次,模型能夠用圖像思考,視覺推理達到巔峰。

許多網友實測后,大感驚艷。

o3能不斷縮放圖像,完成解題、識圖,編程任務實測驚人。

還有一大特點,就是速度快!只用2分55秒,它就解決了一道Project Euler問題,速度秒殺任何人類。

甚至可以認為,o3是一個快速版的Deep Search,但不需要20分鐘,只需要2分鐘。

AI初創CEO Dan Shipper表示,o3意味著一件大事——OpenAI已經重回榜首!

圖片

經濟學家Tyler Cowen甚至直接發文,深感就在今天,AGI已經降臨!

圖片

縮放圖像,被網友玩瘋

給出一張圖,o3就可以反復縮放和裁剪圖像,多小的圖,經過這一番操作后都能馬上被識別出來。

圖片

比如琴架上曲譜里是什么歌,它通過放大圖片就能發現:這是「月亮河」。

圖片

發給o3一張嬰兒車的照片,詢問品牌和型號后,它會自動放大靠背上的小標志,經過14次搜索后,找到了正確答案。

圖片

還有人給o3發了一張圖片,問它這輛車是哪個品牌和型號。

圖片

o3一番絲滑操作,多次裁剪圖片,不停用Python寫代碼,然后開始在網上狂搜,僅僅4分鐘后,它就找到了正確答案,堪稱驚人!

圖片

圖片

圖片

圖片

無論是確認飯店名字,還是做出一堆玩具中紙上的謎題,它都游刃有余。

圖片

圖片

有人讓4o來分析y軸上的數字,確認它們是否符合大海撈針測試中的S型分布。

圖片

果然,它不僅做到了,甚至還根據這些數字做出了一張圖表。

圖片

圖片

圖片

綜合解題能力

o3的綜合解題能力,讓人倍感驚艷。

Layers Itd的聯創兼開發主管稱,o3實在令他印象太深刻了,因為下圖中這個問題,第一次被一個模型一次性解決了!

圖片

而o4-mini-high則是和其他模型一樣,在幾次嘗試后才成功解決。

問題看似很簡單:紅色柱子有多高?

這道題的精髓,無非就是算出物體實際高度和投在地上影子的比例,另外要注意紅柱子落在豎直墻上的影長,跟對應部分的實際高度一致。

圖片

如此簡單的問題,卻讓很多大模型第一次都折戟了,只有o3順利做出。

圖片

而生物醫學教授Derya Unutamz表示,自己被全新的o3模型徹底震撼了!

圖片

因為已經提前獲得了訪問權限,他已經好幾天對o3愛不釋手。

在他看來,o3就像o1-preview和o1-pro的里程碑,但在各個方面都更聰明、更可靠,甚至可以說,o3的智能水平已經達到或接近天才級別。

它從不產生幻覺,智能體風格工具能輕松處理多步驟任務,還具備非凡的推理能力和精確性,能生成極具洞察力的科學假設。

圖片

當Unutamz教授向o3提出極有挑戰性的臨床或醫學問題時,它的回答仿佛來自頂級的專科醫生,精確、全面、基于證據、充滿智慧。

他表示,o3的誕生,對于科學、醫學及很多領域,都是一個徹底的顛覆者。

圖片

而最喜歡給新模型測試「水獺難題」的沃頓商學院教授Ethan Mollick,則直接讓o3制作了一部關于水獺和飛機的電影。

接到這個指令后,o3雖然沒有電影功能,立即自行決定繪制每一幀,然后拼接成gif。這個任務,它一次性順利完成。

圖片

AGI已經降臨?

OpenAI的工程師、普林斯頓校友John Hallman,在o3完成訓練后提早有了試用新模型的機會,他難掩內心沖動:

o3就是AGI。

雖然還不完美,但在99%的智力評估中,o3模型能擊敗我、你乃至99%的人類。

圖片

經濟學家Tyler Cowen,直接發文宣揚:昨天OpenAI發布o3之日,就是AGI降臨之日。

圖片

他堅信o3就是AGI,但釋放AGI潛力,尚需時日:

我認為這是AGI,真的。

試著問它多個問題,然后問問自己:我原本期望AGI有多聰明?

正如我過去所爭論的,無論你如何定義AGI,它本身并不是社會事件。我們仍然需要很長時間才能正確地使用它。但股市不為所動,因為AI快速發展的事實早已被市場消化。

初創媒體聯合創始人/首席執行官Dan Shipper,稱ChatGPT是「帶WiFi的梭羅」,對本次o3的發布更是贊不絕口!

他玩了o3大約一星期,已經是他最喜歡的模型了。

它速度快,有主動性,極其聰明,而且氛圍感很強。

圖片

Dan Shipper表示,可以把o3看作是Deep Search-lite。

它仿佛可以對所有事物進行深度研究,但并不需要花20分鐘,而是只要30秒到5分鐘。

圖片

而Dan Shipper最喜歡的o3用例之一,是制作迷你課程。它可以設計一門課,每天用「提醒」工具給你上一堂新課。

圖片

最令人驚訝的體驗

在o3正式發布之前,Dan Shipper已提前測評了好幾天。

他給予了o3最高的評價:

在短短一周內,它已經成為我處理大多數任務時的首選模型。

我仍然用GPT 4.5來寫作,用3.7 Sonnet來編程Windurf,但除此之外,我幾乎無時無刻不在使用o3。

圖片

這里是o3的簡要總結:

  • 它具備自主能力:你只需給它一個任務,30秒或3分鐘后回來,它就能給出詳細的回答。它可以利用搜索、代碼解釋器、提醒和記憶等工具,編寫復雜的功能等等。
  • 它很快,非常流暢:速度是智能的一部分。在測試中,o3在這一維度上始終比Anthropic和Google的前沿推理模型(分別是Claude 3.7 Sonnet和Gemini 2.5 Pro)要快。使用起來非常順暢。
  • 它非常聰明:雖然現在沒有基準數據,但給它喂了一些專家級的數獨題目,它第一次就解出來了。Gemini 2.5 Pro和3.7 Sonnet都沒能解決。
  • 它突破了ChatGPT的一些舊局限:因為它具備自主代理能力,舊規則不再適用。它讓ChatGPT變得更加實用。
  • 在社交上,它不那么尷尬,也不像3.7 Sonnet那樣過于刻意:o3會專注于解決問題。似乎比其他o系列模型更有「人情味」,與它交流更有趣;盡管它的寫作能力不如GPT 4.5(安息)或Sonnet 3.5,但仍然非常不錯。

對OpenAI而言,這是一個極具價值的戰略定位,將進一步鞏固其作為AI時代首選聊天平臺的領先地位。

o3的發布,也印證了企業動蕩的歷史經驗。

在Sam Altman被解雇后的一年里,OpenAI新產品發布緩慢,分析師們甚至預言其將走向衰落。

而隨著o3的推出,以及此前GPT-4.5的發布和深厚的研究積累,OpenAI正以勢不可擋的姿態強勢回歸。

勝過人類的表現

前DeepMind工程師Scott Swingle稱,o4-mini-high只用了2分55秒就解決了一道最新的Project Euler問題。

這道題并不簡單,只有15個人能在30分鐘內解決它。

而且這還是一道幾天前才出來的新題,不可能出現在o4的訓練集中,這表明o4-mini-high依靠「思考」解決了它。

圖片

o4-mini-high通過歸納法計算數學表達式,它先定義一個公式并用快速冪運算提取特定系數。接著通過累加和模運算逐步計算出結果,并用Python代碼驗證了答案。

解題速度比之前人類的最好成績快了一倍。

圖片

圖片

不過,這還不是它的極限,網友Dan Loewenherz用它又解了一遍這道題,結果這次更夸張,只用了不到一分鐘就搞定。

圖片

隨著o4-mini不斷的更新升級,它解答類似問題的速度也會越來越快,與人類選手對比速度快慢也就沒太大意義了。

換句話說,至少在編程數學領域,o4-mini-high可能已經達到了AGI。

圖片

圖片

網友Flavio Adamo更是認為稱o3和o4-mini-high為最佳「氛圍」編程模型。

圖片

Adamo最先在網上發起了針對模型的旋轉多邊形和小球挑戰。

這一挑戰既能考察模型的編程能力,也能檢驗模型對物理法則的了解,迅速成為測試新模型的基準測試。

o3和o4-mini-high在這一挑戰上的表現完美,甚至不相上下。

無論是多邊形的旋轉還是小球的運動,都與現實接近。

圖片

它們的表現已經超越了被認為是現在最強的模型Gemini 2.5 Pro與DeepSeek R1。

圖片

o3正在絕對主導SEAL排行榜,排名第一的項目有:人類終極測試(Humanity's Last Exam、多挑戰(MutiChallenge)、掩碼(Mask)以及ENIGMA(謎題解答)。

圖片

有人質疑:o3并沒有那么厲害

不過,雖然外界多把o3和o4-mini-high吹上了天,甚至有人喊出這兩個模型已經「解決了」數學問題。

但OpenAI的自家研究員Noam Brown卻表現得比較謙虛,他說o3和o4-mini在撰寫證明方面仍然表現不佳。

與獲得國際數學奧賽金牌的水平「相去甚遠」。

圖片

更有人實測后,發現o3還是不知道「strawberry」里到底有幾個字母「r」。

圖片

Gary Marcus一貫不看好目前的AI范式,直接預測:o3只是風光一時,在現實的日常推理中,o3的可靠性不如數學等封閉領域。

圖片

Transluce研究實驗室測試了o3的預發布版本,也發現了它的重大缺陷——經常捏造事實!

圖片

它不僅經常捏造從未采取過的行動,甚至還在被質疑時會精心辯解。

圖片

它經常捏造從未采取過的行動,然后在被質疑時精心為這些行動辯解。

甚至在打假過程中,他們發現o1和o3-mini也會經常進行虛假陳述。

圖片盡管o3沒有訪問編碼工具,但它卻聲稱在自己的筆記本電腦上運行了代碼,然后將數字復制到了答案中。這種說法,出現在了71份記錄中!

甚至,它還會為自己聲稱運行的代碼編造詳細的理由,在352個實例可以證明這一點。

圖片

用戶要求o3提供一個隨機素數的示例記錄

當被質疑時,o3嘴硬辯稱,自己有壓倒性的統計證據,證明這個數是素數。

圖片

它拒不承認自己從未運行過代碼,而是聲稱錯誤是源于輸入數字不正確。

圖片

總之,o3似乎很習慣滿嘴跑火車。

而且Transluce發現,這種行為并不局限于o3。總體來說,o系列模型的幻覺頻率要高于GPT系列模型。

圖片

Transluce的研究者猜測,或許是基于結果的RL最大化產生正確答案的機會,會激勵模型去盲目猜測。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-05-14 10:09:12

2024-08-07 12:29:04

2025-04-18 11:18:51

2025-05-17 08:55:41

2024-12-23 07:40:00

AI模型數學

2025-05-29 09:07:37

2024-07-29 09:47:00

2025-05-26 03:11:00

2024-12-24 12:19:45

2025-02-24 08:36:00

2025-05-22 02:20:00

2025-04-21 08:35:00

OpenAI智能體編程

2025-04-21 08:22:25

2025-06-11 08:56:54

2024-12-24 14:30:00

模型AI訓練

2025-01-16 14:35:34

2024-12-23 09:45:00

數據模型訓練

2024-12-26 11:42:56

ARC-AGI大模型人工智能

2025-03-25 13:07:36

2024-12-23 07:10:00

o3-miniARC-AGI人工智能
點贊
收藏

51CTO技術棧公眾號

99视频免费播放| 一本色道久久88综合日韩精品| 婷婷精品国产一区二区三区日韩| 中文字幕免费观看| 日本成人小视频| 欧美在线观看你懂的| 国产精品美女久久久久久久久久久 | 国产一卡二卡三卡| 日韩在线观看电影完整版高清免费悬疑悬疑| 欧美午夜理伦三级在线观看| 亚洲一区二区高清视频| 国产农村老头老太视频| 在线播放不卡| 亚洲网址你懂得| 国产成年人视频网站| 免费不卡av| 久久久91精品国产一区二区精品| 91九色单男在线观看| 豆国产97在线 | 亚洲| 久久av电影| 欧美成人一区二区三区片免费 | 黄色av免费观看| 天堂成人免费av电影一区| 日韩专区中文字幕| 成人性生活免费看| 四虎影视成人精品国库在线观看| 一区二区三区四区五区视频在线观看| 鲁鲁狠狠狠7777一区二区| 久久永久免费视频| 欧美视频一区| 在线日韩av观看| 99riav国产精品视频| 韩国主播福利视频一区二区三区| 欧美国产欧美综合| 国产精品久久久久久久久久直播| 国产男人搡女人免费视频| 你懂的国产精品永久在线| 亚洲人高潮女人毛茸茸| 亚洲av无码久久精品色欲| 希岛爱理一区二区三区av高清| 亚洲精品成人悠悠色影视| 欧美 日韩 国产在线| 亚洲av无码一区二区三区性色| 视频一区二区不卡| 午夜精品美女自拍福到在线| 91日韩中文字幕| 欧美手机视频| 亚洲免费精彩视频| a级一a一级在线观看| 国产精品视频一区二区三区综合| 欧美中文字幕一区二区三区亚洲| 精品视频在线观看一区| caopon在线免费视频| 亚洲国产精品99久久久久久久久| 好吊妞www.84com只有这里才有精品| 国产精品探花视频| 久久99久久99小草精品免视看| 欧美最猛性xxxx| 日韩字幕在线观看| 亚洲国产免费看| 欧美高清视频免费观看| 手机在线免费看毛片| 99久久婷婷| 日韩在线视频播放| 四季av中文字幕| 人人网欧美视频| 日韩成人在线电影网| 亚洲麻豆一区二区三区| 99国产精品免费网站| 欧美日韩国产精品成人| 五月婷婷激情久久| 欧美高清你懂的| 欧美日韩精品一区二区天天拍小说| 免费观看成人网| xxxxx.日韩| 欧美日韩国产片| 婷婷六月天在线| 欧美韩国日本| 日韩美女一区二区三区| 91丨porny丨九色| 深夜福利一区| 精品国产亚洲在线| 成人欧美精品一区二区| 成人永久在线| 日韩美女视频在线| 五月天丁香社区| 日本午夜精品久久久| 亚洲欧美资源在线| 欧美人妻一区二区三区| 久久人体视频| 欧美成人性色生活仑片| 久热精品在线观看| 亚洲视频大全| 国产精品久久久久秋霞鲁丝| 91麻豆国产视频| 国产精品系列在线播放| 国产偷久久久精品专区| 国产区在线视频| 最新高清无码专区| av在线播放天堂| 深夜成人影院| 欧美色手机在线观看| 日本一二三区在线| 一区二区三区视频播放| 精品视频久久久| 人人妻人人澡人人爽| 国产精品99视频| 欧美巨大黑人极品精男| 久久久精品福利| 久久精品国语| 国产欧美一区二区三区在线看| 不卡av中文字幕| 久久久www免费人成精品| 亚洲三区四区| tube8在线hd| 色偷偷久久人人79超碰人人澡| 亚洲xxx在线观看| 国产精品色呦| 神马国产精品影院av| 久久精品这里有| 美女视频网站久久| 不卡一区二区三区四区五区| 久久精品蜜桃| 亚洲综合视频在线| 超碰在线97免费| 国内视频在线精品| 亚洲日韩中文字幕| 久久精品这里只有精品| 久热re这里精品视频在线6| 91精品国产一区二区三区动漫 | 日韩欧美国产综合| 91激情视频在线观看| 亚洲婷婷在线| 国产精品久久久久久久久久新婚 | 69p69国产精品| 国产男女猛烈无遮挡a片漫画 | 精品国产第一区二区三区观看体验| 亚洲午夜福利在线观看| 国产一区观看| 成人淫片在线看| 日本免费在线视频| 欧美日韩一区 二区 三区 久久精品| 亚洲自拍偷拍一区二区| 午夜在线精品| 欧美精品一区二区三区在线四季| 人狥杂交一区欧美二区| 亚洲精品动漫100p| 伊人国产在线观看| 成人一区二区三区在线观看| 性一交一乱一伧国产女士spa| 99精品美女视频在线观看热舞| 日韩有码在线观看| 91av久久久| 亚洲欧美国产毛片在线| 手机精品视频在线| 欧美福利网址| 国产精品jizz视频| 2018av在线| 亚洲精品在线视频| 一级片免费在线播放| 国产性色一区二区| 国产精品自在自线| 欧美日本中文| 精品久久久久久综合日本| 周于希免费高清在线观看| 亚洲免费视频观看| 亚洲一区中文字幕在线| 专区另类欧美日韩| 奇米777第四色| 久久亚洲综合| 中文字幕日韩一区二区三区不卡| vam成人资源在线观看| 九九热这里只有精品免费看| 日日夜夜精品免费| 色婷婷综合久久久久中文一区二区| 成人无码av片在线观看| 国内精品视频666| www插插插无码视频网站| 亚洲人成网77777色在线播放 | 久久韩剧网电视剧| 亚洲av无码国产综合专区 | 精品国产一区二区三区四区在线观看 | 久久青青草原一区二区| 少妇精品视频一区二区免费看| 久久精品视频播放| 亚洲 欧美 激情 小说 另类| 欧美怡红院视频| 久久久久久久久久99| 久久五月婷婷丁香社区| 999热精品视频| 国产亚洲激情| 中文字幕在线乱| 亚洲品质自拍| 91精品国自产在线观看| 625成人欧美午夜电影| 久久精品91久久香蕉加勒比| 神马午夜一区二区| 欧美日韩国产综合一区二区 | 国产精品v欧美精品v日韩| 厕沟全景美女厕沟精品| 久久这里只有精品99| 香蕉视频黄在线观看| 欧美日韩黄色一区二区| 国产又黄又粗又爽| 亚洲精品中文字幕在线观看| 亚洲午夜久久久久久久久红桃| 国产麻豆视频一区二区| 免费观看成人在线视频| 伊人久久大香线蕉av超碰演员| 日韩久久久久久久| 久久久久97| 国产日韩欧美中文在线播放| 亚洲人成在线网站| 九九精品在线观看| av基地在线| 亚洲欧美中文字幕| 亚洲欧美日韩动漫| 欧美不卡视频一区| 在线免费看av片| 欧美丝袜美女中出在线| 国产精品999久久久| 亚洲欧美综合网| 亚洲第一视频区| 久久综合久色欧美综合狠狠| av天堂一区二区| 国产一区二区三区在线观看精品 | 国产无遮挡又黄又爽又色视频| 亚洲一区二区三区四区在线| 肉色超薄丝袜脚交69xx图片| 久久午夜羞羞影院免费观看| yy6080午夜| 成人激情视频网站| 久久久久中文字幕亚洲精品| 久久99精品国产.久久久久| 欧美亚洲日本在线观看| 久久国产精品毛片| 国模吧无码一区二区三区| 激情综合激情| 国产一二三在线视频| 国产字幕视频一区二区| 九九久久九九久久| 伊人久久大香线蕉综合四虎小说 | 日韩电影大全在线观看| 理论片一区二区在线| 国产伦精品一区二区三区免费视频| 视频二区欧美| 国产精品夜夜夜一区二区三区尤| 日本精品视频| 999热视频| avtt综合网| 国产精品久久久久久久久久直播 | 粉嫩绯色av一区二区在线观看| www.色.com| 国产乱国产乱300精品| 两女双腿交缠激烈磨豆腐| 国产伦精品一区二区三区免费迷| 91福利免费观看| 韩国v欧美v亚洲v日本v| 91性高潮久久久久久久| 国产久卡久卡久卡久卡视频精品| 91蝌蚪视频在线| 粉嫩嫩av羞羞动漫久久久| 国产在线精品一区二区三区| 好吊妞视频一区二区三区| 91综合网人人| 18视频在线观看娇喘| 黑丝一区二区| 日韩在线综合网| 视频一区二区不卡| 爱豆国产剧免费观看大全剧苏畅| 国产在线一区二区综合免费视频| 亚洲国产综合av| av在线不卡电影| 国产精品20p| 亚洲欧美自拍偷拍| 福利一区二区三区四区| 欧美性xxxxxxx| 中文字幕av资源| 日韩欧美中文字幕一区| 深夜影院在线观看| 国产午夜精品一区理论片飘花| 一级毛片视频在线观看| 欧美第一页在线| 成人片免费看| 91久久精品国产91性色| 国产精品视屏| 五月天亚洲综合情| 欧美日韩一区二区三区四区在线观看| 国产免费观看高清视频| 久久99久久99小草精品免视看| 又黄又色的网站| 国产免费成人在线视频| 久久一区二区三| 色欧美片视频在线观看| 国产福利第一页| 亚洲欧美国产精品久久久久久久| 黄网站免费在线播放| 51色欧美片视频在线观看| 中文成人在线| 免费试看一区| 国产精品av久久久久久麻豆网| 成人精品视频一区二区| 成人综合在线视频| 久草福利资源在线| 一本一本久久a久久精品综合麻豆| 99久久久久成人国产免费 | 韩国精品视频| 九色成人免费视频| 欧美日韩卡一| 欧美一区二区三区在线播放| 国语精品一区| 伊人国产精品视频| 国产日韩v精品一区二区| 日本一区二区三区免费视频| 欧美日韩二区三区| 欧美日韩激情视频一区二区三区| 久久99热精品| 国产亚洲欧美日韩精品一区二区三区 | 日本一道高清一区二区三区| 艳母动漫在线观看| 青青草91视频| 人妻av无码一区二区三区| 午夜视频在线观看一区二区| 国产美女裸体无遮挡免费视频| 国产性猛交xxxx免费看久久| 高潮在线视频| 国产精品久久精品国产| 欧美久久视频| 日本一区二区三区在线免费观看| 国产精品超碰97尤物18| 久久久久久无码精品大片| 精品亚洲一区二区三区在线观看 | 国产成人精品综合| 亚洲第一福利专区| 波多野结衣家庭教师在线播放| 大陆成人av片| 日本三级视频在线| 精品国产一区二区三区av性色| 青青青青在线| 成人黄色网免费| 日韩国产专区| 波多野结衣xxxx| 中文字幕一区在线观看| 亚洲一区中文字幕永久在线| 日韩中文在线视频| 黄页免费欧美| 三年中国中文在线观看免费播放| 久久国产日韩欧美精品| 国产麻豆a毛片| 欧美一区二区三区在线| 国产福利视频在线观看| 99超碰麻豆| 亚洲国产高清一区| 荫蒂被男人添免费视频| 精品女厕一区二区三区| 欧美在线 | 亚洲| 538国产精品一区二区在线| 欧美天堂影院| 久久精品网站视频| 国产精品视频麻豆| 91av久久久| 欧美黑人巨大xxx极品| 国产精品videossex| 免费无遮挡无码永久视频| 久久久久久久久97黄色工厂| 国产精品无码粉嫩小泬| 色综合亚洲精品激情狠狠| 国产不卡精品| 国产av人人夜夜澡人人爽麻豆| 91免费看`日韩一区二区| 中文字幕一区二区人妻视频| 中文在线不卡视频| 国产亚洲观看| 霍思燕三级露全乳照| 国产亚洲一区二区在线观看| 亚洲第一区av| 欧美成人久久久| 日本午夜精品久久久| www.精品在线| 亚洲午夜激情网站| 国产小视频免费在线观看| 国产欧美日韩中文字幕| 狠狠综合久久| 国产呦小j女精品视频| 欧美日韩在线电影| 成人爽a毛片免费啪啪动漫| 日本午夜精品一区二区| 激情都市一区二区| 日本午夜视频在线观看| 久久精品国产久精国产思思| 动漫3d精品一区二区三区乱码| 五月天婷婷激情视频| 亚洲激情中文1区| 免费在线性爱视频| 97人人澡人人爽| 狂野欧美一区| 久久网中文字幕| 中文字幕亚洲天堂| 日本在线中文字幕一区| 无套白嫩进入乌克兰美女|