精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

陶哲軒都驚了!o3首戰「AI奧數」碾壓奪冠,開源軍團僅差5分狂追OpenAI

人工智能 新聞
AI界奧數杯,重啟了!OpenAI o3首次殺入賽場,在算力拉滿的情況下,直接以最高47分的逆天成績炸翻全場。值得一提的是,前五模型合并得分僅與o3差5分,開源與閉源差距再次縮小。

「AI奧數」第二屆大賽,英偉達團隊(NemoSkills)曾奪下第一!

這一次,AIMO2組委會再次重啟賽題,OpenAI o3首次參賽,就拿下了最亮眼的成績。

陶哲軒激動表示,過去,這個比賽僅限于開源模型,計算資源也卡得比較緊。

慶幸的是,AIMO第二輪比賽中,NemoSkills和清華微軟imagination research、以及o3同時參賽。

測試分為兩種條件:一種給差不多的計算資源,另一種是放開算力隨便跑。

結果也在意料之中,算力給得越足,模型表現越好。

在算力管夠的情況下,OpenAI o3成績直接飆到了47分(滿分50分)。甚至,每道題給兩次機會的話,還能沖滿分。

另一個有意思的情況是,在計算資源相同的情況下,開源模型和商業模型的差異其實并不大。

今天,這份完整的研究測試報告正式放出。

報告地址:https://aimoprize.com/updates/2025-09-05-the-gap-is-shrinking

一起來看看,o3在具體實測中的表現。

奧數級難題,AI扛把子

對于科學可復現性,確保開源模型廣泛可得至關重要。但開源模型與閉源模型之間的性能差距到底有多大?

在數學推理情境下,這次的測評提供了更細致的理解:

在奧數難度的數學推理上,商用和開源AI的差距在縮小。

開源即將追上商用模型。

去年,Epoch AI估計:當今最好的開源模型在性能和訓練算力方面與封閉模型相當,但存在大約一年的差距

人工智能數學奧林匹克(AIMO)創立于2023年,旨在推動開源AI模型在高階數學推理的的發展。

比賽傳送門:https://www.kaggle.com/competitions/ai-mathematical-olympiad-progress-prize-2/overview

2025年4月,第二屆AIMO進展獎(AIMO Progress Prize 2,簡稱AIMO2)收官。

本階段題目難度進一步提升,主要圍繞各國奧賽級別(如英國數學奧林匹克BMO、美國數學奧林匹克USAMO)。

AIMO2私榜的前五名隊伍及其成績如下(括號內為公榜成績):

  • NemoSkills:34/50(公榜:33/50)
  • imagination-research:31/50(公榜:34/50)
  • Aliev:30/50(公榜:28/50)
  • sravn:29/50(公榜:25/50)
  • usernam:29/50(公榜:25/50)

Kaggle的「公榜」在賽事全程向參賽者可見,為了避免數據泄露,并不會公開數據。  

由于在單一榜單上反復評測(即便題目不公開)也可能間接泄露信息,Kaggle還會提供一個包含相似難度題目的「私榜」,僅在賽末對模型進行一次性評估,以確定最終名次。

考慮到相較AIMO1題目難度顯著上升,這樣的成績相當亮眼。

不過,一個有趣而關鍵的問題仍待回答:當閉源AI模型「上場」解AIMO的競賽題時,會交出怎樣的答卷?

對比,AIMO與OpenAI等合作開展了一項實驗,將OpenAI的o3模型未發布的版本o3-preview,應用于AIMO2公共排行榜中50道奧林匹克競賽級數學題。

這次對比了通用型模型o3-preview,和開源的AIMO2競賽中針對數學專門優化的Top 2模型。

此外,這次還引入「AIMO2-combined」這一參照系:

將參賽的2000多支Kaggle隊伍中各自最優模型的解題結果合并,只要有至少一個模型解出某題,即計為該題被解決。

從絕對意義上看,不考慮由算力成本帶來的限制,AIMO基準上,o3-preview高算力版本接近達到「飽和」,即便它是通用模型、并未專門針對數學進行優化。

這一成績令人印象深刻,超乎預期。

這表明在推理性能方面,最強的開源模型與最強的閉源模型之間,仍存在顯著差距。

但如果把算力成本納入考量,差距會顯著縮小。

在50題基準上,o3-preview低算力版本單次運行的平均成本為每題略低于1美元。

這一成本高于在自有的8×H100機器上運行全部五個獲勝模型的成本,并與在商業租賃的8×H100 GPU上運行單個獲勝模型的成本大致相當;雖然難以進行精確的價格對比,但成本的數量級相近。

AIMO2原始前五模型的合并分為38/50,較o3-preview低算力版本落后5分,這表明在僅就算力進行調整、限定于50道題的前提下,推理性能大致相近。

接下來,將依次概述o3-preview的表現、冠亞軍隊伍的表現,以及AIMO2-combined的整體表現。

算力足夠,o3一次拿近滿分

AIMO在三種不同的參數設置下運行o3-preview:低算力、中等算力、高算力。

這些設置既影響o3-preview的內部思考與推理層次,也帶來不同的硬件成本。

需要說明的是,低算力與中等算力版本在概念上,對應為同一個基礎模型在兩種參數下運行。

而高算力版本,還使用了一個學習得到的打分函數來挑選最佳答案。

這種在固定采樣率下進行的「采樣-排序」(sample-and-rank)機制帶來更好的表現。

與Kaggle競賽相同,測試在嚴格條件下進行,確保公開榜測試集保持無數據污染且沒有信息泄露。

每道題僅嘗試一次。

低算力與中等算力版本各返回一個答案;而采用采樣-排序機制的高算力版本會返回若干答案,并附帶一個評分。

根據算力版本不同,OpenAI模型的得分如下:

  • o3-preview(高算力版本,計入排名第一與排名第二的答案):50/50
  • o3-preview(高算力版本,僅計入排名第一的答案):47/50
  • o3-preview(中等算力版本):46/50
  • o3-preview(低算力版本):43/50

即便將NemoSkills的AIMO2冠軍模型,遷移到比Kaggle更強的硬件上運行,o3-preview的低算力版本仍然多解出7題。

中等算力版本解出了與低算力版本相同的題目,并額外多解出3題,總計46/50。

高算力版本在僅計入排名第一答案時得分47/50;若同時計入排名第二的答案則為50/50。

這表明,o3-preview在原則上,具備為全部50道題產生正確答案的能力。

這一結果與AIMO2中,全部2k+支Kaggle參賽隊伍的最佳模型組合分相當——后者總計也解出47/50。

8塊H100,英偉達AI僅提1分

此前,拿下第一和第二名的團隊——NemoSkills和imagination-research,再次參與了重估。

為了更好了解模型的全部潛力,團隊獲準訪問一臺8×H100 GPU,總計640GB顯存的機器。

在AIMO2中,為了讓模型能在Kaggle平臺上運行,賽事對參賽隊伍施加了資源限制:

每支隊伍提供4塊L4 GPU,總計96 GB 顯存(VRAM)。

在本次評測中,組委會移除了各隊為適配Kaggle資源限制,讓模型得以在50道公開榜題目上充分發揮其全部能力。

最終結果如何?

· NemoSkills得分35/50,較其在Kaggle公開榜的33/50有所提升;

· imagination-research也得到35/50,較其在Kaggle公開榜的34/50提升。

開源與閉源,差距再次縮小

不過,在報告與比較分數時需要謹慎。

AIMO2-combined的47/50分大致類似于一種「pass@2k+」類型的分數(亦即「多樣本通過率」):

在每題2k+次嘗試中,只要至少有一次解答正確即可計為通過,且不再進行其他排序。

更一般地,常用的「pass@n」類型分數指某個(固定黑箱的)模型被查詢n次,只要正確解包含在這n個輸出中,就據此報告該分數(即使模型內部還能運行更多次)。

多次查詢之間不允許保留模型狀態。

當然,2k+次提交對應的模型并不相同;而嚴格講,pass@n要求底層是同一個模型,因此pass@2k+只是一個近似分數。

o3-preview的低算力與中等算力分數,以及高算力版本的47/50,均屬于pass@1類型分數。

在這三個算力級別中,o3-preview低算力版本未能解出的7道數學題包括:2道幾何、2道代數和3道組合。

盡管o3-preview表現非常強,但有一道名為「RUNNER」(見下方圖表)的問題尤為突出:

該題被NemoSkills解出,但o3-preview的低算力與中等算力版本未能解出,而在高算力版本中其正確答案僅排名第二。

相反,另一道題「EIGHTS」在高算力版本中以排名第一的答案被解出。

該題未被AIMO2前五名模型解出,卻被若干其他排名較低的AIMO2模型解出。

以上這些結果,皆具魯棒性。

原因在于:題目數量多且難度高,多數達到國家數學奧賽水平,少部分略易或略難,接近IMO難度級別。

對所有o3-preview版本的評測,都在一個很短的時間窗口內(數小時)完成。

并且AIMO獲得了原始API輸出的訪問權限,便于復核與分析。

這些結果代表了基于AI的推理,在極具挑戰性的領域邁出的一個里程碑式進展。

順便提一句,AIMO Progress Prize 3(AIMO3)將于2025年秋季啟動。

難度等級將再次提升,題目將以國際數學奧林匹克(IMO)水平為中心。關于時間安排、獎金池以及改進后的競賽形式的完整細節將適時公布。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-12-24 12:19:45

2025-04-27 08:54:00

英偉達開源模型

2024-12-23 07:40:00

AI模型數學

2024-12-09 09:35:00

AI數據訓練

2024-12-02 08:00:00

2025-05-15 08:52:00

2025-11-06 08:59:00

2023-05-22 13:31:06

GPT-4語言能力智商

2025-06-03 08:15:00

2024-09-14 12:51:16

2025-07-21 11:48:54

OpenAIIMOLLM

2025-08-15 12:50:19

2025-09-04 09:04:13

2025-06-12 14:20:35

谷歌DeepMindAI

2023-10-04 08:07:06

CopilotGitHub

2023-09-02 11:21:54

代碼ChatGPT

2025-05-22 09:08:40

2024-10-14 14:31:36

2025-07-21 09:00:00

2025-05-28 00:00:00

點贊
收藏

51CTO技術棧公眾號

一区视频二区视频| 国产精品日韩专区| 一本色道综合久久欧美日韩精品 | 亚洲色图19p| 国产乱码一区| 亚洲无码久久久久久久| 1024日韩| 欧美成人激情视频免费观看| 极品粉嫩小仙女高潮喷水久久| 福利一区在线| 亚洲成av人**亚洲成av**| 色噜噜狠狠色综合网| 亚洲成人黄色片| 蜜桃av噜噜一区| 91黑丝在线观看| 一级片一级片一级片| 欧美三级电影在线| 日韩午夜在线影院| 日本xxxx黄色| 欧美成人黑人| 一区二区三区在线播放| 日韩精品欧美专区| 少妇人妻偷人精品一区二区| 经典一区二区三区| 国产va免费精品高清在线| 精品无码人妻一区二区三区| 日韩精品久久久久久久电影99爱| 亚洲成色777777在线观看影院| 午夜视频在线网站| 日韩不卡免费高清视频| 亚洲成人激情综合网| 国产系列第一页| √天堂资源地址在线官网| 91丨porny丨户外露出| 99久久精品免费看国产一区二区三区| 中文字幕免费播放| 日韩福利电影在线观看| 456国产精品| 日韩 欧美 精品| 黄色精品网站| 欧美日本高清视频| 四虎永久免费在线| 91精品国产自产在线观看永久∴ | 亚洲成av人影院在线观看| 女同激情久久av久久| 精品肉辣文txt下载| 色婷婷av一区| 亚洲狼人综合干| 国精产品一区二区三区有限公司| 岛国视频午夜一区免费在线观看| 国产特级黄色大片| 日本在线高清| 色素色在线综合| 福利在线一区二区三区| 免费污视频在线一区| 91国偷自产一区二区开放时间| 青青在线视频观看| 日本国产欧美| 欧美区一区二区三区| 国产美女18xxxx免费视频| 福利一区视频| 日韩一区二区在线免费观看| 秋霞午夜鲁丝一区二区| 无码国模国产在线观看| 精品国产第一区二区三区观看体验| 香蕉在线观看视频| 日韩激情网站| 亚洲一区第一页| 快灬快灬一下爽蜜桃在线观看| 久久国产成人精品| 欧美乱妇40p| 自拍偷拍欧美亚洲| 日韩av一二三| 97中文在线| 无码国产色欲xxxx视频| 国产色爱av资源综合区| 中文字幕一区二区三区四区五区六区| 中文字幕中文字幕在线中高清免费版| 亚洲最新在线观看| 国产淫片免费看| 欧洲精品久久久久毛片完整版| 欧美一级二级三级乱码| 男人网站在线观看| 日本精品黄色| 欧美精品久久久久久久| 日韩综合在线观看| 国产制服丝袜一区| 久久99精品久久久久久久久久 | 一起草av在线| 成人性生交大片免费看中文网站| 欧美在线3区| av片在线观看| 色狠狠av一区二区三区| 亚洲热在线视频| 久久不卡国产精品一区二区| 久久成人精品视频| 免费看污视频的网站| 国产一区二区在线免费观看| 久久综合狠狠综合久久综青草 | 亚洲欧美视频在线观看| 干日本少妇首页| 久久9999免费视频| 国产一区二区av| 麻豆成人在线视频| 蜜臀精品一区二区三区在线观看 | 精品无码在线观看| 影院欧美亚洲| 91深夜福利视频| 国产在线电影| 欧美日韩亚洲视频| 中文字幕乱妇无码av在线| 亚洲精品3区| 欧美激情精品久久久久久黑人 | 精品久久久久久久久久久国产字幕| 国产精品白丝av| 亚洲欧美久久234| 暧暧视频在线免费观看| 在线不卡中文字幕播放| 欧美激情aaa| 一本久道久久综合狠狠爱| 亚洲一区制服诱惑| 91大神xh98hx在线播放| 色综合天天综合色综合av| 国产免费a级片| 亚州av乱码久久精品蜜桃 | 国产在线不卡一区二区三区| 一区二区三区美女xx视频| 欧美不卡视频在线观看| 成人激情午夜影院| 成年丰满熟妇午夜免费视频| 996久久国产精品线观看| 国产亚洲人成a一在线v站| 国产又黄又猛又粗又爽| 97se亚洲国产综合自在线不卡| 天天想你在线观看完整版电影免费| 九九久久国产| 色妞在线综合亚洲欧美| 日本成人一级片| 亚洲国产精品成人综合| 99草草国产熟女视频在线| 日韩高清成人在线| 97超级碰碰碰久久久| 色呦呦中文字幕| 午夜欧美在线一二页| 国产69视频在线观看| 国产精品a级| 动漫3d精品一区二区三区 | 91精品秘密在线观看| 成人xvideos免费视频| 天堂地址在线www| 在线电影欧美成精品| av激情在线观看| 国产真实乱偷精品视频免| 日本黄色播放器| 亚洲精品午夜| 91精品国产91久久久久久久久| 欧美一级视频免费| 欧美日韩国产限制| 老熟妇一区二区| 久久精品国产久精国产| 手机在线视频你懂的| 97se亚洲| 日本久久久久久久| 日本激情视频在线观看| 91精品欧美久久久久久动漫| 清纯粉嫩极品夜夜嗨av| 成人av午夜电影| 国产精品免费成人| 999久久久精品国产| 91牛牛免费视频| 成人免费观看在线观看| 亚洲人成电影网| 国产精品亚洲欧美在线播放| 亚洲一区二区三区爽爽爽爽爽| 欧美高清性xxxx| 另类综合日韩欧美亚洲| 男女激情免费视频| 精品美女久久久| 99www免费人成精品| 婷婷电影在线观看| 日韩在线视频网站| 日韩中文字幕影院| 欧美特级限制片免费在线观看| 伊人在线视频观看| 26uuu亚洲综合色欧美| av在线无限看| 亚洲精选91| 在线精品日韩| 免费看久久久| 成人激情视频免费在线| 亚洲天堂电影| 欧美成人四级hd版| 国产资源在线看| 日韩免费高清av| 欧美性受xxx黑人xyx性爽| 一区二区三区波多野结衣在线观看| 泷泽萝拉在线播放| 国产精品一区二区你懂的| 国产亚洲天堂网| 欧美日韩精选| 一区不卡字幕| 米奇777超碰欧美日韩亚洲| 亚洲一区二区三区在线免费观看| 校园春色亚洲色图| 久久久久久亚洲精品| 免费网站成人| 亚洲日本欧美日韩高观看| 黑人乱码一区二区三区av| 欧美唯美清纯偷拍| 天天操天天摸天天干| 亚洲精品videosex极品| 91无套直看片红桃在线观看| 99re成人精品视频| 欧美三级电影在线播放| 丁香花在线高清完整版视频 | 丰满熟女一区二区三区| 欧美日韩一区视频| 天天综合网久久综合网| 一区二区三区在线观看视频| 婷婷国产成人精品视频| 久久久91精品国产一区二区精品 | 欧洲精品在线视频| 2021天堂中文幕一二区在线观| 久久精品国亚洲| av影片在线看| 国产小视频91| 免费在线毛片| 亚洲另类欧美自拍| 秋霞av鲁丝片一区二区| 日韩视频在线你懂得| 国产精品久久久久久久一区二区 | 婷婷国产v国产偷v亚洲高清| 欧美黄色免费看| 夜夜爽夜夜爽精品视频| 久久久久亚洲AV成人| 亚洲男人天堂av网| 久久国产高清视频| 中文字幕色av一区二区三区| 91麻豆制片厂| 国产精品久久久久久久久久免费看| 男人舔女人下部高潮全视频| 久久综合九色综合欧美就去吻 | 欧美最顶级的aⅴ艳星| 多野结衣av一区| 91豆花精品一区| 中文字幕在线视频久| 欧洲永久精品大片ww免费漫画| 日本在线啊啊| 国产精品444| 人人精品久久| 亚洲综合在线做性| 风间由美性色一区二区三区四区| 国产精品一区二区三区观看| 粉嫩久久久久久久极品| 久久综合九色欧美狠狠| 欧美亚洲激情| 日韩国产精品毛片| 亚洲黄色一区| 国产激情在线观看视频| 琪琪一区二区三区| 中文字幕在线视频一区二区三区| 国产精品一区二区久激情瑜伽| 欧美xxxx日本和非洲| 99精品黄色片免费大全| 谁有免费的黄色网址| 国产精品蜜臀在线观看| 曰本女人与公拘交酡| 欧美日韩免费看| 亚洲精品毛片一区二区三区| 欧美日韩在线亚洲一区蜜芽| 国产免费视频一区二区三区| 日韩精品中文字幕在线不卡尤物| 亚洲欧美丝袜中文综合| 国产一区二区日韩精品欧美精品| 九色porny在线| 国内精品久久久久影院 日本资源| 大胆人体一区二区| 国产日韩欧美另类| 精品午夜电影| 亚洲一区二区三区乱码| 影音先锋久久资源网| 免费看黄色一级大片| 国产精品中文字幕日韩精品 | 成人日韩在线视频| 成人丝袜18视频在线观看| 阿v天堂2014| 亚洲午夜私人影院| 在线观看黄色网| 亚洲国产成人精品久久| 一区二区三区视频网站| 高清欧美性猛交xxxx黑人猛交| 在线成人视屏 | 成人毛片免费看| 国产欧美日韩小视频| 免费在线观看日韩欧美| 亚洲视频在线播放免费| 国产精品午夜免费| 国产成人无码一区二区三区在线| 欧美日韩高清不卡| 三区在线视频| 久久久免费在线观看| 成人亚洲综合| 免费电影一区| 最新亚洲激情| www日本在线观看| 国产精品欧美综合在线| 中文字幕69页| 亚洲精品久久久久中文字幕二区 | 午夜视频福利在线| 欧美日本中文字幕| 日韩欧乱色一区二区三区在线| 久久久久久精| 亚洲三级观看| 久久久久久久久久久影视| 国产精品久久久久桃色tv| 亚洲 欧美 中文字幕| 亚洲精品不卡在线| 波多野结衣在线播放| 91av免费看| 一区二区三区午夜探花| 亚洲久久中文字幕| 日本一区二区不卡视频| 国产www在线| 亚洲黄色www| 7777kkk亚洲综合欧美网站| 亚洲自拍偷拍在线| 亚洲影视一区二区三区| 色婷婷一区二区三区av免费看| 国产欧美一区二区三区网站| www.com国产| 日韩精品在线观| 国产高清自产拍av在线| 国产伦精品一区二区三区高清| 欧美片第1页综合| caopor在线| 午夜精品福利一区二区蜜股av| 秋霞视频一区二区| 91精品国产色综合| 2023国产精华国产精品| 996这里只有精品| 丁香天五香天堂综合| 精品深夜av无码一区二区老年| 精品av综合导航| 国产精品探花在线| 国产一区二区三区四区五区在线| 日韩一区二区久久| 国产成人无码精品久久二区三| 日韩欧美亚洲成人| 都市激情一区| 91精品久久久久久久久久另类| 久久精品青草| 国产成人精品一区二区在线小狼| 亚洲成人免费电影| 欧美套图亚洲一区| 国产精品普通话| 亚洲深深色噜噜狠狠爱网站| 欧美极品jizzhd欧美仙踪林| 精品久久久久久久久久久| 黄色在线播放| 成人h猎奇视频网站| 好吊视频一区二区三区四区| 国产精品无码一区二区三| 色综合中文综合网| 日本在线www| 国产精品国产亚洲精品看不卡15| 亚洲人成毛片在线播放女女| 播金莲一级淫片aaaaaaa| 欧美在线影院一区二区| 91蜜桃在线视频| 精品亚洲欧美日韩| 美日韩一级片在线观看| 欧美三级小视频| 日韩精品在线视频美女| 九七影院97影院理论片久久| 日韩一级免费看| 久久精品一区八戒影视| 国产特级aaaaaa大片| 午夜精品久久久久久久男人的天堂| 免费观看久久av| 一区二区三区国产好的精华液| 午夜电影一区二区三区| av在线播放免费| 成人av资源网| 日本欧美韩国一区三区| 久久久久久久极品内射| 亚洲欧美日韩成人| 久久久久久亚洲精品美女| 丰满少妇被猛烈进入高清播放| 国产精品久久免费看| 五月天丁香视频| 亚洲aaa激情| 老司机精品导航| 日本三级网站在线观看| 最近2019中文字幕mv免费看| 丁香五月缴情综合网| 亚洲综合婷婷久久| 日韩欧美国产激情| 污污视频在线| 亚洲午夜精品久久| 91蜜桃网址入口|