精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

北大AI奧數(shù)評測,o1-mini比o1-preview分?jǐn)?shù)還高

人工智能 新聞
Omni-Judge是微調(diào)Llama3-Instruct得到的驗證器,用于驗證待測的答案和給定的答案是否一致。

OpenAI的o1系列一發(fā)布,傳統(tǒng)數(shù)學(xué)評測基準(zhǔn)都顯得不夠用了。

MATH-500,滿血版o1模型直接拿下94.8分。

更難的奧數(shù)邀請賽AIME 2024,o1也獲得83.3%的準(zhǔn)確率。

隨著現(xiàn)有的數(shù)學(xué)評測集逐漸被攻克,大家不禁開始好奇:大模型能否勝任更具挑戰(zhàn)性的數(shù)學(xué)競賽,甚至是奧林匹克數(shù)學(xué)競賽?

為此,北京大學(xué)與阿里巴巴的研究團(tuán)隊聯(lián)合打造了一個專門用于數(shù)學(xué)競賽的奧林匹克評測基準(zhǔn)——Omni-MATH

Omni-MATH專門用于評估大型語言模型在奧林匹克水平的數(shù)學(xué)推理能力。評測集共收錄了 4428 道競賽級別的問題。這些問題經(jīng)過精心分類,涵蓋了 33 個(及更多)子領(lǐng)域,并且分為 10 個不同的難度級別,使得我們能夠?qū)δP驮诟鞣N數(shù)學(xué)學(xué)科和復(fù)雜程度上的表現(xiàn)進(jìn)行細(xì)致分析。

圖片

最新排行榜,競爭非常激烈:

除去o1滿血版暫時還沒有放出API,作為小模型的o1-mini的表現(xiàn)最好,平均分比o1-preview還要高8%左右

開源模型最好的是Qwen2-MATH-72b,甚至超過了GPT-4o的表現(xiàn)。

圖片

總的來說,o1-mini這種只關(guān)注少部分能力、放棄存儲廣泛世界知識路線的優(yōu)勢,再次得到驗證。

Omni-MATH:難度大、領(lǐng)域廣

Omni-MATH作為一個數(shù)學(xué)奧林匹克評測基準(zhǔn),它的特點(diǎn)有三個維度:

人工驗證答案的可靠性:4428道評測問題來自不同的數(shù)學(xué)競賽和論壇數(shù)據(jù),人工參與驗證答案準(zhǔn)確性;并且考慮到奧賽難度問題答案的多樣性提供了基于GPT4o和評測模型的評價方式,方便一鍵啟動評測。

清晰合理的難度分類:評測集整體比較有挑戰(zhàn)性,并且難度跨越非常大。從奧林匹克預(yù)備級別(T4)競賽CEMC到最頂級的奧林匹克數(shù)學(xué)競賽(T0)如IMO、IMC、普特南等等。這些比賽不僅需要選手具備扎實的數(shù)學(xué)基礎(chǔ),還需要超高的邏輯推理能力和創(chuàng)造力。數(shù)據(jù)顯示,只有極少數(shù)智商接近頂尖的人才能在這些比賽中取得優(yōu)異成績。

題目類型非常廣:共有多于33個子領(lǐng)域的數(shù)學(xué)問題。根據(jù)數(shù)學(xué)領(lǐng)域的特性,團(tuán)隊打造了樹狀的領(lǐng)域分類,每個題目涉及一到多個領(lǐng)域,也就是多條樹的路徑,使得我們能夠?qū)δP驮诟鞣N數(shù)學(xué)學(xué)科和困難程度上的表現(xiàn)進(jìn)行細(xì)致的分析。”

圖片

評測集Omni-MATH的構(gòu)造

數(shù)據(jù)構(gòu)造

研究團(tuán)隊首先對國內(nèi)國外基本的奧林匹克數(shù)學(xué)競賽進(jìn)行了細(xì)致的調(diào)研。從中了解到,一個學(xué)生從競賽預(yù)備到頂級競賽,中間要經(jīng)過層層選拔的。

比如對于英國體系,要經(jīng)過JMC → IMC → SMC → BMO 1 → BMO 2 → IMO整個一層鏈路的選拔(這個IMC(Intermediate Mathematical Challenge)和上述IMC(international mathematical competition for university students)并不是一個比賽);

然而在美國體系中,要經(jīng)過AMC 8 → AMC 10 → AMC 12 → AIME→ USA(J)MO → IMO整個一層體系的選拔。

這啟發(fā)了團(tuán)隊能否給模型評測同樣也設(shè)置一個這種難度層級的體現(xiàn)。因此研究團(tuán)隊調(diào)研了世界范圍內(nèi)不同難度層級的比賽,使得Omni-MATH在奧林匹克級別的數(shù)學(xué)測試中,難度上仍然多元化。

另外在奧林匹克級別的數(shù)學(xué)測試中,實際上涉及的數(shù)學(xué)領(lǐng)域是非常多的。研究團(tuán)隊考慮到在模型訓(xùn)練時,不同領(lǐng)域之間的數(shù)據(jù)是否有會有化學(xué)反應(yīng),比如領(lǐng)域A的數(shù)據(jù)能否讓模型泛化到領(lǐng)域B的提升,這種方向的數(shù)據(jù)工程是非常有意義的。

為了給這個方向的研究打下基礎(chǔ),研究人員參考了相關(guān)競賽教輔書,在這個評測集中給數(shù)據(jù)的領(lǐng)域進(jìn)行了非常細(xì)致的劃分,從數(shù)學(xué)大類上比如數(shù)論、代數(shù)、幾何等等開始,一直到領(lǐng)域下面具體的小領(lǐng)域或者知識點(diǎn)。

評測集數(shù)據(jù)的來源主要有兩個,一個是各種比賽的題目和題解,另外一個是著名數(shù)學(xué)網(wǎng)站Art of Problem Solving。對于想要的比賽,優(yōu)先從題解中尋找答案。

如果想要的比賽并未公開題解,團(tuán)隊從AoPS網(wǎng)站的論壇上爬取回復(fù)。考慮到回復(fù)都是真實用戶書寫,有一定概率是有問題的,需要進(jìn)行嚴(yán)格的篩選。

研究團(tuán)隊選取了AoPS網(wǎng)站上候選的并且答案規(guī)整的數(shù)目大于3的題目,并且選取了3個答案全部一致的題目作為最終標(biāo)準(zhǔn)。團(tuán)隊在篩選問題時采用人工篩選,進(jìn)一步保證了準(zhǔn)確性。

數(shù)據(jù)處理

數(shù)據(jù)本身的處理:

在爬取到PDF格式的題解后,開發(fā)者們使用了Mathpix將其轉(zhuǎn)換成Latex格式作為題解。在爬取到論壇答案之后,首先用GPT-4o重新format成規(guī)整的回復(fù),之后手動檢查是否和原本問題的答案一致。

對于這兩類來源的數(shù)據(jù),團(tuán)隊人員最后都是用了人工檢查是否和數(shù)據(jù)源的信息是一致的。

難度分類:

參考了AoPS網(wǎng)站中關(guān)于題目難度分類的情況。

具體而言,不同級別的比賽題目難度有著本質(zhì)的不同,比如CEMC和IMO之間的題目相差非常大,然而,每個比賽的不同題目也有著不同,比如一次IMO比賽中既有簡單題也有難題。因此評測集的難度分類嚴(yán)格按照AoPS網(wǎng)站上給出的不同比賽的每一道題的難度系數(shù)(從1到10之間,大多是整數(shù),少數(shù)有.5、.25這種難度)。

對于網(wǎng)站上未覆蓋的內(nèi)容,團(tuán)隊人員將網(wǎng)頁上的內(nèi)容整理成了few-shot prompt,并使用了GPT4o給題目難度進(jìn)行了標(biāo)注。整體難度的分布和不同比賽題目的分布如下:

圖片

圖片

領(lǐng)域分類:

和傳統(tǒng)的數(shù)學(xué)測試基準(zhǔn)的分類不同,在奧數(shù)這個難度上的題目涉及的領(lǐng)域更多,知識面更廣。

為了更好地組織統(tǒng)一起奧數(shù)這些題目以及后續(xù)的對于數(shù)學(xué)領(lǐng)域之間數(shù)據(jù)的關(guān)系的探究,團(tuán)隊構(gòu)建了一個更為全面的樹狀分類體系。研究團(tuán)隊參考了相關(guān)競賽教輔書,將奧數(shù)相關(guān)的領(lǐng)域分為了幾何、代數(shù)、數(shù)論、應(yīng)用數(shù)學(xué)等等領(lǐng)域,之后從這些領(lǐng)域出發(fā),繼續(xù)細(xì)分成各個領(lǐng)域的小領(lǐng)域,細(xì)微的知識點(diǎn)。

這種樹狀分類體系更有助于幫助理解不同題目之間的關(guān)系,以及模型在不同領(lǐng)域上的表現(xiàn)。團(tuán)隊將這一樹狀分類體系作為模板,并結(jié)合競賽輔導(dǎo)書中的實例,構(gòu)建了few-shot的提示(具體的樹狀結(jié)構(gòu)和提示內(nèi)容可參考文章末尾的代碼倉庫)。

隨后,團(tuán)隊利用GPT-4o給每道題目分類到一到多個類別當(dāng)中。

開源的答案驗證器

Omni-Judge是微調(diào)Llama3-Instruct得到的驗證器,用于驗證待測的答案和給定的答案是否一致。由于數(shù)學(xué)奧賽級別的題目回答的種類非常豐富,用規(guī)則評測實際上非常困難。在獲得模型的預(yù)測之后,需要判斷模型的輸出是否和標(biāo)準(zhǔn)答案是一致的。在使用GPT-4o評測之外,我們還提供了一種更簡便的評測方法,利用了GPT4o評測模型時產(chǎn)生的COT數(shù)據(jù)微調(diào)Llama3-Instruct得到了一個開源的驗證器,評測一致率和GPT-4o高達(dá)95%。

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-11-20 14:00:00

模型測評

2025-02-18 09:00:00

2024-11-21 09:58:12

2025-01-02 09:53:17

2024-12-20 14:30:00

2024-12-09 07:00:00

o1-mini模型強(qiáng)化微調(diào)OpenAI

2024-09-19 17:44:04

2025-01-13 10:30:59

2025-02-13 08:30:00

2025-02-11 16:17:42

2025-02-14 10:47:40

2025-02-24 14:05:00

LLM模型AI

2024-11-15 09:36:07

2025-01-13 00:00:00

訓(xùn)練數(shù)據(jù)模型

2024-11-04 09:00:00

2025-02-06 14:28:16

2024-09-29 10:40:00

AI模型訓(xùn)練

2024-12-23 08:40:00

OpenAI測試模型

2025-01-08 13:08:55

2024-12-16 16:05:34

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

91福利国产成人精品照片| 国产成人无遮挡在线视频| 亚洲性无码av在线| 青青草原国产在线视频| 在线观看av免费| 99综合电影在线视频| 国产精品老女人精品视频| 在线免费看av网站| 日韩成人视屏| 色婷婷精品久久二区二区蜜臂av| 九九热在线精品视频| 伦理片一区二区| 欧美日韩尤物久久| 亚洲一级片在线观看| 任我爽在线视频精品一| 国产精品羞羞答答在线| 国产精品丝袜xxxxxxx| 北条麻妃99精品青青久久| 中文视频在线观看| 成人污版视频| 在线观看亚洲精品| 日韩av新片网| 麻豆影视国产在线观看| 久久久久久久久久久电影| ts人妖另类在线| 一二三区在线播放| 久久久久久自在自线| 欧美激情国产高清| 午夜黄色福利视频| 狠狠综合久久av一区二区蜜桃| 欧美一区二区三区四区久久| 日本中文字幕高清| 日本免费久久| 激情成人中文字幕| www.av91| 女子免费在线观看视频www| 国产精品久久久久久久久免费丝袜 | 国产欧美一区二区色老头 | 免费看电影在线| 国产精品视频看| 日本不卡一区| 毛片在线播放网址| www欧美成人18+| 狠狠爱一区二区三区| 亚洲av无码乱码国产精品久久| 美女视频黄频大全不卡视频在线播放 | 成人午夜免费影院| 奇米亚洲欧美| 亚洲欧美综合另类中字| 亚洲狠狠婷婷综合久久久久图片| 99国产精品免费网站| 日韩欧美中文字幕公布| 中文字幕55页| 欧美一区一区| 日韩免费在线观看| 成人一区二区三区仙踪林| 精品久久亚洲| 欧美xxxx老人做受| 小毛片在线观看| 免费日韩一区二区三区| 亚洲激情电影中文字幕| 精品黑人一区二区三区观看时间| 欧美日韩一区二区三区四区不卡 | 天堂蜜桃一区二区三区| 日本精品一区二区三区在线播放视频| 制服.丝袜.亚洲.中文.综合懂色| 国产情侣一区| 国产成人精品在线观看| 中文字幕91爱爱| 狠狠色狠狠色合久久伊人| 91欧美精品成人综合在线观看| 国产精品无码久久久久成人app| 麻豆精品精品国产自在97香蕉| 国产一区在线播放| h狠狠躁死你h高h| 成人国产精品免费| 免费中文日韩| 毛片在线视频| 亚洲成人av电影| 欧美黑人又粗又大又爽免费| 成人交换视频| 欧美一区二区三区公司| 在线黄色免费网站| 欧美日韩亚洲在线观看| 久久久www成人免费精品| 久久成人在线观看| 日韩精品三区四区| 91嫩草在线| 你懂的在线观看视频网站| 国产精品麻豆欧美日韩ww| 免费cad大片在线观看| 性欧美18xxxhd| 欧美精品日韩精品| xxxxxx黄色| 日韩免费特黄一二三区| 久久久久久这里只有精品| 国产免费一级视频| 国产乱码精品一区二区三区忘忧草 | 久久久精品一区二区三区| 国产精品99re| 奇米精品一区二区三区在线观看一 | 久久欧美中文字幕| 99精品一级欧美片免费播放| 国产亚洲成av人片在线观看 | 一区二区三区中文在线观看| 99爱视频在线| 国产一区二区三区免费观看在线| 日韩的一区二区| 中国毛片直接看| 久久久精品日韩| y111111国产精品久久婷婷| 激情小视频在线观看| 又紧又大又爽精品一区二区| 99蜜桃臀久久久欧美精品网站| 美女久久精品| 中文字幕亚洲欧美日韩高清 | 欧美日韩一区二区电影| 日本一卡二卡在线| 亚洲九九视频| 国产精品视频999| 理论在线观看| 午夜精品福利一区二区三区av| 亚洲三级在线观看视频| 国内成人精品| 国产91精品不卡视频| 亚洲国产www| 专区另类欧美日韩| 午夜两性免费视频| 欧美限制电影| 日本亚洲欧洲色α| 天天综合在线视频| 亚洲一区二区在线播放相泽| 成人黄色一级大片| 日韩国产一区| 国产欧美精品久久久| 国产天堂素人系列在线视频| 欧美日韩国产精品专区| 中文字幕一区二区三区人妻在线视频| 欧美a级成人淫片免费看| 国产aaa精品| 青青草免费在线视频| 黄色精品在线看| 中文字幕日韩三级片| 夜夜嗨网站十八久久| 国产一区再线| 波多野结衣久久精品| 日韩风俗一区 二区| jizz国产免费| 91久色porny| 免费成人在线视频网站| 婷婷成人影院| 欧洲精品久久久| 欧美扣逼视频| 欧美性感一类影片在线播放| 精品一区二区三孕妇视频| 日本va欧美va欧美va精品| 日本一区二区三区精品视频| 成人网ww555视频免费看| 中文字幕九色91在线| 中文字幕永久在线观看| 国产精品久久久久影院亚瑟| www.色就是色.com| 欧美区国产区| 精品一区在线播放| 欧美韩国亚洲| 色午夜这里只有精品| 国产精品高潮呻吟AV无码| 亚洲日本电影在线| 国产精品成人无码专区| 免费日韩av片| 亚洲乱码国产乱码精品天美传媒| 精品亚洲a∨| 久久久久久国产精品| 深夜福利在线看| 91黄色免费观看| a一级免费视频| 国产成人综合在线观看| 免费在线观看亚洲视频| 日韩精品影视| 国产精品12| 天堂久久午夜av| 欧美成人高清视频| 视频在线观看你懂的| 欧美精品久久99| 国产成人无码精品久在线观看| 欧美激情综合在线| 国产欧美视频一区| 日韩av网站免费在线| 永久免费网站视频在线观看| 日韩极品在线| 91在线视频免费| 亚洲伊人av| 久久影院模特热| 日本aaa在线观看| 欧美一级理论片| www.av麻豆| 亚洲欧美一区二区不卡| 国产全是老熟女太爽了| 国产成人在线色| 久久久久久久片| 影音先锋久久久| 一区二区三区四区视频在线| 日本一区福利在线| 91午夜理伦私人影院| 日韩欧美看国产| 欧美激情va永久在线播放| 888av在线| 日韩精品免费在线| www.五月婷| 欧美日韩国产123区| 黄色片视频网站| 艳妇臀荡乳欲伦亚洲一区| 亚洲一区二区自偷自拍| 不卡在线观看av| 国产九九九视频| 麻豆成人免费电影| 日韩视频免费在线播放| 在线亚洲激情| 精品久久久久久无码中文野结衣| 爽成人777777婷婷| 日本欧美色综合网站免费| 久9re热视频这里只有精品| 91观看网站| 精品国产亚洲日本| 成人a在线观看| 久久三级毛片| 国产精品嫩草视频| 韩国成人动漫| 日产精品久久久一区二区福利| 丁香花在线电影| 欧美裸身视频免费观看| 国产网友自拍视频导航网站在线观看| 国产亚洲欧美视频| 精品一二三区视频| 亚洲精品一区av在线播放| 色窝窝无码一区二区三区| 精品日韩欧美一区二区| 精品久久久久成人码免费动漫| 欧美精品丝袜中出| 国产毛片久久久久| 欧美日韩国产电影| 国产一区二区麻豆| 欧美精品日韩精品| 99久久久久久久| 日韩欧美一级片| 性生交生活影碟片| 精品国产区一区| 色婷婷中文字幕| 日韩成人激情在线| 天堂中文字幕在线| 亚洲欧美制服综合另类| 国产系列电影在线播放网址| 伊人久久综合97精品| 国产污视频在线| 俺也去精品视频在线观看| 免费网站成人| 精品中文字幕在线| 丁香高清在线观看完整电影视频 | 日本精品一区二区三区在线观看视频| 成人免费淫片视频软件| 欧美国产亚洲精品| 国产亚洲一区在线播放 | 成人激情文学综合网| 欧类av怡春院| 国产亚洲美州欧州综合国| 99久久99久久精品免费看小说. | 亚洲乱码日产精品bd在线观看| 欧美三区视频| 男女激情无遮挡| 日韩和的一区二区| 欧美一级特黄aaa| 成a人片国产精品| 舐め犯し波多野结衣在线观看| 国产精品久久影院| 免费在线一区二区三区| 黑人欧美xxxx| 亚洲一线在线观看| 亚洲精品在线免费观看视频| 嫩草研究院在线| 精品国偷自产在线视频| 1区2区在线| 国产精品视频成人| 亚洲精品一二三**| 欧美最大成人综合网| 欧美一区91| 免费无码av片在线观看| 精品一区二区三区在线观看| 人妻激情偷乱频一区二区三区| 国产三级一区二区| 久久久久99精品成人片毛片| 欧美性猛xxx| 国产精品无码一区二区桃花视频| 亚洲国产91色在线| 3p在线观看| 2018日韩中文字幕| 国产精品一区二区精品视频观看| 精品欧美国产一区二区三区不卡| 日产精品一区二区| 久久久久久久中文| 国产乱码精品一区二区三区av| 丰满少妇高潮一区二区| 一区二区三区四区高清精品免费观看| 中文字幕手机在线视频| 精品精品国产高清a毛片牛牛| av一本在线| 91成人在线播放| 精品国产不卡一区二区| 欧美色欧美亚洲另类七区| 国产精品v日韩精品v欧美精品网站| 国产福利一区视频| www.欧美日韩| 午夜国产福利一区二区| 欧美在线观看视频一区二区| 婷婷色在线观看| 欧美精品情趣视频| 国产精品99久久久久久董美香 | 波多野结衣一本| 一级精品视频在线观看宜春院| 亚洲天堂手机版| 亚洲男人天堂2023| 超碰97免费在线| 91av免费看| 我不卡影院28| 亚洲欧美日韩综合网| 国产欧美一区二区三区沐欲 | 欧美日韩一区小说| 看电影就来5566av视频在线播放| 久久欧美在线电影| 亚洲欧洲国产精品一区| 久久久久亚洲av无码专区喷水| 蜜臀久久99精品久久久久宅男 | 亚洲有吗中文字幕| 天堂中文av在线| 国产精品国产三级国产有无不卡| 国产又粗又猛又爽又| 亚洲欧洲国产一区| 欧美91看片特黄aaaa| 欧美极品一区二区| 久久精品盗摄| 美女被到爽高潮视频| 一本大道av伊人久久综合| 欧美黄色小说| 日韩av免费在线| 精品高清久久| 黄色永久免费网站| 国产精品久线在线观看| 91丨porny丨在线中文 | cao在线观看| av在线这里只有精品| 亚洲 欧美 视频| 日韩精品在线观看视频| 久久r热视频| 亚洲欧洲一二三| 激情小说亚洲一区| 麻豆精品一区二区三区视频| 精品美女被调教视频大全网站| 黄页在线观看免费| 久久精品五月婷婷| 日韩va欧美va亚洲va久久| 国产一区第一页| 日韩无一区二区| 电影在线观看一区| 日韩欧美精品一区二区| 久久国产人妖系列| 激情小说中文字幕| 精品视频中文字幕| 成人涩涩视频| 肉大捧一出免费观看网站在线播放| 懂色av一区二区三区免费观看| 丰满少妇乱子伦精品看片| 国产小视频国产精品| 亚洲人体在线| 黄色国产一级视频| 亚洲国产精品高清| www.色视频| 国产91九色视频| 亚洲最大黄网| 蜜臀av一区二区三区有限公司| 欧美午夜寂寞影院| 日本在线视频网址| 欧美日韩系列| 国产在线一区观看| 五月天婷婷久久| 精品国产一区二区三区久久久| 国产精品极品在线观看| 不卡av免费在线| 夜夜爽夜夜爽精品视频| 久久久久国产精品嫩草影院| 成人久久18免费网站图片| 999亚洲国产精| 精品无码一区二区三区蜜臀| 亚洲第一网中文字幕| 日本电影久久久| 久久精品99国产| 亚洲免费观看在线观看| 精品视频一二三| 国产精品免费观看高清| 麻豆成人久久精品二区三区红| 亚洲天堂日韩av| 欧美精品免费看|