精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

奧賽級(jí)AI基準(zhǔn)來(lái)了:難倒所有模型,GPT-4o僅考34分,上海交大出品

人工智能 新聞
上海交通大學(xué)生成式人工智能實(shí)驗(yàn)室 (GAIR Lab) 的研究團(tuán)隊(duì)推出多學(xué)科認(rèn)知推理基準(zhǔn)OlympicArena,即使是GPT-4o 也只達(dá)到了 34.01% 的整體準(zhǔn)確率,而其他開源模型的整體準(zhǔn)確率也難以達(dá)到20%。

為了進(jìn)一步挑戰(zhàn)AI系統(tǒng),大家已經(jīng)開始研究一些最困難的競(jìng)賽中的問題,特別是國(guó)際奧林匹克競(jìng)賽和算法挑戰(zhàn)。

但目前尚無(wú)奧林匹克級(jí)別的、多學(xué)科的基準(zhǔn),能夠全面評(píng)估綜合解決問題的能力,以全面檢驗(yàn)人工智能的綜合認(rèn)知能力。

上海交通大學(xué)生成式人工智能實(shí)驗(yàn)室 (GAIR Lab) 的研究團(tuán)隊(duì)推出多學(xué)科認(rèn)知推理基準(zhǔn)OlympicArena,即使是GPT-4o 也只達(dá)到了 34.01% 的整體準(zhǔn)確率,而其他開源模型的整體準(zhǔn)確率也難以達(dá)到20%。

這一鮮明的對(duì)比凸顯了他們基準(zhǔn)測(cè)試的巨大難度和嚴(yán)謹(jǐn)性,證明了它在突破當(dāng)前 AI 能力界限方面的有效性。

圖片

OlympicArena不僅是一套題庫(kù),還做了一些創(chuàng)新,比如為避免模型“刷題”,團(tuán)隊(duì)引入數(shù)據(jù)泄漏檢測(cè)技術(shù),采用N-gram預(yù)測(cè)檢測(cè)數(shù)據(jù)泄露,確認(rèn)99.6%的題目未被預(yù)訓(xùn)練數(shù)據(jù)污染。

除此之外還提供了一套全面的資源來(lái)支持人工智能研究,包括基準(zhǔn)數(shù)據(jù)集、開源注釋平臺(tái)、詳細(xì)的評(píng)估工具和具有自動(dòng)提交功能的排行榜。

圖片

OlympicArena難度水平

OlympicArena覆蓋數(shù)學(xué)、物理、化學(xué)、生物、地理、天文學(xué)、計(jì)算機(jī)科學(xué)7大領(lǐng)域,細(xì)分34個(gè)分支(如數(shù)論、量子物理、有機(jī)化學(xué))。題目來(lái)源包括國(guó)際數(shù)學(xué)奧賽(IMO)、國(guó)際物理奧賽(IPhO)等62項(xiàng)頂尖賽事,共11163道雙語(yǔ)題目(中英對(duì)照),實(shí)際的難度如何。

AGI-Eval大模型評(píng)測(cè)團(tuán)隊(duì)基于此,做了OlympicArena題目的難度驗(yàn)證,按照14個(gè)標(biāo)桿模型(去除Qwen2-72B-Chat)的結(jié)果對(duì)數(shù)據(jù)子集和數(shù)據(jù)集維度做難度分布,從圖中可以看到,OlympicArena整體難度偏難,僅低于AGI-Eval團(tuán)隊(duì)私有的兩個(gè)高中數(shù)學(xué)競(jìng)賽題目。

圖片

AGI-Eval評(píng)測(cè)模型榜單

“奧賽題是檢驗(yàn)AI科學(xué)思維的絕佳試金石。”這類高難度題目不僅需要知識(shí)儲(chǔ)備,更考驗(yàn)邏輯推導(dǎo)、空間想象、符號(hào)理解等綜合能力。在這場(chǎng)超級(jí)測(cè)試中,那擅長(zhǎng)代碼、學(xué)科競(jìng)賽的推理系模型表現(xiàn)如何?

AGI-Eval大模型評(píng)測(cè)社區(qū)也做了新的模型評(píng)測(cè),接入最新的推理系模型以及大語(yǔ)言標(biāo)桿模型。

從整體表現(xiàn)上看o1和DeepSeek-R1的水平基本持平,但是在化學(xué)、生物學(xué)、天文學(xué)、物理上o1表現(xiàn)好于DeepSeek-R1,特別是天文學(xué)上o1得分達(dá)92.47%,但數(shù)學(xué)、地理方面DeepSeek-R1優(yōu)于o1。

圖片

推理系模型和新迭代的模型版本效果都有明顯提升,詳細(xì)排名及得分可上官網(wǎng)查看。

圖片

學(xué)術(shù)難度分析

從能力測(cè)試上可以看到模型在不同學(xué)科的表現(xiàn)水平不同,在天文學(xué)上o1得分高達(dá)92.47%。是天文學(xué)很簡(jiǎn)單嗎?基于此,團(tuán)隊(duì)也做了相關(guān)的學(xué)科分析,從下面的箱合圖中可以看到(中位數(shù)越小越難):

  • 化學(xué)、生物、地理和天文為一檔,該檔模型中位數(shù)大于0.6,從箱型大小可以得到構(gòu)建優(yōu)先級(jí)為:天文 > 化學(xué) > 生物 > 地理
  • 物理為單獨(dú)一檔,該檔模型中位數(shù)0.5附近,箱型大小較大
  • 數(shù)學(xué)為單獨(dú)一檔,該檔模型中位數(shù)0.3附近,箱型大小極大

客觀來(lái)說(shuō),在數(shù)學(xué)物理上R1、o1、o3-mini表現(xiàn)能力更好,能力水平也會(huì)更穩(wěn)定。

圖片

題型分析

除對(duì)模型進(jìn)行能力評(píng)測(cè)外,AGI-Eval大模型評(píng)測(cè)團(tuán)隊(duì)也做了相關(guān)的題型分析,提煉出以下雷達(dá)圖,從圖中可以看到1-5排名的推理模型對(duì)其它模型產(chǎn)生了碾壓的態(tài)勢(shì),特別是在非選擇題題型上,建議構(gòu)建題目以單問的生成題為主。

圖片

△通用模型6-10

難度分析

同時(shí)也對(duì)模型在面對(duì)不同難度題目做了分析,可以看到頭部模型在Easy難度基本已接近100%的準(zhǔn)確率,且無(wú)區(qū)分度;Medium/Hard難度是推理系模型拉開的主戰(zhàn)場(chǎng),且Meidum難度已達(dá)到90%的準(zhǔn)確率,后續(xù)模型評(píng)測(cè)建議只構(gòu)建Hard難度的題目。

圖片

預(yù)測(cè)分析,用Medium、Hard擬合Easy,Easy、Hard擬合Medium,以及Easy、Medium擬合Hard,可以得到如下圖(在Ideal Fit線上方的為超出預(yù)期,線下的為低于預(yù)期)。

  • O3-mini、O1、DeepSeek-R1在Hard上已超越模型列表中的正常表現(xiàn),但在Medium上略低于預(yù)期
  • 平衡點(diǎn):即Easy、Medium、Hard上分?jǐn)?shù)為多少時(shí)三公式有解,說(shuō)明模型表現(xiàn)均衡,Easy = 1, Medium = 0.6695, Hard = 0.1897

圖片

圖片

圖片

結(jié)語(yǔ)

OlympicArena的誕生,是對(duì)現(xiàn)有模型的試金石,更是對(duì)AI研發(fā)路徑的深刻啟示:僅靠數(shù)據(jù)堆砌無(wú)法實(shí)現(xiàn)真正的智能。未來(lái)的AI應(yīng)該學(xué)會(huì)像奧賽選手一樣拆解問題、關(guān)聯(lián)知識(shí)、嚴(yán)謹(jǐn)推導(dǎo)。

當(dāng)模型能力達(dá)到這樣的水平時(shí),對(duì)模型的評(píng)測(cè)的題目難度及評(píng)測(cè)要求也越來(lái)越高,后續(xù)模型評(píng)測(cè)建議只構(gòu)建Hard難度的題目。

基于此,AGI-Eval大模型評(píng)測(cè)團(tuán)隊(duì)創(chuàng)新性地提出了人機(jī)協(xié)作評(píng)測(cè)模式,并推出10q的全新玩法。待測(cè)模型需要在同一套system prompt下指導(dǎo)真實(shí)用戶學(xué)習(xí)一個(gè)知識(shí)點(diǎn)并完成quiz,基于模型與用戶的高質(zhì)量多輪對(duì)話數(shù)據(jù),產(chǎn)出更加高置信度的評(píng)測(cè)結(jié)論。

在這種模式下,參與者可以與最新的大模型共同完成任務(wù),既有助于提高任務(wù)完成度又便于建立更加直觀的區(qū)分度。

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-04-16 08:40:00

模型智能語(yǔ)音

2024-06-17 18:04:38

2024-07-11 11:53:56

2024-08-05 08:46:00

模型測(cè)評(píng)

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2024-06-27 12:45:30

2024-05-15 17:34:15

2024-12-19 09:00:00

模型數(shù)學(xué)訓(xùn)練

2024-05-14 11:29:15

2025-08-11 08:42:00

GPT-5AI模型

2025-02-18 12:30:00

2024-04-01 08:00:00

AI模型

2024-11-28 15:51:19

GPT-4o微軟

2025-05-26 09:05:00

2025-06-06 14:25:04

模型自然語(yǔ)言AI

2024-07-31 13:20:14

2024-09-24 11:13:14

2025-04-16 09:15:00

AI模型數(shù)據(jù)

2025-06-04 13:53:22

代碼模型AI

2024-08-14 14:30:00

AI訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

成人区精品一区二区不卡| 日韩欧美一级大片| 噜噜噜天天躁狠狠躁夜夜精品| 艳妇臀荡乳欲伦亚洲一区| 韩国精品一区二区三区六区色诱| 黄色片视频免费| 五月天激情综合网| 亚洲激情 国产| 高清av免费看| 97人澡人人添人人爽欧美| 国产三级三级三级精品8ⅰ区| 91麻豆桃色免费看| 亚洲黄色激情视频| 888久久久| 亚洲男人天堂久| 美女又黄又免费的视频| 日本综合久久| 亚洲成人av一区二区三区| 亚洲欧美久久234| 色呦呦视频在线| 久久99国产精品尤物| 69影院欧美专区视频| 任我爽在线视频| 一区二区美女| 亚洲国产三级网| 日韩高清在线一区二区| 巨胸喷奶水www久久久免费动漫| 亚洲精品乱码久久久久久黑人| 美日韩免费视频| www天堂在线| 久久精品国产亚洲一区二区三区| 91精品国产91久久久久久吃药| 小泽玛利亚一区二区免费| 久久最新网址| 日韩av在线免费| 美女露出粉嫩尿囗让男人桶| a一区二区三区亚洲| 色哟哟一区二区三区| 男人c女人视频| 欧美日韩xx| 国产嫩草影院久久久久| 欧美不卡福利| 亚洲三级黄色片| av在线这里只有精品| 5g国产欧美日韩视频| 国产精品国产精品国产专区| 男人操女人的视频在线观看欧美| 亲爱的老师9免费观看全集电视剧| 国产亚洲欧美精品久久久久久| 久久久久久美女精品| 最新国产成人av网站网址麻豆| 亚洲男人在线天堂| 麻豆视频一区| 亚洲国产三级网| 荫蒂被男人添免费视频| 超碰成人在线观看| 精品电影一区二区| 黑丝av在线播放| 欧洲在线一区| 国产偷亚洲偷欧美偷精品| 精品国产人妻一区二区三区| 久久影视三级福利片| 亚洲高清一二三区| 国产xxxxxxxxx| 日韩高清影视在线观看| 亚洲欧美国产精品专区久久 | 少妇高潮一区二区三区99| 欧美图片一区二区三区| 91亚洲免费视频| 成人51免费| 日韩免费电影网站| 欧美日韩人妻精品一区在线| 欧美尿孔扩张虐视频| 亚洲第一页中文字幕| 欧美做受xxxxxⅹ性视频| 精品国产123区| 日韩在线观看免费网站 | 成人高清免费观看mv| 亚洲国产精品ⅴa在线观看| 一区二区视频在线免费| 中国av在线播放| 午夜激情综合网| chinese少妇国语对白| 久久亚洲精品人成综合网| 日韩一区国产二区欧美三区| 黄色性视频网站| 国产一区二区在线| 久久伊人色综合| 日本五十路女优| 日本va欧美va瓶| 97视频资源在线观看| 牛牛澡牛牛爽一区二区| 最新成人av在线| 欧美成人三级在线视频| 51一区二区三区| 日韩三级精品电影久久久| 欧美图片一区二区| 99热在线成人| 55夜色66夜色国产精品视频| 亚洲熟妇无码久久精品| 成人高清伦理免费影院在线观看| 欧美在线播放一区| 18加网站在线| 色婷婷av一区| 日批视频在线看| 精品久久影院| 久久免费观看视频| 一区二区三区在线免费观看视频| 丁香天五香天堂综合| 亚洲精品一区二区三区四区五区| 久久青青色综合| 欧美色电影在线| 黄色国产在线观看| 欧美黄色大片网站| 国产精品天天狠天天看| 天天av天天翘| 亚洲婷婷在线视频| xxxx一级片| 青青一区二区| 欧美黑人xxx| 97人妻精品一区二区三区动漫| 91色在线porny| 成人在线国产视频| 日韩五码电影| 在线精品播放av| 精品国产乱码一区二区| 国产毛片精品国产一区二区三区| 牛人盗摄一区二区三区视频| 国产第一页在线视频| 欧美一级日韩不卡播放免费| 少妇视频在线播放| 久久精品五月| 国内视频一区| 69av成人| 亚洲国产高潮在线观看| 久草网视频在线观看| 国产在线视频不卡二| 亚洲精品一区二区三区四区五区 | 亚洲视频碰碰| 亚洲最大福利网| 国产一二区在线观看| 欧美久久久久久久久久| 可以免费看av的网址| 蜜桃av一区二区三区| 欧美美乳视频网站在线观看| 亚洲天堂免费电影| 亚洲精品丝袜日韩| 中文字幕视频网站| 久久美女高清视频| 欧美精品无码一区二区三区| 国产精品免费不| 日韩免费观看视频| 国产美女视频一区二区三区 | 亚洲视频免费看| 久久精品久久99| 欧美日韩一区自拍 | 视频精品在线观看| 国产精品91久久久久久| 97在线观看免费观看高清| 欧美日韩一区三区| 成人在线观看小视频| 国产一区91精品张津瑜| 女人色极品影院| 婷婷综合福利| 国产精品视频自拍| 黄av在线免费观看| 精品国产精品一区二区夜夜嗨| 国产精品 欧美 日韩| 91啦中文在线观看| 五月天婷婷亚洲| 欧美午夜一区二区福利视频| 久久精品国产一区二区三区日韩| 高清不卡av| 在线午夜精品自拍| 国产精品伦一区二区三区| 亚洲中国最大av网站| 欧美肉大捧一进一出免费视频| 国产欧美日韩一区二区三区在线| 欧美一区二区三区在线播放| 亚洲欧洲日韩精品在线| 欧美激情18p| 国产资源在线播放| 欧美一级电影网站| 在线观看日本视频| 亚洲天堂成人网| 精品国产av色一区二区深夜久久| 日本sm残虐另类| 国产乱子伦精品无码专区| 亚洲精品蜜桃乱晃| 91免费国产网站| 天堂中文最新版在线中文| 色偷偷偷综合中文字幕;dd| www.日日夜夜| 在线视频综合导航| 青娱乐国产在线| 国产欧美日韩麻豆91| 农村末发育av片一区二区| 免费日韩av片| 麻豆传媒网站在线观看| 香蕉视频一区| 99九九视频| 国产精品久久乐| 91国产美女视频| 黄色网页在线播放| 亚洲人成欧美中文字幕| 99视频免费看| 欧美三级在线视频| 欧美三级一区二区三区| 亚洲欧美一区二区三区久本道91| 中文幕无线码中文字蜜桃| 国产一区二区在线观看视频| 久久美女福利视频| 国产一区二区三区四区老人| 亚洲一区bb| 小说区图片区色综合区| 国产精品国模大尺度私拍| 伊人亚洲精品| 国产精品成久久久久三级| 国产色播av在线| 欧美大学生性色视频| 91青青在线视频| 亚洲欧美日韩综合| 少妇一区二区三区四区| 91精品国产综合久久久久久久久久 | 国产裸体写真av一区二区 | 超碰在线免费播放| 在线观看成人黄色| 国产在线观看免费| 亚洲精品中文字幕有码专区| 性少妇videosexfreexxx片| 欧美日韩国产电影| 中文字幕人妻互换av久久| 日韩欧美福利视频| 午夜精品三级久久久有码| 亚洲国产精品久久人人爱| 久久久久无码国产精品| 亚洲欧美日韩电影| 午夜爽爽爽男女免费观看| 国产精品美女一区二区在线观看| 亚洲理论片在线观看| 久久久噜噜噜久久人人看| 黄色网址在线视频| 成人av午夜影院| 在线中文字日产幕| 成人av在线资源| 97人妻精品一区二区三区免费| 国产成人高清在线| 免费观看一区二区三区| 国产91对白在线观看九色| 99riav国产精品视频| 粉嫩久久99精品久久久久久夜| 国产一精品一aⅴ一免费| 成人污污视频在线观看| 国产伦精品一区二区三区精品| 波波电影院一区二区三区| 亚洲一区二区在线免费| 91亚洲资源网| 韩国女同性做爰三级| 国产欧美一区二区精品性色超碰| 久久视频精品在线观看| 国产精品高潮呻吟| 黄视频网站免费看| 亚洲一二三四久久| 日本天堂网在线| 欧美在线免费观看亚洲| 一级黄色大片免费观看| 91精品国产色综合久久| 好吊色在线观看| 精品亚洲夜色av98在线观看| 国产在线91| 久久韩剧网电视剧| 免费在线观看的电影网站| 97视频在线观看视频免费视频| 亚洲女色av| 国产精品永久免费观看| 精品国产乱码久久久久久樱花| 99三级在线| 美女少妇全过程你懂的久久| 亚洲欧洲精品一区| 欧美精品成人| 无码人妻h动漫| 精品在线你懂的| 大尺度在线观看| 中文字幕巨乱亚洲| 久久亚洲成人av| 日本久久一区二区| 精品国产999久久久免费| 亚洲国产一区二区三区在线观看| 久久精品a一级国产免视看成人 | 久久66热re国产| 亚洲视频天天射| 国产欧美日产一区| 免费网站观看www在线观| 色国产综合视频| 成 人片 黄 色 大 片| 国产亚洲精品一区二区| 男女免费观看在线爽爽爽视频| 日本91av在线播放| 人人九九精品视频| 日本一区二区三区四区高清视频| 在线中文一区| 亚洲五月天综合| 成人爱爱电影网址| 久久久久久久久久97| 粉嫩老牛aⅴ一区二区三区| 一本色道久久综合亚洲| 亚洲美女性视频| 麻豆av在线免费观看| 国产精品永久在线| 啪啪亚洲精品| www.av中文字幕| 国产精品888| gv天堂gv无码男同在线观看| 天天色天天操综合| 午夜精品一二三区| 日韩天堂在线视频| 另类图片综合电影| 国产主播一区二区三区四区| 午夜国产精品视频免费体验区| 久久婷五月综合| 久久精品视频在线看| 国产超碰人人爽人人做人人爱| 日韩你懂的电影在线观看| 永久av在线| 国产精品爱久久久久久久| 午夜先锋成人动漫在线| 给我免费播放片在线观看| 国产精品99久久不卡二区| 国产视频精品免费| 欧美无人高清视频在线观看| 毛片免费在线| 欧美一级在线亚洲天堂| 美女一区2区| 免费国产a级片| proumb性欧美在线观看| 久久婷婷综合国产| 日韩一区二区电影| 国产区在线观看| 91夜夜未满十八勿入爽爽影院| 久久精品国产大片免费观看| 韩国视频一区二区三区| 国产日韩欧美一区二区三区乱码| 天干夜夜爽爽日日日日| 亚洲男人的天堂在线| 欧美大胆成人| 日韩hmxxxx| 日韩黄色在线观看| 1024手机在线观看你懂的| 欧美曰成人黄网| 337p日本欧洲亚洲大胆鲁鲁| 国产精品自在线| 亚洲影视一区二区三区| 韩国三级丰满少妇高潮| 一区二区日韩电影| 蜜臀av中文字幕| 国产91精品久久久久久久| 天天操综合520| 国产一级不卡毛片| 中文字幕中文字幕一区二区| 国产精品久久久久久久久久久久久久久久久久 | 欧美日韩女优| 中文字幕成人一区| 国产风韵犹存在线视精品| 精品在线视频免费观看| 日韩黄在线观看| 日本综合视频| 久久最新免费视频| 成人福利电影精品一区二区在线观看| 日本网站在线播放| 尤物九九久久国产精品的分类 | 国产三级在线观看完整版| 欧美日韩精品一区二区三区四区| 国产美女av在线| 国产一区二区免费在线观看| 国产日韩视频| 国产美女网站视频| 日韩欧美久久久| 欧美成人黑人| 青青草原网站在线观看| 99re66热这里只有精品3直播| 国语对白做受69按摩| 久久综合伊人77777蜜臀| 国产一区二区三区亚洲| 爱情岛论坛vip永久入口| 亚洲精品福利视频网站| 亚洲日本国产精品| 成人免费视频网| 国产精品久久久久9999高清| 波兰性xxxxx极品hd| 亚洲大胆人体在线| 欧美aaaaaaaa| 黄页免费在线观看视频| 亚洲欧美日韩在线| 日韩私人影院| 不卡的av一区| 男人的天堂久久精品| 国产精品黄色网| 欧美xxxx18性欧美| 精品av一区二区| 国产xxxxxxxxx|