精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型全軍覆沒(méi),中科院自動(dòng)化所推出多圖數(shù)學(xué)推理新基準(zhǔn) | CVPR 2025

人工智能 新聞
近日,中國(guó)科學(xué)院自動(dòng)化研究所推出多圖數(shù)學(xué)推理全新基準(zhǔn)MV-MATH。

挑戰(zhàn)多圖數(shù)學(xué)推理新基準(zhǔn),大模型直接全軍覆沒(méi)?!

事情是這樣的。

近日,中國(guó)科學(xué)院自動(dòng)化研究所推出多圖數(shù)學(xué)推理全新基準(zhǔn)MV-MATH(該工作已被CVPR 2025錄用),這是一個(gè)精心策劃的多圖數(shù)學(xué)推理數(shù)據(jù)集,旨在全面評(píng)估MLLM(多模態(tài)大語(yǔ)言模型)在多視覺(jué)場(chǎng)景中的數(shù)學(xué)推理能力。

圖片

結(jié)果評(píng)估下來(lái)發(fā)現(xiàn),GPT-4o僅得分32.1,類(lèi)o1模型QvQ得分29.3,所有模型均不及格。

具體咋回事,下面接著看。

給大模型數(shù)學(xué)推理上難度

截止目前,多模態(tài)大模型在數(shù)學(xué)推理領(lǐng)域展現(xiàn)出了巨大的潛力。

然而,現(xiàn)有的多模態(tài)數(shù)學(xué)基準(zhǔn)測(cè)試大多局限于單一視覺(jué)場(chǎng)景(單圖推理),這與現(xiàn)實(shí)世界中復(fù)雜的多視覺(jué)數(shù)學(xué)應(yīng)用(多圖推理)相去甚遠(yuǎn)。

基于這一情況,多圖數(shù)學(xué)推理數(shù)據(jù)集MV-MATH應(yīng)運(yùn)而生。

MV-MATH介紹

MV-MATH包含2009個(gè)高質(zhì)量數(shù)學(xué)問(wèn)題,涵蓋了從K-12教育場(chǎng)景中提取的真實(shí)問(wèn)題。

每個(gè)問(wèn)題都結(jié)合了多個(gè)圖像和文本,形成了圖文交錯(cuò)的多視覺(jué)場(chǎng)景。

這些問(wèn)題分為選擇題、填空題和多步問(wèn)答題三種類(lèi)型,覆蓋了11個(gè)數(shù)學(xué)領(lǐng)域,包括解析幾何、代數(shù)、度量幾何、組合學(xué)、變換幾何、邏輯、立體幾何、算術(shù)、組合幾何、描述性幾何和統(tǒng)計(jì)學(xué),并分為三個(gè)難度級(jí)別。

圖片

下圖展示了MV-MATH與現(xiàn)有數(shù)據(jù)集的對(duì)比以及分布情況:

(a)與現(xiàn)有數(shù)學(xué)基準(zhǔn)的比較(圓圈大小代表圖片數(shù)量);(b)每個(gè)問(wèn)題的長(zhǎng)度分布;(c)每個(gè)問(wèn)題的圖像數(shù)量分布。

圖片

數(shù)據(jù)集特點(diǎn)

(1)多視覺(jué)場(chǎng)景

MV-MATH數(shù)據(jù)集中的每個(gè)問(wèn)題都包含多個(gè)圖像(2-8個(gè)圖片),這些圖像與文本交織在一起,形成了復(fù)雜的多視覺(jué)場(chǎng)景。

MV-MATH中的每個(gè)問(wèn)題都是從真實(shí)的K-12場(chǎng)景中收集而來(lái),這種設(shè)計(jì)更接近于現(xiàn)實(shí)世界中的數(shù)學(xué)問(wèn)題,能夠更好地評(píng)估MLLM在處理多視覺(jué)信息時(shí)的推理能力。

(2)豐富的標(biāo)注

為了確保數(shù)據(jù)集的質(zhì)量和可靠性,每個(gè)樣本都經(jīng)過(guò)了至少兩名標(biāo)注者的交叉驗(yàn)證。標(biāo)注內(nèi)容包括問(wèn)題、答案、詳細(xì)分析以及圖像關(guān)聯(lián)性,為模型評(píng)估提供了詳細(xì)的信息。

(3)多樣化的數(shù)學(xué)領(lǐng)域

MV-MATH涵蓋了從基礎(chǔ)算術(shù)到高級(jí)幾何的11個(gè)數(shù)學(xué)領(lǐng)域,并根據(jù)詳細(xì)答案的長(zhǎng)度劃分為3個(gè)難度等級(jí),能夠全面評(píng)估MLLM在不同數(shù)學(xué)領(lǐng)域的推理能力。

(4)圖像關(guān)聯(lián)性

MV-MATH首次引入圖像相關(guān)性這一特征標(biāo)簽,根據(jù)據(jù)圖像是否相關(guān),數(shù)據(jù)集被分為兩個(gè)子集:相互依賴(lài)集(Mutually Dependent Set,MD)和獨(dú)立集(Independent Set,ID)。

在MD子集中,圖像之間相互關(guān)聯(lián),理解一個(gè)圖像需要參考其他圖像;而在ID子集中,圖像之間相互獨(dú)立,可以單獨(dú)解釋。

例如,下圖中前兩個(gè)題目屬于相互依賴(lài)集,最后一個(gè)為題目屬于獨(dú)立集。

圖片

多圖推理綜合評(píng)估

研究團(tuán)隊(duì)在MV-MATH上進(jìn)行了廣泛的實(shí)驗(yàn),評(píng)測(cè)了24個(gè)主流開(kāi)源和閉源多模態(tài)大模型。

實(shí)驗(yàn)結(jié)果表明,即使是最先進(jìn)的MLLM在多視覺(jué)數(shù)學(xué)任務(wù)中也面臨著巨大的挑戰(zhàn),其表現(xiàn)與人類(lèi)能力之間存在顯著差距。

圖片

從模型總體表現(xiàn)來(lái)看,在MV-MATH數(shù)據(jù)集上,表現(xiàn)最好的模型是Claude-3.5,其整體準(zhǔn)確率為33.9%,遠(yuǎn)低于人類(lèi)水平(76.5%)。

其他表現(xiàn)較好的模型還包括GPT-4o(32.1%)、Gemini-1.5-Pro(29.1%)和Qwen-vl-max(26.9%)。

值得注意的是,開(kāi)源模型LLaVA-OneVision-Chat-72B取得了26.2%的準(zhǔn)確率,僅次于Qwen-vl-max。類(lèi)o1模型QVQ-72B-Preview性能為29.3%,僅次于GPT-4o,這說(shuō)明慢思考系統(tǒng)在多圖推理任務(wù)上同樣有效。

此外,模型在不同領(lǐng)域的表現(xiàn)也存在差異。

在算術(shù)領(lǐng)域,Claude-3.5的準(zhǔn)確率最高,達(dá)到54.2%;而在組合幾何領(lǐng)域,其準(zhǔn)確率僅為27.0%。

這表明MLLM在處理需要復(fù)雜圖像理解和推理的領(lǐng)域時(shí)存在較大困難。

與此同時(shí),團(tuán)隊(duì)針對(duì)題目難度模型提示、圖像關(guān)聯(lián)性以及圖像輸入方式四個(gè)維度對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了更細(xì)粒度的分析。

圖片

具體而言,如圖中(a)所示,在不同難度級(jí)別上,模型的表現(xiàn)也有所不同。

在簡(jiǎn)單問(wèn)題上,GPT-4o的準(zhǔn)確率最高,達(dá)到40.3%;而在中等難度問(wèn)題上,Claude-3.5的準(zhǔn)確率最高,為37.5%。在困難問(wèn)題上,所有模型的表現(xiàn)都大幅下降,Claude-3.5的準(zhǔn)確率僅為26.6%。

而圖(b)表明,對(duì)于閉源模型,CoT和few-shot對(duì)MV-MATH多圖推理并不一定有效。對(duì)于所有的開(kāi)源模型,CoT和few-shot都會(huì)降點(diǎn)。

在圖像關(guān)聯(lián)性上,MD子集包含相互依賴(lài)的圖像,需要更高水平的跨圖像理解。

如圖中(c)所示,絕大多數(shù)模型在MD子集上的性能均低于ID子集,其中Gemini-1.5-pro的性能差距最大,達(dá)到 7.8%。

這一觀察結(jié)果表明,大多數(shù)模型在處理數(shù)學(xué)場(chǎng)景中的相互依賴(lài)圖像任務(wù)上面臨挑戰(zhàn),凸顯了MLLM在處理數(shù)學(xué)多視覺(jué)環(huán)境中跨圖像相互依賴(lài)關(guān)系的潛在局限性。

至于圖像輸入方式,如圖中(d)所示,結(jié)果一致表明,在所有測(cè)試模型中,圖像序列輸入的表現(xiàn)都優(yōu)于合并輸入,這表明保留圖像的位置和順序信息對(duì)于多圖推理至關(guān)重要。

序列輸入的高性能凸顯了結(jié)構(gòu)化視覺(jué)信息在增強(qiáng)模型解釋和處理復(fù)雜數(shù)學(xué)場(chǎng)景的能力方面的重要性。

小結(jié)

隨著最近OpenAI o1,DeepSeek-R1等模型的爆火,大家看到了慢思考模型在文本推理上的強(qiáng)大性能。然而目前視覺(jué)大模型的慢推理仍然沒(méi)有一個(gè)固定的范式。

本研究通過(guò)大量實(shí)驗(yàn)證實(shí)了MLLM在復(fù)雜多視覺(jué)感知與圖像交叉理解上仍然存在困難,在多圖數(shù)學(xué)推理上存在極大的改進(jìn)空間。

本研究旨在全面評(píng)估MLLM在多視覺(jué)場(chǎng)景中的數(shù)學(xué)推理能力,推動(dòng)多圖數(shù)學(xué)推理的進(jìn)一步發(fā)展。

論文鏈接:https://arxiv.org/abs/2502.20808
主頁(yè)鏈接:https://eternal8080.github.io/MV-MATH.github.io/

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-07-16 09:18:06

2023-04-18 10:12:06

模型解碼

2025-06-09 08:30:00

2025-07-21 08:51:00

2025-11-20 12:51:07

2025-06-24 11:50:37

模型數(shù)據(jù)開(kāi)源

2025-07-07 08:42:00

大模型AIChatGPT

2020-09-09 11:32:41

Android漏洞應(yīng)用安全

2024-06-11 08:55:00

2024-06-05 09:22:43

2024-08-12 08:20:00

自動(dòng)化研究

2025-05-29 09:08:00

模型推理AI

2025-05-09 08:40:00

2021-10-21 15:20:35

智能自動(dòng)化Science

2024-09-14 12:52:59

個(gè)性化定位大模型

2025-10-30 16:04:35

AI模型機(jī)器人

2025-09-08 18:08:28

AIClockBenchAGI

2019-01-16 15:21:12

中科院大數(shù)據(jù)數(shù)據(jù)庫(kù)

2024-08-08 13:04:28

2025-10-11 09:20:13

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

亚洲视频网在线直播| 久久精品二区亚洲w码| 亚洲人午夜精品| 91香蕉视频污版| 色的视频在线免费看| 国产精品 日产精品 欧美精品| 久久久久久久久爱| 青娱乐国产视频| 日韩国产在线不卡视频| 欧美性猛交xxxxx水多| 亚洲最大色综合成人av| 隣の若妻さん波多野结衣| 视频一区二区不卡| 欧美国产欧美亚洲国产日韩mv天天看完整| 国产精品伦子伦| 高清在线一区二区| 色综合久久综合网欧美综合网 | 亚洲视频在线观看一区二区三区| 国产二区三区在线| 久久久久久电影| 91青青草免费观看| 日韩中文字幕高清| 精品动漫av| 久久国产一区二区三区| 蜜桃av免费看| 牛牛影视一区二区三区免费看| 欧美高清一级片在线| 国产精品视频一区二区三区四区五区| gogogogo高清视频在线| 欧美高清在线精品一区| 精品在线不卡| 欧美一级性视频| 国产精品一区在线观看你懂的| 国产成人精品午夜| www.国产com| 日韩午夜高潮| 高清视频欧美一级| 欧美日韩免费一区二区| 欧美 日韩 国产精品免费观看| 尤物九九久久国产精品的分类| 中文字幕三级电影| 中文在线免费一区三区| 欧美不卡一区二区三区四区| 性鲍视频在线观看| 99视频这里有精品| 欧美一区二区精品在线| 亚洲 国产 图片| 精品久久久网| 欧美天天综合网| 成人免费aaa| 蜜桃av在线| 亚洲国产欧美另类丝袜| 日本xxx免费| 黄网址在线观看| 国产精品私房写真福利视频| 欧美日韩精品免费观看| 亚洲欧美自偷自拍| 成人白浆超碰人人人人| 99re视频在线播放| 中文字幕 日韩有码| 1024成人| 韩剧1988在线观看免费完整版| 欧美毛片在线观看| 欧美精品国产一区二区| 色综合男人天堂| 久久久精品视频免费观看| 久久精品99久久无色码中文字幕| 一本一本久久a久久精品牛牛影视| 国产精品无码一区二区三| jizz久久精品永久免费| 日韩精品一区二区三区在线播放 | 日本在线观看高清完整版| 亚洲欧美日韩在线| 国产91porn| 亚洲h片在线看| 亚洲精品免费在线| 国产精品自拍合集| 国产偷倩在线播放| 午夜精品久久一牛影视| 久久综合色视频| 97超碰在线免费| 精品国产成人av| 国产一区亚洲二区三区| 少妇一区视频| 欧美日韩国产精品自在自线| 最新免费av网址| 欧美1区2区3| 精品久久久久久久久久久久久久久| 自拍偷拍激情视频| 精品三级av在线导航| 日韩成人xxxx| 一区二区三区四区免费| 日韩视频在线观看| 久久成人一区二区| 日韩毛片在线视频| aa国产精品| 国产成人亚洲精品| 国产伦理吴梦梦伦理| 成人免费的视频| 欧美精品久久| 国产福利视频在线| 精品久久久久久电影| 亚州精品一二三区| 电影中文字幕一区二区| 精品99一区二区三区| 亚洲永久精品ww.7491进入| 日韩大片在线| 国模私拍一区二区三区| 亚洲色成人www永久网站| 国产乱码精品一区二区三区av| 国产精品视频500部| 国产资源在线看| 亚洲精品国产品国语在线app| 国产精品999视频| 国产一区二区三区四区五区3d| 日韩一区二区精品在线观看| 人妻在线日韩免费视频| 99热在线成人| 欧美亚洲另类在线| 国产91视频在线| 国产欧美一区二区精品婷婷| 日韩视频 中文字幕| 外国成人直播| 91.成人天堂一区| 在线黄色免费网站| 午夜久久美女| 国产精品尤物福利片在线观看| 黄色av免费观看| 国产精品久久久一本精品| 欧美二区在线视频| 免费观看性欧美大片无片| 亚洲色图美腿丝袜| 激情五月色婷婷| 国产美女主播视频一区| 日韩国产精品一区二区| 欧美bbbxxxxx| 日韩欧美国产三级| 亚洲 欧美 国产 另类| 午夜一区二区三区不卡视频| 99一区二区| 好操啊在线观看免费视频| 欧美色区777第一页| 国产精品无码一区二区三区| 伊人影院久久| 91久久大香伊蕉在人线| 日本www在线观看| 日本精品视频一区二区三区| 日韩综合第一页| 中文字幕av亚洲精品一部二部| 国产精品九九九| 欧美91精品久久久久国产性生爱| 亚洲国产精品视频| 美女网站视频在线观看| 午夜国产欧美理论在线播放| 91午夜在线播放| 美女国产在线| 欧美日韩国产首页在线观看| 亚洲成人黄色av| 久久亚洲电影| 欧美中文娱乐网| 亚洲人体影院| 日韩理论片久久| 国产一级片毛片| 91小视频免费看| 人妻无码久久一区二区三区免费| 一区二区精彩视频| 久国内精品在线| 国产成人三级在线播放| 亚洲精品国产视频| 日韩女优在线视频| 影院欧美亚洲| 九色综合日本| 日韩成人av电影| 国产亚洲精品久久久久久777| 91午夜视频在线观看| 久久久国产午夜精品| 久草在在线视频| 日韩免费高清| 亚洲a在线观看| 日本在线视频中文有码| 精品国产一区二区在线观看| 激情视频在线播放| 成人18视频日本| 国产91在线视频观看| 国产精品羞羞答答在线观看| 国产精品久久久久久久久久东京 | 99精品桃花视频在线观看| 欧日韩免费视频| 久久99视频| 国产精品高清在线观看| 麻豆视频在线观看免费网站| 日韩天堂在线观看| 青青国产在线观看| 国产精品视频免费| 国产精品91av| 久久久久久婷| 青娱乐国产91| 在线日韩成人| 国产成人黄色av| 爆操欧美美女| 国产视频欧美视频| 一级α片免费看刺激高潮视频| 亚洲精品一二三四区| 喷水视频在线观看| 蜜臀国产一区二区三区在线播放| www.黄色网址.com| 精品大片一区二区| 99在线国产| 97精品国产99久久久久久免费| 久久成人综合视频| 青青草av免费在线观看| 欧美一区二区三区在线电影| 国产在线观看黄色| 樱花影视一区二区| 夜夜春很很躁夜夜躁| 99久久夜色精品国产网站| 日本国产一级片| 久久国产精品毛片| 日本老太婆做爰视频| 精品在线播放| 粉嫩av一区二区三区免费观看| 亚洲第一会所001| 欧美国产日韩xxxxx| 99免在线观看免费视频高清| 亚洲乱码国产乱码精品精天堂| 99热这里只有精| 在线日韩国产精品| 日本特黄特色aaa大片免费| 综合激情成人伊人| 日本性高潮视频| 91污片在线观看| 美女网站视频在线观看| 国产综合久久久久久久久久久久| 久久精品国产sm调教网站演员| 精品国产欧美日韩| 精品视频一区二区| silk一区二区三区精品视频| 国产日韩在线看| 人人鲁人人莫人人爱精品| 国精产品一区一区三区有限在线| 色呦呦在线观看视频| zzjj国产精品一区二区| yourporn在线观看视频| 日韩精品专区在线影院重磅| 亚洲一二区视频| 在线观看国产一区二区| 天堂在线免费观看视频| 午夜电影网一区| 久久亚洲成人av| 亚洲人成网站精品片在线观看| 国产精品久久久久久久av| 2022国产精品视频| 国产大尺度视频| 91视频国产观看| yy1111111| 99精品欧美一区二区三区小说| www.四虎精品| 成人在线视频一区二区| 波多野结衣三级视频| 国产成人综合亚洲网站| 韩国一区二区三区四区| 99国产欧美另类久久久精品| 久久久高清视频| 成人精品免费网站| 在线免费观看污视频| 99久久精品免费看国产免费软件| 精品人妻一区二区三区日产| youjizz久久| 性欧美成人播放77777| 白白色 亚洲乱淫| 91社区视频在线观看| 国产精品久久久久影视| 我要看一级黄色录像| 久久精品在线免费观看| 一二三四在线观看视频| 亚洲色图在线视频| 精品无码av在线| 欧美日韩国产综合视频在线观看中文| 欧美福利视频一区二区| 色菇凉天天综合网| 国产视频在线观看免费| 欧美mv和日韩mv国产网站| 国产成人三级在线观看视频| 亚洲国产精品成人一区二区| 黄色在线观看网| 精品国产一区二区三区四区在线观看 | 91在线视频精品| a看欧美黄色女同性恋| 国产女主播一区二区三区| 免费看成人吃奶视频在线| 亚洲春色在线视频| 欧美日韩国产探花| 久久久噜噜噜www成人网| 男男视频亚洲欧美| 成人三级做爰av| 久久亚洲精华国产精华液| 国产又粗又长又硬| 亚洲第一狼人社区| 五月婷婷视频在线| 欧美va在线播放| 国产亚洲依依| 欧美成人午夜激情在线| 午夜欧美激情| 亚洲jizzjizz日本少妇| 色婷婷狠狠五月综合天色拍| 91免费视频黄| 亚洲欧美网站| 日本在线视频播放| 国产午夜精品福利| 国产一国产二国产三| 欧美性做爰猛烈叫床潮| 女人18毛片一区二区三区| 亚洲欧洲中文天堂| 国产美女福利在线观看| 国产精品视频精品| 先锋影音国产精品| 国产精品自拍合集| 久久er精品视频| 在线免费观看a级片| 亚洲一区二区在线观看视频| 国产女主播喷水视频在线观看| 欧美va亚洲va香蕉在线| 拍真实国产伦偷精品| 欧美一级电影在线| 亚洲一区电影| 国产高清精品软男同| 麻豆精品网站| 久草视频福利在线| 1区2区3区精品视频| 久久久久亚洲视频| 亚洲性av网站| 亚洲欧美电影| 久久婷婷开心| 伊人久久大香线蕉av超碰演员| 欧美成年人视频在线观看| 久久久一区二区三区捆绑**| 永久久久久久久| 777久久久精品| 91精品专区| 国产精品高潮呻吟久久av无限| 哺乳挤奶一区二区三区免费看| 自拍偷拍99| 另类调教123区| 欧美激情亚洲色图| 福利一区福利二区微拍刺激| 性做久久久久久久| 久久久视频在线| 成人线上播放| 日韩视频在线视频| 成人午夜激情在线| 久久97人妻无码一区二区三区| 在线成人av网站| 超碰在线caoporen| 99国内精品久久久久久久软件| 无码一区二区三区视频| 久久久久久蜜桃一区二区| 欧美极品aⅴ影院| 中文字幕在线观看高清| 色悠悠久久久久| 成人在线啊v| 996这里只有精品| 国产盗摄女厕一区二区三区| 国产1区2区3区4区| 日韩欧美色综合| 精精国产xxxx视频在线野外| 国产手机精品在线| 一本一道久久综合狠狠老精东影业| 中文字幕一区二区人妻电影丶| 婷婷中文字幕一区三区| 亚洲风情第一页| 欧洲成人午夜免费大片| 精品国产乱码久久久久久1区2匹| 久久久久国产一区| 中文字幕亚洲综合久久菠萝蜜| 国产成人精品亚洲精品色欲| 久久视频在线免费观看| 国产精品chinese在线观看| 欧美深夜福利视频| 久久在线免费观看| 波多野结衣电影在线播放| 中文字幕在线日韩| 国产精品高清一区二区| 精品这里只有精品| 国产欧美一区二区三区网站| 国产精品美女一区| 久久久午夜视频| 欧美色图婷婷| 一级做a免费视频| 亚洲午夜久久久久久久久电影网 | 精品久久久久久久久久久院品网| 国产精品一区二区日韩| 午夜精品美女久久久久av福利 | 69久久久久久| 亚洲国产日韩一区二区| 日韩大胆人体| 成人美女av在线直播| 日韩亚洲在线| 国产精品久久免费观看| 亚洲成人av中文字幕| 欧美日韩尤物久久|