精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

小學數學題,大模型集體不及格!達摩院推出新基準VCBench

人工智能 新聞
來自達摩院推出的新基準VCBench——這是一個專為評估具備顯式視覺依賴性的多模態數學推理任務而設計的綜合基準。

大模型做數學題的能力很強,可是它們真的能夠理解基本的數學原理嗎?

拿小學生的數學題進行測試,人類平均得分為93.30%,而大模型的表現讓人意外:

閉源模型中Gemini2.0-Flash(49.77%)、Qwen-VL-Max(47.03%)、Claude-3.7-Sonnet(46.63%)的綜合表現最佳,但仍未突破50%準確率。

why?

因為大模型可能并不能真正理解基本數學元素和視覺概念。

現有的視覺數學基準測試主要集中在知識導向的評估上,容易受到大型語言模型中預先嵌入的知識的影響。

上述結論來自達摩院推出的新基準VCBench——這是一個專為評估具備顯式視覺依賴性的多模態數學推理任務而設計的綜合基準。

該基準主要面向小學 1-6 年級的數學問題,即并不涉及復雜的數學或幾何推理,但高度依賴于顯式的視覺依賴性的問題。

解決這種問題,需要模型識別和整合圖像中的視覺特征,并理解不同視覺元素之間的關系。

圖片

△論文標題:Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency

VCBench現已全面開源,代碼可見文末。

強調vision-centric而非knowledge-centric

與以往側重知識評估的基準不同,VCBench更強調視覺為核心的評測。

它主要針對無需專業知識、而是依賴于對數學圖像和概念的常見感知推理的問題。

這種方法與兒童的學習路徑相符——他們首先掌握的是視覺推理能力,隨后才逐步獲取領域特定的知識

圖片

聚焦多圖推理

VCBench聚焦于多圖(interleave)的問題輸入形式,每個問題平均包含3.9張圖像,顯著高于現有的多圖Benchmark。

這種設計要求模型能夠顯式地整合來自多幅圖像的視覺線索,并推理這些元素如何相互作用,這更符合現實世界中的情境——信息往往分散在多個視覺輸入之中

圖片

全面評估純視覺推理的多種能力

VCBench全面地評估了純視覺推理的多種能力,涵蓋了六大核心認知領域:時間與日歷空間與位置感幾何與形狀物體與運動推理與觀察以及組織與模式

此外,它還評估了五種不同的認知能力:時間推理幾何推理邏輯推理空間推理以及模式識別

圖片

綜合實驗分析結果

在VCBench的綜合實驗測試中,人類平均得分93.30%,顯著優于所有AI模型,表明當前任務對人類而言可解,但對AI系統仍具挑戰性;

閉源模型中Gemini2.0-Flash(49.77%)、Qwen-VL-Max(47.03%)、Claude-3.7-Sonnet(46.63%)表現最佳,但仍未突破50%準確率;

開源模型表現整體趨勢低于閉源模型,且表現參差不齊,可能與架構差異、多模態整合程度或訓練數據質量有關;

大模型在推理、找規律一類問題上表現較好,但在空間幾何表現很差,說明在由小學數學題構建的評測基準中,大模型的邏輯推理能力是過剩的,但是視覺和幾何感知則嚴重不足。

圖片

單圖實驗對照結果

VCBench的一個核心目標是評估模型多圖像依賴的推理能力,但為了驗證模型是否真正具備跨圖像組合推理(compositional reasoning)而非依賴單圖優化,需引入單圖實驗作為對照。

如下圖所示,將文字和圖片整合成一張大圖。

圖片

單圖和多圖結果對比表明,除專為多圖設計的模型外,大多數模型在單圖場景下表現顯著優于多圖(平均提升42.3%)。

例如,Emu2-Chat單圖性能飆升281.5%,Qwen-VL-Max提升21.3%,說明常規模型更擅長從孤立圖像提取信息,但缺乏跨圖像關聯和時序推理等關鍵能力。

圖片

思維鏈(CoT)對模型性能的影響分析

VCBench團隊在三個閉源模型上對比了加入CoT以后對模型性能的影響,得到如下結論:

1、在需要多步邏輯推理的任務中(如模式識別、幾何推理),CoT能帶來顯著性能提升(如Qwen-VL-Max在reasoning任務上提升40%),說明通過顯式分解推理步驟,幫助模型更好地整合視覺和語言信息,減少邏輯跳躍錯誤。

2、效果具有任務依賴性:對感知型任務(如日歷讀取、方向判斷)效果有限甚至產生干擾。這類任務更依賴直接視覺感知而非分步推理,CoT的中間步驟反而可能降低效率。

圖片

錯誤類型分布分析

錯誤類型可分為以下5種:

  • 視覺感知錯誤:模型對視覺內容的誤讀或未能準確感知;
  • 計算錯誤:算術計算過程中的失誤;
  • 上下文誤讀:模型錯誤解讀文本內容;
  • 邏輯錯誤:推理過程中的出錯;
  • 答案整合錯誤:未能直接回答問題或提供多個相互沖突的答案。

VCBench團隊對四個頂尖模型的所有錯題進行了手動錯誤分類,從而能夠精準識別每個模型在不同錯誤類別中的相對弱點。

圖片

通過分析,得到了如下結論:

1、視覺感知錯誤在所有模型中占比最高,是當前多模態模型最薄弱的環節。所有模型的視覺感知錯誤占比均超過50%,其中Gemini2-Flash高達62%。這表明基礎視覺理解能力仍是當前多模態模型的主要瓶頸。

2、計算錯誤(4-7%)和上下文誤解錯誤率普遍較低(3-6%),其中Gemini2-Flash(3%)和Claude(4%)表現最佳,而QVQ(6%)略高,可能反映其存在過度推理傾向。

3、邏輯推理能力在不同模型之間存在顯著差異。Claude的邏輯錯誤率最高(33%),這反映了其推理穩定性在本基準中欠佳。

4、答案整合方面,GPT-4o的答案整合錯誤率最高(23%),可能因其探索性推理產生多個答案而犧牲了響應規范性。

論文鏈接:http://arxiv.org/abs/2504.18589數據倉庫:https://huggingface.co/datasets/cloudcatcher2/VCBench代碼:https://github.com/alibaba-damo-academy/VCBench網頁:https://alibaba-damo-academy.github.io/VCBench/

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-07-05 09:57:11

2025-07-10 08:52:00

2018-06-07 10:34:22

開源DFSMN語音識別

2025-05-30 09:17:00

2024-07-16 13:24:38

2022-04-12 14:36:58

達摩院訓練模型

2025-09-24 13:04:01

2011-12-14 20:23:31

HTC

2010-04-20 21:48:48

2023-06-06 14:16:06

ChatGPTAI

2025-03-11 13:49:20

2025-07-08 09:07:00

2023-06-15 13:45:41

模型AI

2025-02-08 14:10:00

模型系統AI

2017-04-11 09:33:12

JS面試題應聘者

2024-11-12 09:14:52

2025-04-18 09:13:00

2021-01-13 12:39:46

科技趨勢電子器件量子霸權

2025-10-20 09:12:00

2024-08-07 14:40:00

AI數據
點贊
收藏

51CTO技術棧公眾號

99精品在免费线中文字幕网站一区 | 黑人精品视频| 丰满岳乱妇一区二区三区| 欧美激情一级精品国产| 屁屁影院国产第一页| 欧洲一区二区三区精品| 国产精品美女www爽爽爽| 91嫩草免费看| 黄瓜视频在线免费观看| 久久综合99| 亚洲国产高潮在线观看| 亚洲免费看av| 青草青在线视频| 久久久亚洲综合| 国产成人精品网站| 免费在线一区二区三区| 一道本一区二区三区| 欧美丰满美乳xxx高潮www| 91网站在线观看免费| 久久久久久久久亚洲精品| 蜜桃免费网站一区二区三区| 久久久久久欧美| 色欲AV无码精品一区二区久久 | 亚洲一区中文字幕在线观看| 久久久国产精品成人免费| 久久中文字幕av| 亚洲国产小视频| 中文字幕在线视频精品| 日韩精品美女| 亚洲一二三专区| 一区二区三区电影| 日本中文字幕电影在线观看 | 95视频在线观看| 色综合一区二区日本韩国亚洲 | 在线电影av不卡网址| 秘密基地免费观看完整版中文 | 欧美理论片在线观看| 手机免费看av| 亚洲乱码国产乱码精品| 色影视在线观看| 国产一区二区三区免费在线观看| 国产99久久精品一区二区永久免费 | 18+视频在线观看| 久久久一区二区| 精品一区二区三区视频日产| 亚洲不卡免费视频| 国内精品写真在线观看| 国产精品亚洲第一区| 天码人妻一区二区三区在线看| 国产精品第十页| 久久精品国产电影| 情侣偷拍对白清晰饥渴难耐| 国产成人高清| 精品无人国产偷自产在线| 在线播放第一页| 欧美高清hd| 欧美一区二区三区日韩视频| 97在线观看免费高清| 国产精品igao激情视频| 日本中文在线观看| 国产精品国产成人国产三级| 亚洲精品免费在线看| 高清美女视频一区| 国产亚洲福利社区一区| 日韩理论片在线观看| 久草在现在线| 久久九九久精品国产免费直播| 蜜桃传媒视频第一区入口在线看| 天天操天天干天天| 99精品热视频| 欧美区高清在线| 欧美成人综合在线| 日本一二三不卡| 亚洲成色最大综合在线| 五月婷婷在线观看| 综合网在线视频| 特级黄色录像片| 3d玉蒲团在线观看| 亚洲国产你懂的| 九色在线视频观看| 在线观看v片| 91精品办公室少妇高潮对白| 天天爽人人爽夜夜爽| 日本精品久久| 日韩一区二区三区电影在线观看 | 可以免费看不卡的av网站| 97精品视频在线观看| 天堂中文在线网| 免费观看在线色综合| 成人激情在线播放| 人成网站在线观看| 国产欧美日韩视频一区二区| 91制片厂免费观看| 美女网站视频在线| 色综合久久久久| 狠狠干狠狠操视频| 粉嫩久久久久久久极品| 亚洲男人7777| 亚洲精品一区二区三区在线播放| 欧美破处大片在线视频| 91av中文字幕| 一道本在线视频| 粉嫩蜜臀av国产精品网站| 免费久久久一本精品久久区| 一级毛片视频在线| 亚洲va欧美va天堂v国产综合| 成人免费观看毛片| 国产va免费精品观看精品| 亚洲激情在线观看| 91免费公开视频| 在线亚洲国产精品网站| 国产精品久久av| www天堂在线| 国产亚洲精久久久久久| 久久久天堂国产精品| 裤袜国产欧美精品一区| 91精品国产欧美一区二区18| 一区二区不卡免费视频| 久久精品青草| 国产精品久久久久999| 性生交生活影碟片| 国产精品美日韩| 日韩日韩日韩日韩日韩| 色综合一区二区日本韩国亚洲 | 国产激情综合五月久久| 精品国产黄色片| 国产清纯白嫩初高生在线观看91| 日韩一级免费看| 欧美综合社区国产| 亚洲视频在线免费看| 国产一级片网址| 精品在线播放午夜| 日韩精彩视频| 亚洲少妇视频| 亚洲国产日韩欧美在线图片| 强行糟蹋人妻hd中文| 日本不卡一区二区| 久久草视频在线看| 超碰在线99| 欧美一级生活片| 五月天色婷婷丁香| 日本午夜精品一区二区三区电影| 国语精品中文字幕| 污视频在线看网站| 欧美一区二区黄色| 日本黄色片免费观看| 麻豆成人91精品二区三区| 日本视频一区二区在线观看| а√天堂8资源中文在线| 欧美成人国产一区二区| 男人av资源站| 激情综合色播激情啊| 日韩电影免费观看在| 国产伦精品一区二区三区视频金莲| 精品国产髙清在线看国产毛片| 欧美日韩在线国产| 国产一区二区三区不卡在线观看| 亚洲美女网站18| 欧美不卡高清一区二区三区| 亚洲人成在线一二| 亚洲中文无码av在线| 国产免费成人在线视频| 一级特黄性色生活片| 国内精品伊人久久久| 国产精品成人一区| 亚洲天天影视| 91精品国产高清一区二区三区蜜臀| 亚洲精品一区二区三区在线播放| 蜜桃精品视频在线观看| 在线精品亚洲一区二区| 国产一区影院| 欧美成人午夜激情在线| 国产福利小视频| 亚洲欧美另类小说| 秋霞午夜鲁丝一区二区| 国语对白精品一区二区| 精品产品国产在线不卡| 裤袜国产欧美精品一区| 中文字幕日韩精品有码视频| 国产深喉视频一区二区| 夜夜嗨av一区二区三区| 亚洲综合自拍网| 丝袜国产日韩另类美女| 伊人久久大香线蕉综合75| 久久一级大片| 97热在线精品视频在线观看| 九色在线观看视频| 欧美三级视频在线| 国产在线视频二区| 久久久国产一区二区三区四区小说 | 午夜在线电影亚洲一区| 熟女俱乐部一区二区| 久久精品国产999大香线蕉| 日本老太婆做爰视频| 老汉色老汉首页av亚洲| 国产精品美女主播在线观看纯欲| 黄色的网站在线观看| 亚洲第一页在线| 午夜一级黄色片| 亚洲自拍偷拍av| a资源在线观看| 懂色av一区二区三区免费观看| 99精品免费在线观看| 国产高清一区二区| 久久99精品久久久久久秒播放器| 国产人妖一区| 91精品国产免费久久久久久 | 欧美日韩午夜电影网| 97超级碰碰碰久久久| 日本高清视频在线播放| 亚洲高清久久网| 亚洲午夜精品久久久| 精品美女永久免费视频| 国产在线观看免费视频软件| 91色porny| 91视频福利网| 免费观看30秒视频久久| 777777av| 亚洲色图欧美| 日本精品一区| 欧美91在线| 97在线电影| 国产香蕉久久| 日韩美女在线观看| h片视频在线观看| 久久精品成人欧美大片古装| 韩国三级av在线免费观看| 精品国产一区久久| 国产男女猛烈无遮挡| 欧美三级中文字幕在线观看| 久久理论片午夜琪琪电影网| 亚洲第一色视频| 9191久久久久久久久久久| www.国产毛片| 精品久久久久久久久久久久久 | 日韩国产专区| 久久久婷婷一区二区三区不卡| 玖玖玖视频精品| 91精品久久久久久久久久久久久久 | 久久久久久久伊人| 综合在线观看色| 2017亚洲天堂| 国产日韩精品一区| 成人性生活免费看| 国产成人精品免费在线| 日本网站在线看| 精品影院一区二区久久久| 99热手机在线| 日韩高清一区二区| 欧美日韩第二页| 久久高清一区| 亚洲精品无码久久久久久| 亚洲神马久久| 日本在线xxx| 亚洲另类黄色| 成人黄色av片| 99精品福利视频| 久激情内射婷内射蜜桃| 国产欧美日韩综合一区在线播放 | 欧洲美女7788成人免费视频| 国产又色又爽又黄刺激在线视频| 不卡av在线网站| 超碰在线无需免费| 久久99久久99精品免观看粉嫩 | 日本一区二区在线不卡| 鲁丝一区二区三区| 国产精品美女久久久久久久久久久 | 91网免费观看| 白嫩白嫩国产精品| 快播日韩欧美| 国产一区二区观看| 亚洲欧美在线网| 91av精品| 精品国产一区二区三区无码| 国产精品五区| 黄色av免费在线播放| 美女网站色91| 免费不卡av网站| 成人黄色av电影| asian性开放少妇pics| 久久精品免视看| 天天色天天综合| 亚洲国产欧美在线| 无码人妻丰满熟妇区bbbbxxxx| 欧美视频中文一区二区三区在线观看| 亚洲自拍偷拍另类| 欧美刺激脚交jootjob| 视频国产在线观看| 日韩在线观看网站| 污污的网站在线看| 青青草成人在线| 高清精品久久| 久中文字幕一区| 91精品亚洲| 亚洲色成人一区二区三区小说| 老司机一区二区| 制服丝袜第一页在线观看| 欧美激情在线看| 青青草手机在线观看| 色噜噜久久综合| 99久久精品日本一区二区免费| 精品小视频在线| h片在线播放| 日产精品99久久久久久| 亚洲国产高清在线观看| 免费电影一区| 欧美色图首页| 最新天堂中文在线| 91在线视频播放地址| 少妇视频一区二区| 黑人精品xxx一区| 国产丰满果冻videossex| 亚洲免费av网址| gogo在线高清视频| 国产精品久久久久久网站| 伊人久久噜噜噜躁狠狠躁| 日本在线一区| 亚洲精品乱码久久久久久蜜桃麻豆| 污版视频在线观看| 久久婷婷色综合| 免费三片在线播放| 在线播放日韩导航| 国产鲁鲁视频在线观看免费| 国内揄拍国内精品| 99国内精品久久久久| 五月天久久综合网| 亚洲一区久久| 久久免费精品国产| 亚洲精品乱码久久久久久黑人 | 日韩av在线看免费观看| 亚洲一二三区不卡| 国产三级视频在线播放| 日韩在线视频观看| 日本.亚洲电影| 欧洲精品亚洲精品| 国产麻豆综合| 噜噜噜在线视频| 亚洲一二三级电影| 丰满岳乱妇国产精品一区| 久久精品电影网站| 欧洲美女精品免费观看视频| 神马影院一区二区| 久久一区国产| 亚洲最大成人网站| 色婷婷综合激情| 欧美孕妇孕交| 日本精品久久久久影院| 小嫩嫩12欧美| 久久久久久久久久久视频| 不卡区在线中文字幕| 日韩大片免费在线观看| 亚洲成人黄色在线观看| 91美女精品| 久久久综合香蕉尹人综合网| 国产欧美另类| xxx在线播放| 欧美性xxxxx极品少妇| 国产精品久久一区二区三区不卡| 国产97在线观看| av一区二区在线播放| 少妇一级淫免费播放| 国产精品白丝在线| 国产99久久九九精品无码免费| 美日韩精品免费视频| xvideos.蜜桃一区二区| 精品无码国模私拍视频| 久久综合九色综合97_久久久| 中文字幕亚洲乱码熟女1区2区| 亚洲片在线资源| 久久人体av| 91成人在线视频观看| 成人性生交大合| 亚洲天堂一区在线观看| 亚洲片国产一区一级在线观看| 国产亚洲精彩久久| 粉嫩av一区二区三区天美传媒| 成人午夜在线免费| 国产一级免费视频| 中文字幕在线成人| 51精品国产| 日韩一级在线免费观看| 亚洲欧美在线aaa| 亚洲精品一区二区口爆| 日本电影亚洲天堂| 欧美超碰在线| 亚洲美女精品视频| 一本色道久久综合狠狠躁的推荐| 日本美女在线中文版| 动漫美女被爆操久久久| 久久精品91| 欧美日韩精品亚洲精品| 亚洲精品美女网站| av一级久久| 国产免费一区二区三区视频| 国产精品久久久久久久久图文区| www.久久久久久| 国产精品18久久久久久麻辣| 亚洲女同一区| 三上悠亚影音先锋| 欧美大肚乱孕交hd孕妇|