精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

真相了!大模型解數學題和人類真不一樣:死記硬背、知識欠缺明顯,GPT-4o表現最佳

人工智能 新聞
在本文中,我們提出了 WE-MATH,一個用于細粒度評測 LMMs 在視覺數學推理任務中作答機制的綜合基準。

本文作者來自北京郵電大學、騰訊微信、華中科技大學、北京理工大學。作者列表:喬潤祺,譚秋納,董冠霆,伍敏慧,孫沖,宋曉帥,公卻卓瑪,雷尚霖,衛喆,張淼萱,喬潤楓,張一凡,縱曉,徐一達,刁沐熙,包志敏,李琛,張洪剛。其中,共同第一作者喬潤祺是北京郵電大學博士生,譚秋納是北京郵電大學碩士生,通訊作者是北京郵電大學張洪剛副教授,該文章為喬潤祺在微信實習期間完成。

隨著人工智能技術的快速發展,能夠處理多種模態信息的多模態大模型(LMMs)逐漸成為研究的熱點。通過整合不同模態的信息,LMMs 展現出一定的推理和理解能力,在諸如視覺問答、圖像生成、跨模態檢索等任務中表現出色。這種多模態能力使得 LMMs 在各類復雜場景中的應用潛力巨大,而為了嚴謹科學地檢驗 AI 是否具備較強的推理能力,數學問答已成為衡量模型推理能力的重要基準。

回顧 AI 的發展歷程,我們發現人類的認知和思考問題的方式對 AI 的發展產生了深遠的影響。諸如神經網絡、注意力機制等突破均與人類的思維模式息息相關。想象一下,人類在解答一個數學問題時,首先需要熟知題目所考察的知識點,而后利用相關知識進行逐步推理從而得出答案。但模型在作答時,其推理過程是否與人類一致呢?

聚焦于數學問題,我們發現模型可以回答出復雜問題,但在一些簡單問題面前卻捉襟見肘。為探究這一現象的原因,受人類解題思維模式的啟發,我們首先對先掌握知識點,再運用其進行邏輯推理的解題過程建模如下:

圖片

其中 (X, Y) 和 (x_i, y_i) 分別表示數學問題和每個子問題中的問題與答案,P_reason 代表 LMMs 的綜合運用能力 (知識泛化)?;诖?,We-Math 首先基于 67 個原子知識點構建了一個多層級樹狀知識體系,緊接著以原子知識及推理答案為依據,通過將多知識點的復雜問題拆解為多個原子知識點對應的子問題來探究模型的作答機制。

圖片

  • 題目:WE-MATH: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?
  • 論文:https://arxiv.org/pdf/2407.01284
  • 主頁:https://we-math.github.io/
  • 代碼:https://github.com/We-Math/We-Math
  • 數據集:https://huggingface.co/datasets/We-Math/We-Math

目前 We-Math 在當日的 HuggingFace Daily Paper 中排名第一,并在推特上的瀏覽量達到 10K+!

圖片

We-Math Benchmark

1. 數據構成

We-Math 測評數據集共包含 6.5k 個多模態小學數學問題和一個多層級知識架構,每一個數學問題均有對應的知識點(1-3 個)。其中所有問題的知識點均被 5 層 99 個節點(最后一層包含 67 個知識點)的知識架構所涵蓋。并且如下圖所示,為了緩解模型在解決問題過程中固有的問題,我們參考教材與維基百科,啟發式的引入了 67 個知識點的描述,從而為 LMMs 的推理過程提供必要的知識提示。

圖片

圖片

2. 題目拆解

為了合理的評估模型的作答機制,我們嚴格以人類作答的標準答案為依據,按照復雜問題所包含的知識點,將其拆解成了 n 個子問題,其中 n 表示復雜問題包含的知識點數量。

如下圖所示,對于一道復雜問題:Mary 從一個圓形花壇的最北端點沿花壇邊緣走到最東端點,走過的距離是 50.24 米,求解圓形花壇的面積。在解題過程中,首先需要根據 “東南西北方向” 知識點,通過 “最北” 和 “最東” 兩個方向的條件,求得 Mary 走過路徑所對應的圓心角大小(“最北” 和 “最東” 的夾角為 90 度)。接著,根據 “圓的周長” 知識點,通過圓心角的大小為 90 度和 Mary 走過的路徑長度的條件,計算出圓形花壇的周長,并求得圓形花壇的半徑。最后,根據 “圓的面積” 知識點,通過求得的半徑的條件,計算出圓形花壇的面積,至此完成題目的求解。

分析上述解題過程,為了探究模型的答題機制以及模型的細粒度推理表現,可以將原題按照其對應的知識點拆解成三個子問題,具體而言,第一問:Mary 從一個圓形花壇的最北端點沿花壇邊緣走到最東端點,求她走過路徑的圓弧所對應的圓心角的度數;第二問:圓形花壇中,90 度圓心角所對應的圓弧弧長為 59.24m,求解圓形花壇的半徑;第三問:求半徑為 32m 的圓形花壇的面積。

圖片

3. 度量標準

在此基礎上,如下圖所示,我們引入一種新的四維度量標準,即知識掌握不足 (IK)、泛化能力不足 (IG)、完全掌握 (CM) 和死記硬背 (RM)。

  • 知識掌握不足 (IK): 模型無法作答出復雜問題,并在子問題中出現錯誤,我們推測模型無法作答出復雜問題的原因是因為對知識點掌握不足所導致的。
  • 泛化能力不足 (IG): 模型無法作答出復雜問題,但是所有的子問題中均回答正確,我們推測模型無法作答出復雜問題的原因是因為缺少綜合運用能力(泛化能力)。
  • 完全掌握 (CM): 模型可以作答出復雜問題,并且可以作答出所有的子問題,這種現象是合理且被期望得到的。
  • 死記硬背 (RM): 模型可以作答出復雜問題,但在子問題中出現錯誤,這與人類的邏輯思維相悖,如果一個模型可以解決復雜的多步問題,但無法作答出解答過程中所需的單步問題,我們認為這種情況是不合理的,考慮模型存在機械記憶的情況。

圖片

其中 IK、IG、CM 之間存在 IK<IG<CM 的層次關系,即模型需要先掌握知識,才可以討論綜合運用的能力,而 RM 我們認為是一種不合理的現象。此外,考慮到模型的不穩定性,當前判定結果是否屬于 RM 的標準較為嚴格。因此,我們提出了一種更靈活的寬松標準。如上圖所示,在包含兩個知識點的問題中,TFT 和 FTT 情況根據寬松標準(Loose Metric)被視為 CM(而非 RM)。我們在文章的附錄中同樣討論了四維度指標在三步問題中的情況。因此,結合上述情況我們最終提出了一個綜合打分度量標準,以此評估 LMM 推理過程中的固有問題。

實驗與結論

We-Math 目前在 17 個大模型中完成了評測,共包含 4 個閉源模型與 13 個開源模型。其中表 1 與圖 6 展示了 LMMs 在不同知識點數量下的結果與模型在第二層級知識點下的表現;表 2 與圖 7、圖 8、圖 9 展示了 LMMs 在四維指標下的結果以及在嚴格和寬松標準下的綜合打分結果;圖 10 展示了 KCA 策略對模型在 IK 問題中的緩解結果。

LMMs 在不同知識點數量下的表現及其在第二層級知識點下的表現

圖片

  • 模型作答情況與題目所包含的知識點數量呈現較明顯的負相關關系,即題目包含的知識點越多,模型作答情況越不理想。我們也提議可以通過題目包含的知識點數量對題目的難易度進行建模。
  • 模型在與計算相關的知識點下表現較好,在細粒度視覺問題上表現欠佳。也進一步表明 LMMs 在應用公式上較為擅長,但在理解和綜合應用知識方面仍有局限。
  • GPT-4o 表現最佳,在包含不同知識點數量的題目中均保持領先,并在不同的知識點下基本保持領先。
  • LMMs 展現了一定的參數壓縮潛力。在不同的 LMMs 中,LLaVA-NeXT-110B 的表現最接近 GPT-4。而令人驚喜的是,盡管參數規模較小,InternVL-Chat-V1.5, GLM-4V-9B, InternLM-XC2 等模型的表現也展現出了較好的表現。

LMMs 在四維指標下的表現及其在嚴格和寬松標準下的綜合評分結果

圖片


圖片

  • 多數模型存在 “知識掌握不足” 和 “死記硬背” 的問題,尤其是在較小的模型中更加明顯。并且,“知識掌握不足” 仍是大多數模型的主要問題。
  • GPT-4o 在 “死記硬背” 的衡量維度上大幅領先于其他模型,進一步說明 GPT-4o 更貼近于人類的解題方式,其所呈現的結果更加可靠,意味著模型真正的學到了知識,而不是 “死記硬背”。
  • GPT-4o 在 “知識掌握不足” 這個衡量維度上大幅領先于其他模型,已經逐漸邁向下一階段,需要進一步提升 “知識泛化能力”。

LMMs 在 KCA 策略下的表現

圖片

  • 模型在 KCA 策略下整體表現有所提升。如上圖所示,不同參數規模的 LMMs 在引入 KCA 策略后,在嚴格和寬松指標上均表現出一致的性能提升。
  • KCA 策略顯著緩解了 IK 問題,但對 IG 問題的改善并不明顯。這與人類直覺一致,因為知識描述主要解決的是推理知識的缺口。然而,要解決 IG 問題,需要全面提升 LMMs 的知識泛化能力,這也為未來研究指明了方向。

總結

在本文中,我們提出了 WE-MATH,一個用于細粒度評測 LMMs 在視覺數學推理任務中作答機制的綜合基準。WE-MATH 共包含 6.5k 個視覺數學問題,涵蓋 5 層 67 個知識點的多級知識架構。我們開創性地根據題目所需的知識點將其拆解為多個子問題,并引入了一種新的四維度指標用于細粒度的推理評估。通過 WE-MATH,我們對現有的 LMMs 在視覺數學推理中的表現進行了全面評估,并揭示了模型作答情況與題目所包含的知識點數量呈現較明顯的負相關關系。

此外,我們發現多數模型存在死記硬背的問題 (RM),并且知識掌握不足(IK)是 LMMs 最大的缺陷。然而,GPT-4o 的主要挑戰已從 IK 逐漸轉向 IG,這表明它是第一個邁向下一個階段的模型。最后,我們對 KCA 策略和錯誤案例的分析進一步啟發性地引導現有的 LMMs 向人類般的視覺數學推理發展。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-03-20 08:19:23

GPT-4OpenAI

2025-06-18 08:51:00

數據生成AI模型

2020-07-02 09:47:40

人工智能技術教育

2025-02-14 10:23:00

LLM模型谷歌

2012-12-20 10:17:32

IT運維

2012-03-07 17:24:10

戴爾咨詢

2023-08-14 08:15:44

谷歌模型

2011-03-14 16:51:24

2021-12-23 15:11:46

Web 3.0元宇宙Metaverse

2025-08-07 14:05:40

OpenAI大模型開源

2025-06-10 09:07:00

2025-09-02 12:06:32

2025-02-17 09:35:00

ChatGPT模型AI

2024-07-02 13:30:50

2010-01-04 10:19:37

vSphere

2009-10-27 08:55:08

Windows 7改變

2016-05-09 18:40:26

VIP客戶緝拿

2024-11-04 08:40:00

2025-09-03 14:02:08

AI大模型訓練

2015-10-19 12:33:01

華三/新IT
點贊
收藏

51CTO技術棧公眾號

日韩成人一区二区| 台湾佬综合网| 亚洲一区在线观看视频| 狠狠爱一区二区三区| 亚洲精品男人的天堂| 国产欧美日韩免费观看| 欧美久久久久久久久中文字幕| 致1999电视剧免费观看策驰影院| www.日韩高清| 久久九九国产| 久久91亚洲精品中文字幕奶水| 星空大象在线观看免费播放| 99只有精品| 亚洲图片欧美视频| 亚洲国产精品久久久久久女王| 99产精品成人啪免费网站| 国产日韩欧美高清免费| 日韩亚洲欧美中文高清在线| 你懂的在线观看网站| 成人午夜在线| 精品久久久久人成| 日本不卡一区二区三区四区| 日韩在线免费看| 精品亚洲porn| 日本sm极度另类视频| 欧美日韩综合一区二区| av中文字幕一区二区| 亚洲精品一区二区三区精华液 | 在线精品视频一区二区三四| eeuss一区二区三区| 探花国产精品一区二区| 国内自拍一区| 久久夜色精品国产欧美乱| 女~淫辱の触手3d动漫| 久久视频免费| 欧美日韩精品免费| 亚洲爆乳无码专区| 99热99re6国产在线播放| 亚洲欧洲性图库| 日韩理论片在线观看| 天天综合网天天综合| 国产成人啪免费观看软件| 国产免费亚洲高清| 精品一区二区无码| 午夜亚洲性色视频| 26uuu亚洲国产精品| 国产一级一片免费播放| 欧美在线看片| 蜜臀久久99精品久久久久久宅男 | 2019日本中文字幕| 日本特黄特色aaa大片免费| 欧美在线三级| 欧美成人激情图片网| 男人在线观看视频| 婷婷久久一区| 久久久成人精品| 国产在线观看免费视频软件| 青青一区二区三区| 一区二区三区国产视频| 国产高清一区二区三区四区| 欧美日本成人| 社区色欧美激情 | 91社区视频在线观看| 久久裸体网站| 美女少妇精品视频| 国产亚洲精品成人| 亚洲一区欧美激情| 日韩美女视频免费看| 美女黄页在线观看| 狠狠久久亚洲欧美| 亚洲在线免费看| 国精产品一品二品国精品69xx| 成人精品免费看| 韩日午夜在线资源一区二区| 欧美新色视频| 亚洲国产精品精华液2区45| 在线观看欧美一区| 性国产高清在线观看| 亚洲一区二区不卡免费| 女性隐私黄www网站视频| 影音成人av| 69堂亚洲精品首页| 91人妻一区二区| 亚州精品视频| 日韩一区二区三区在线播放| 九九热国产精品视频| 国产一区91| 国产精品亚洲第一区| jizz中国女人| 26uuuu精品一区二区| 亚洲va久久久噜噜噜久久狠狠 | ㊣最新国产の精品bt伙计久久| 樱空桃在线播放| 蜜桃视频在线观看播放| 欧美视频一区在线| 野战少妇38p| 欧美丝袜一区| 久久久久久久久久久免费| 国产真人无遮挡作爱免费视频| 精品一区二区三区影院在线午夜| 国产视频一区二区不卡| av中文字幕一区二区三区| 亚洲精品网站在线观看| 毛片一区二区三区四区| 久久九九精品视频| 亚洲人午夜精品免费| 国产十六处破外女视频| 日日骚欧美日韩| 操一操视频一区| 3p在线观看| 欧美日韩在线影院| 黑人无套内谢中国美女| 波多野结衣的一区二区三区 | 日韩av电影资源网| 亚洲福利视频专区| 欧美成人777| 日本欧美一区二区在线观看| 国产视色精品亚洲一区二区| 黄色网页在线免费看| 色国产精品一区在线观看| 亚洲欧洲国产视频| 国产高清一区二区| 国产精品6699| 亚洲色图 校园春色| 一区二区三区国产| 天天操天天干天天做| 国产精品片aa在线观看| 午夜精品美女自拍福到在线| www.黄色小说.com| 亚洲丝袜美腿综合| 久热精品在线播放| 精品国产乱码久久久久久1区2匹| 91精品国产色综合久久不卡98| 国产草草影院ccyycom| 中文文精品字幕一区二区| 欧美一级黄色影院| 亚洲香蕉视频| 欧美一区二区三区艳史| 无码精品人妻一区二区三区影院 | 又大又硬又爽免费视频| 成人激情久久| 久久精品视频亚洲| 亚洲一级片免费看| 欧美国产禁国产网站cc| 黑人粗进入欧美aaaaa| 亚州精品视频| 国产精品91久久久久久| 国产在线电影| 欧美丝袜丝nylons| jizz日本在线播放| 老司机午夜精品| 亚洲一区二区精品在线观看| 黄色成人小视频| 色婷婷久久av| 国产美女三级无套内谢| 亚洲理论在线观看| 中文字幕久久久久久久| 亚洲无线视频| 极品校花啪啪激情久久| 麻豆成全视频免费观看在线看| 亚洲国产成人久久| 极品国产91在线网站| 欧美激情一区在线观看| 91制片厂毛片| 亚洲无中文字幕| 97超级碰碰| 日韩电影免费看| 亚洲午夜激情免费视频| 亚洲视频久久久| 亚洲伦理在线精品| 中国xxxx性xxxx产国| 久久成人在线| 亚洲欧洲一二三| 国产精品视频一区二区三区| 欧美精品电影免费在线观看| 性感美女福利视频| 欧美在线短视频| 91 在线视频| 成人精品免费看| 成人免费视频久久| 一二三区不卡| 久久久久一区二区三区| 粉嫩av一区二区三区四区五区 | 一区二区三区的久久的视频| 精品国产一区二| 992tv成人免费影院| 成人影院免费观看| 日韩精品最新网址| 亚洲精品男人的天堂| 自拍偷在线精品自拍偷无码专区| 久久久久久婷婷| 蜜桃视频一区二区三区| 国产美女主播在线| sdde在线播放一区二区| 97在线资源站| 四虎成人在线| 欧美激情乱人伦| 二区在线视频| 亚洲精品一区二区三区香蕉| 在线观看亚洲国产| 亚洲成人午夜电影| 亚洲色图100p| 91小视频免费看| 97超碰人人看| 日本在线不卡视频| 婷婷五月综合缴情在线视频| 久久精品国产www456c0m| 久久久一本精品99久久精品66| 9999精品视频| 青青草成人在线| 成全电影大全在线观看| 久久九九国产精品怡红院| 蜜桃视频在线免费| 亚洲第一网站男人都懂| 一级特黄特色的免费大片视频| 精品久久久免费| 久久激情免费视频| 亚洲色图另类专区| 国产精品综合激情| 久久精品欧美日韩| 国产精品无码毛片| 福利视频网站一区二区三区| 中文字幕在线视频精品| 日韩激情av在线| 黑鬼大战白妞高潮喷白浆| 伊人久久综合| 国产小视频免费| 伊人久久大香线蕉综合四虎小说| 色999日韩自偷自拍美女| 少妇高潮一区二区三区| 国产精品国色综合久久| 日韩免费成人| 91美女片黄在线观看游戏| 成人免费一区| 国产91精品在线播放| 黄色18在线观看| 久久久综合免费视频| 成人免费高清| 俺去亚洲欧洲欧美日韩| 日韩在线资源| 日韩在线视频国产| 瑟瑟视频在线| 久久精品2019中文字幕| 快射视频在线观看| 色偷偷噜噜噜亚洲男人的天堂| 在线免费黄色| 中文字幕亚洲欧美| 在线播放麻豆| www.欧美精品| v片在线观看| 九九精品在线观看| a级网站在线播放| 久久99精品国产99久久6尤物| www红色一片_亚洲成a人片在线观看_| 久久久www成人免费精品| www免费在线观看| 欧美大片在线看免费观看| 福利成人导航| 欧美中文在线观看国产| 欧美片第1页| 国产精品视频导航| 在线免费成人| 97视频资源在线观看| silk一区二区三区精品视频| 国产精品一码二码三码在线| 欧美亚洲色图校园春色| 日本成人三级电影网站| 日韩欧美中文| 人妻激情另类乱人伦人妻| 亚洲精一区二区三区| 日韩中文字幕三区| 青青草国产精品亚洲专区无| 红桃视频 国产| 成人午夜激情视频| 国产 中文 字幕 日韩 在线| 国产视频一区在线播放| 无码人妻精品中文字幕| 亚洲国产一二三| 日韩电影在线观看一区二区| 欧美日本韩国一区二区三区视频| 国产同性人妖ts口直男| 日韩高清欧美高清| 69久久久久| 久久久久国产精品免费| 色婷婷综合久久久中字幕精品久久| 91精品美女在线| 国产精品视屏| 亚洲精品中字| 亚洲国产激情| 亚欧美在线观看| 成人黄色网址在线观看| 黄色片在线观看免费| 亚洲一区在线观看网站| 国产免费a视频| 欧美一区二区久久久| 欧美视频免费一区二区三区| 久久精品男人天堂| 欧美大片免费| 国产精品毛片va一区二区三区| 欧美老女人另类| 日本福利视频一区| 久久精品99国产精品日本| 国产chinese中国hdxxxx| 国产精品日韩成人| 亚洲国产成人精品激情在线| 91麻豆精品国产无毒不卡在线观看 | 中文字幕在线三区| 国产成人极品视频| 给我免费播放日韩视频| 一区二区三区在线观看www| 亚洲一区网站| 国产精品果冻传媒| 国产精品高潮久久久久无| 在线看成人av| 555www色欧美视频| 国模吧精品人体gogo| 97精品国产aⅴ7777| 国产视频网站一区二区三区| 日本高清一区| 夜夜嗨av一区二区三区网站四季av| 污污网站在线观看视频| 久久久久久久久久久久久女国产乱| 欧美日韩免费做爰视频| 欧美色图免费看| 九色视频网站在线观看| 97热精品视频官网| 91麻豆精品激情在线观看最新 | 亚洲伊人观看| 污污免费在线观看| 亚洲精品高清视频在线观看| 国产一区二区自拍视频| 中文综合在线观看| 欧美xxx网站| 欧洲精品码一区二区三区免费看| 激情文学一区| 国产伦精品一区二区三区88av| 亚洲视频 欧洲视频| 国产又粗又长又黄| 日韩中文字幕在线精品| 国产一区影院| 一区二区三区四区五区精品| 日日夜夜一区二区| 一卡二卡三卡四卡| 色综合久久久久| 男生女生差差差的视频在线观看| 97成人在线视频| 亚州国产精品| 37pao成人国产永久免费视频| 99国产精品国产精品毛片| 国产成人免费观看视频| 亚洲黄色av女优在线观看| f2c人成在线观看免费视频| 国产精品一区二区三区四区五区| 在线日本高清免费不卡| 国产真实乱人偷精品| 欧美日韩国产精品| 黄色在线视频观看网站| 国产精品美女久久久免费 | 成人a免费在线看| 国产精品7777| 亚洲免费福利视频| 国模一区二区| 亚洲伊人婷婷| 国产成人av在线影院| 欧美亚洲天堂网| 亚洲精选一区二区| 久久99久久久精品欧美| 尤物一区二区三区| 国产福利不卡视频| 亚洲免费激情视频| 亚洲性日韩精品一区二区| 日韩美女在线| 日本阿v视频在线观看| 成人av在线影院| 久久精品视频5| 久久精品视频中文字幕| 日韩在线网址| 亚洲自偷自拍熟女另类| 国产精品久久久久婷婷二区次| 国产高清精品软件丝瓜软件| 午夜精品久久久久久99热| 欧美日韩激情| 国产精品91av| 色哦色哦哦色天天综合| 国精产品一区| 国产伦精品一区二区三毛| 久久亚洲影院| 五月婷婷一区二区| 亚洲欧美国产高清va在线播| 亚洲图片小说区| 亚洲美免无码中文字幕在线| 欧美国产精品一区二区| 亚洲精品一区二区三区新线路| 国产a∨精品一区二区三区不卡| 亚洲区综合中文字幕日日| 欧美做受喷浆在线观看| 欧美一级欧美三级在线观看| 小草在线视频免费播放| 91成人在线视频观看| 久久久久久久久久看片|