精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

ICML 2025 Spotlight | 多模態大模型暴露短板?EMMA基準深度揭秘多模態推理能力

人工智能 新聞
當前的 MLLMs 仍然無法進行需要深度視覺與文本融合的復雜多模態推理!一項最新研究推出的 EMMA 基準測試,如同一面「照妖鏡」,揭示了即使是頂尖 MLLMs 也在這關鍵能力上顯著不足。

「三個點電荷 + Q、-2Q 和 + 3Q 等距放置,哪個向量最能描述作用在 + Q 電荷上的凈電力方向?」

圖片

在解這道題時,我們可以通過繪制受力分析草圖輕松解決。但即使是先進的多模態大語言模型,如 GPT-4o,也可能在理解「同性相斥」的基本物理原則時,錯誤地判斷斥力的方向(例如,錯誤地將 + 3Q 對 + Q 的斥力方向判斷為右下方而非正確的左上方)。

這個看似簡單的物理問題,卻暴露了多模態大模型一個「致命缺陷」:當前的 MLLMs 仍然無法進行需要深度視覺與文本融合的復雜多模態推理!一項最新研究推出的 EMMA 基準測試,如同一面「照妖鏡」,揭示了即使是頂尖 MLLMs 也在這關鍵能力上顯著不足。

目前該研究已被 ICML 2025 接收為 spotlight,代碼數據已全部開源!

圖片

  • 標題: Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark
  • 論文鏈接: https://www.arxiv.org/pdf/2501.05444
  • 項目主頁:https://emma-benchmark.github.io/
  • 代碼倉庫: https://github.com/EMMA-Bench/EMMA
  • 數據集: https://huggingface.co/datasets/luckychao/EMMA
  • 單位: 電子科技大學,中山大學,華盛頓大學,微軟,香港中文大學

目前已有多個模型 / 方法在 EMMA 上驗證其多模態推理能力,研究發現:即使最先進的模型 ——Gemini-2.5-pro-exp-03-25 ,或者是能夠進行視覺工具調用的 o3/o4-mini 模型在 EMMA 上的表現仍然落后人類專家超 20%!

圖片

研究者們還邀請了人類專家完成題目,并對比了人類專家與 AI 模型的解題過程。可以看出人類專家在面對 EMMA 中的復雜問題時,傾向于借助簡潔的手繪草圖進行「視覺化思考和空間模擬」,高效地找到解題路徑。與之形成鮮明對比的是,模型(如 o3)則依賴于詳盡的、結構化的文本步驟進行推理。這種差異凸顯了當前 MLLMs 在處理多模態信息時,更偏向于運用其強大的語言邏輯能力進行處理,而較少展現出類人的、以視覺為核心的直觀洞察和靈活高效的解題策略。

圖片

EMMA:深度考量 MLLMs 的多模態推理極限

將文本與圖像信息有機結合、協同進行推理,是人類智能的一項核心能力。然而,多模態大語言模型是否真正具備這種深層次、非割裂的多模態推理能力,至今仍缺乏系統而深入的研究。當前的主流基準測試往往偏重于「文本主導」的推理過程,或僅需利用「淺層的視覺感知」而非「視覺推理」便可解決問題,難以全面衡量模型在復雜任務中對視覺與語言信息的整合能力,因而無法有效評估其真實的多模態理解與推理水平。

為應對這一挑戰,研究者們提出了 EMMA—— 一個專為評估 MLLMs 在數學、物理、化學和代碼這四大領域進行原生多模態推理而設計的增強型基準,具體如下圖所示。EMMA 中的任務要求高級的跨模態推理,這些問題無法通過在單一模態中獨立思考來解決,從而為 MLLMs 的推理能力提供了更嚴苛、更全面的「試金石」。

圖片

EMMA 不僅僅是一個新的評估數據集,它是一套精心設計的「考題」,旨在全面考察 MLLMs 在以下方面的能力:

  • 真正的多模態融合: EMMA 的首要標準是考驗模型是否能進行「真」多模態推理。這意味著問題必須同時深度依賴視覺信息(如圖表、示意圖、化學結構、代碼可視化)和文本信息(問題描述、邏輯條件)才能解決,從而檢驗模型在不同模態間無縫切換與深度整合的能力。
  • 跨學科的嚴峻挑戰: 為了全面評估模型的泛化能力,EMMA 覆蓋了數學、物理、化學和代碼這四大核心科學與工程領域。這些領域的問題本質上要求精確的邏輯演繹和對特定領域知識的運用,為 MLLMs 提供了復雜且多樣化的推理場景。
  • 細粒度能力診斷與性能極限探索: EMMA 不滿足于籠統的評分,而是為每個學科下的具體技能(例如,數學中的「2D 變換」、「3D 空間模擬」,物理中的「受力分析」、「場模擬」等,如上圖所示)提供了細致的分類。這種設計使得研究者能夠精確分析模型在特定推理環節上的優勢與不足,繪制出模型能力的「細粒度畫像」。

該研究具有以下幾個主要發現:

  • 整體表現堪憂: 即使最先進的模型(如 Gemini-2.5-pro-exp-03-25) ,或者是能夠進行視覺工具調用的 o3/o4-mini 模型在 EMMA 上的表現仍然落后人類專家超 20%。無論采用何種提示策略或計算擴展方式,模型都未能有效彌合與人類之間的差距。
  • 思維鏈 (CoT) 并非萬能藥: 盡管思維鏈提示在文本推理任務中表現出色,但在 EMMA 的多模態挑戰下,其對模型性能的提升有限,甚至對某些開源模型產生負面影響。
  • 測試時計算擴展效果不彰: 即使通過增加候選答案數量(如多數投票、Best-of-N,錦標賽策略)等方式擴展測試時的計算資源,也未能有效彌補模型在根本視覺推理能力上的缺陷。
  • 視覺推理是核心瓶頸: 錯誤分析表明,MLLMs 常常在需要精確空間模擬、多跳視覺推理以及視覺與文本信息整合的任務上失敗,尤其是在視覺輔助能極大簡化解題路徑的問題上。這進一步強調了需要開發新型視覺與語言深度融合的機制。

數據集構建:嚴謹篩選與細粒度剖析

EMMA 的構建過程經過精心設計,旨在確保其能夠有效評估深層多模態推理能力。

圖片

  • 數據來源與篩選: EMMA 包含從現有基準(如 MathVision, MathVista, OlympiadBench, MMMU 等)中通過嚴格篩選流程(如上圖所示,過濾掉僅憑文本或「文本 + 圖像描述」就能解決的問題)獲得的 992 個問題,并與相關領域專家合作手動構建了 1,796 個全新問題,總計 2,788 個問題。
  • 領域覆蓋與技能評估:

a.數學: 包含 2D 變換、3D 空間模擬、路徑追蹤、多跳視覺對象計數、模式推理等。

b.物理: 包含 3D 場模擬、圖表推理、路徑追蹤、多跳視覺推理等。

c.化學: 包含基于知識的計數、結構識別、反應模擬等。

d.代碼: 包含圖表選擇代碼、代碼選擇圖表、基于目標圖像修改代碼(提供或不提供原始圖像)等任務,側重數據可視化。

  • 精細化分類: 每個問題都被賦予了細致的技能標簽,以便對模型的各項能力進行深入分析。
  • 人工驗證與質量控制: 所有問題,特別是新構建的問題和分類標簽,都經過領域專家的嚴格審查或創建,以確保問題的質量、相關性以及對多模態推理能力的真實考察。

最終得到 EMMA 數據集的關鍵統計信息及數據分布如下:

圖片

實驗與結果:SOTA 模型面臨嚴峻考驗

研究團隊在 EMMA 上評估了 10 個 SOTA MLLMs,包括開源模型(如 Qwen2-VL, LLaVA-Onevision, InternVL2)和閉源模型(如 GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Flash/Thinking, o1)。

圖片

  • 普遍表現不佳: 所有模型在 EMMA 上的表現均不理想,與人類專家存在巨大差距,凸顯了當前模型在解決復雜多模態推理任務上的局限性。

  • CoT 效果分化: 對于閉源模型,CoT 提示通常能帶來性能提升;但對于開源模型,CoT 反而可能導致性能下降,這可能與模型未能有效利用語言輔助多模態推理有關。

圖片

  • 測試時計算擴展難補短板: 盡管采用多數投票、Best-of-N、錦標賽選擇等策略增加計算量能在一定程度上提升性能,但提升幅度有限,遠不足以彌合與人類水平的差距。這表明僅僅增加文本 CoT 的候選數量,難以彌補模型在視覺推理步驟上的根本性不足。

錯誤分析:視覺推理是核心癥結

圖片

  • 錯誤類型分析: 對 o1 模型 在 EMMA-mini 的數學和代碼部分的錯誤分析顯示,視覺推理錯誤占比最高(52.83%),其次是感知錯誤(30.19%),而文本推理錯誤和知識缺乏錯誤占比較小。這進一步證明視覺推理是主要的性能瓶頸。

圖片

  • CoT 對視覺密集型任務的負面影響: 雖然在「多跳計數」這類「語言可以輔助推理」的任務中,我們看到部分閉源模型在 CoT 的輔助下性能有所提升,但在如「2D 變換」這類「高度依賴視覺模擬和空間想象」的任務上,文本 CoT 甚至會對某些模型性能產生負面影響,這提示我們需要新的范式來改進視覺推理。

圖片

  • 實例分析: 一個典型的錯誤案例是,在判斷磁場力方向時,模型(o1)雖然知道應使用「右手定則」,但在模擬拇指指向時出錯,這源于其有限的視覺空間想象能力。

未來展望:跨模態智能

EMMA 基準系統性地揭示了當前多模態智能在跨越語言與視覺鴻溝時所面臨的具體挑戰與瓶頸,并通過設計精細的任務集合,為下一代跨模態模型的發展明確了實踐方向與關鍵突破點。

盡管當前的多模態模型取得了顯著的進步,但仍面臨著兩個重要的技術瓶頸:

  • 一方面,由于視覺和文本之間信息密度和抽象層次的巨大差異,多模態模型在預訓練階段難以充分實現模態特征的精準對齊和融合,嚴重制約了模型后續在推理階段的表現;
  • 另一方面,目前模型普遍缺乏視覺信息生成與動態交互的能力,難以實現真正意義上的跨模態互動與視覺狀態的實時更新。

因此,未來多模態智能的發展趨勢必將從現有的語言主導推理模式逐步轉向更深入的模態間動態協作模式。具體而言,下一代模型不僅需要具備視覺動作推理(如調用圖像編輯工具輔助推理)的能力,更要實現視覺狀態的主動更新和跨模態反饋,從而高效地驅動下一輪語言 - 視覺交互推理。EMMA 所揭示的這些具體挑戰與路徑,將有助于研究人員更清晰地設計新型多模態模型結構與訓練策略,真正推動跨模態智能向更高層次邁進。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-01-08 08:21:16

2024-08-08 13:04:28

2025-11-11 08:45:00

2024-12-18 18:57:58

2024-11-13 09:39:13

2025-11-05 08:51:33

2023-08-30 13:23:00

模型訓練

2025-09-16 09:35:52

2024-12-30 00:01:00

多模態大模型Python

2025-06-10 03:30:00

2023-12-28 17:31:44

PixelLM性能模型

2025-06-03 08:30:00

模型生成AI

2024-09-25 14:53:00

2025-06-27 08:40:00

模型推理AI

2025-10-15 14:02:29

AI模型自動駕駛

2025-07-04 16:50:07

工具AI模型

2023-05-08 10:14:07

模型AI

2025-03-19 09:30:00

2024-11-11 15:11:23

點贊
收藏

51CTO技術棧公眾號

国产精品毛片久久| xxxxx性欧美特大| 国产宾馆实践打屁股91| 777精品视频| 激情五月深爱五月| 久久久久久爱| 日韩欧美有码在线| 超碰97在线看| 国产私拍精品| 国产成a人亚洲精| 日本国产一区二区三区| 国产大学生自拍| 国产综合久久久| 精品福利二区三区| 91精品999| 中文在线免费二区三区| 成人avav影音| 亚洲综合视频1区| 无码人妻丰满熟妇奶水区码| 欧美一区二区三区久久精品| 亚洲日韩中文字幕| 国产视频精品视频| 91精品亚洲一区在线观看| 一本色道久久综合狠狠躁的推荐 | 欧美激情91| 国产亚洲精品一区二区| 在线精品一区二区三区| 国产日本亚洲| 欧美日韩一区二区电影| 可以免费在线看黄的网站| 在线免费av导航| 国产精品久久久久久久久果冻传媒| 韩国成人一区| 国产成人三级在线观看视频| 国产精品资源网站| 国产在线98福利播放视频| 国产精品熟女视频| 国产免费成人| 7777kkkk成人观看| 日韩av在线播| 99久久99热这里只有精品| 欧美一级日韩免费不卡| 91精产国品一二三产区别沈先生| 久久久成人av毛片免费观看| 欧美午夜影院在线视频| 成人444kkkk在线观看| 国产人妻人伦精品1国产丝袜 | 国产精品久久久久久久免费大片| 国产又黄又粗又长| 麻豆成人综合网| 国产精品网址在线| 自拍偷拍色综合| 男男视频亚洲欧美| 国产精品久久久久秋霞鲁丝| 一级久久久久久| 日韩国产欧美在线播放| 国产精品国语对白| 亚洲无码久久久久久久| 精品一区二区三区免费播放| 国产主播精品在线| 国产精品天天操| 美日韩一区二区| 国产又爽又黄的激情精品视频| 国产又粗又猛又爽又黄视频 | 黄色网页在线免费看| 中文字幕五月欧美| 麻豆一区二区三区在线观看| 啪啪免费视频一区| 亚洲国产毛片aaaaa无费看| 男女激情免费视频| 色综合桃花网| 在线观看亚洲一区| 精品综合久久久久| 91成人噜噜噜在线播放| 日韩高清不卡av| 在线小视频你懂的| 天天射综合网视频| 久久久久久国产| 国产99久久久| 九九热在线视频观看这里只有精品| 亚洲最大的免费| 手机在线观看毛片| 国产欧美日韩麻豆91| 国产a级片免费看| 国产一线二线在线观看| 色天使色偷偷av一区二区| 亚洲欧美日本一区二区三区| 成人香蕉社区| 在线观看免费高清视频97| 777777国产7777777| 亚洲人www| 国产精品一区二区三区久久久| 亚洲乱码国产乱码精品精软件| 972aa.com艺术欧美| 亚洲精品一区二区三区蜜桃久| 污片在线免费观看| 欧美亚洲丝袜传媒另类| 真实乱偷全部视频| 精品国产aⅴ| 欧美肥臀大乳一区二区免费视频| 国产一级免费视频| 激情六月婷婷综合| 欧美动漫一区二区| 成人短视频在线| 91国偷自产一区二区三区观看| 亚洲视频在线不卡| 国产九一精品| 久久免费国产精品1| 中文字幕精品一区二| 成人激情小说乱人伦| 亚洲精品中文字幕乱码三区不卡| 98色花堂精品视频在线观看| 欧美日韩二区三区| 黄色工厂在线观看| 欧美午夜一区| 成人观看高清在线观看免费| 久久久久久久久亚洲精品| 一区二区三区国产精品| 天天干天天玩天天操| 亚瑟一区二区三区四区| 久久久av一区| 中国一区二区视频| 久久久精品免费观看| 日韩小视频网站| 亚洲成人影音| 久久夜色精品国产亚洲aⅴ| 久久久久久久久久一级| 91麻豆国产自产在线观看| 国产女主播自拍| 精品视频在线观看免费观看| 色哟哟入口国产精品| 五月婷婷激情五月| 久久精品亚洲乱码伦伦中文| 国产a级一级片| 欧美精品国产白浆久久久久| 欧美国产日韩一区| 亚洲av无码片一区二区三区| 亚洲欧美日韩国产手机在线 | 国产又粗又猛又黄视频| 2020日本不卡一区二区视频| 免费成人在线视频网站| 欧美色资源站| 97在线看免费观看视频在线观看| 亚洲精选一区二区三区| 亚洲国产综合91精品麻豆| 18深夜在线观看免费视频| 午夜久久久久| 精品999在线观看| 特黄毛片在线观看| 亚洲精品日韩久久久| 无码aⅴ精品一区二区三区| 2023国产精品自拍| 日本成人在线免费视频| 成人区精品一区二区婷婷| 国产精品老女人视频| 888av在线| 欧美一区二区三区四区视频| 欧美日韩一级在线观看| 成人福利电影精品一区二区在线观看| 女人被男人躁得好爽免费视频| 成功精品影院| 2018日韩中文字幕| 国产美女性感在线观看懂色av| 欧美性受极品xxxx喷水| 美女网站视频色| 国产剧情av麻豆香蕉精品| 国产av熟女一区二区三区| 精品一区二区男人吃奶| 欧美专区在线观看| 中国日本在线视频中文字幕| 欧美日韩不卡一区| 久草免费新视频| 91麻豆精品秘密| av在线网址导航| 在线观看视频日韩| 久久五月天婷婷| 国产成人精品一区二区三区视频| 久久偷看各类女兵18女厕嘘嘘| 亚洲黄色精品视频| 欧美日韩精品国产| 最新日韩免费视频| 成人av资源站| 韩国中文字幕av| 欧美日本一区| 特级西西444www大精品视频| 清纯唯美激情亚洲| 欧美一区二区三区免费观看| 免费的黄网站在线观看| 亚洲精品国产精品国自产在线| 最近国语视频在线观看免费播放| 一区二区三区国产精品| 成人在线一级片| 国产宾馆实践打屁股91| 激情五月亚洲色图| 国产精品jizz在线观看美国| 日韩福利二区| 老汉色老汉首页av亚洲| 国产在线播放91| 黑人精品一区| 欧美激情视频在线| 国产高清美女一级毛片久久| 精品免费国产一区二区三区四区| 亚洲精品国产欧美在线观看| 亚洲午夜激情av| 黄色一级片一级片| 91老师片黄在线观看| 麻豆av免费看| 久久国产欧美日韩精品| 久久精品一区二| 亚洲三级免费| 777久久精品一区二区三区无码 | 日韩精品三级| 国产精品视频男人的天堂| 在线看片福利| 欧美高清在线视频观看不卡| 无遮挡的视频在线观看 | 亚洲AV无码片久久精品| 高清不卡在线观看| 欧美国产日韩在线视频| 日日夜夜精品视频免费| 国内外成人激情视频| 好看的亚洲午夜视频在线| 杨幂一区欧美专区| 女厕嘘嘘一区二区在线播放| 极品尤物一区二区三区| 97人人澡人人爽91综合色| 91在线高清免费观看| 久久夜夜久久| 国产精品九九九| 欧美va在线观看| 国产suv精品一区二区| 久草在线资源站手机版| 国内精品久久久| 怡红院在线播放| 九九久久久久99精品| 黄色网在线看| 久久久成人精品视频| 午夜视频在线看| 综合网中文字幕| av在线之家电影网站| 一区国产精品视频| 成a人片在线观看www视频| 永久555www成人免费| 国产一级网站视频在线| 国产一区二区三区高清在线观看 | 麻豆一区二区在线观看| 国产写真视频在线观看| 欧美裸体男粗大视频在线观看| av片在线观看网站| 欧美激情精品久久久久久| 国产网红女主播精品视频| 午夜精品久久久久久久久久久久| 国产白浆在线免费观看| 555www成人网| 欧美黄色网页| 国产免费久久av| 成人网av.com/| 国产精品theporn88| 卡一精品卡二卡三网站乱码| 茄子视频成人在线观看 | 高清欧美精品xxxxx| 亚洲免费观看| 粉嫩虎白女毛片人体| 激情六月婷婷久久| 男人添女人荫蒂国产| 不卡大黄网站免费看| 亚洲最大成人网站| 国产精品国产三级国产aⅴ原创| 国产午夜手机精彩视频| 亚洲国产综合91精品麻豆| av一级在线观看| 欧美精品电影在线播放| 国产 日韩 欧美 精品| 精品一区二区三区三区| 秋霞成人影院| 韩国国内大量揄拍精品视频| aaaa欧美| 成人午夜电影在线播放| 欧洲乱码伦视频免费| 天天干天天色天天爽| 国产欧美一区二区色老头 | 成人av综合网| 欧美少妇一区| 一本一道久久综合狠狠老| 日韩免费一级视频| 久久99精品国产麻豆婷婷洗澡| 色哟哟网站在线观看| 欧美激情在线一区二区| 欧美日韩中文字幕在线观看| 一本一道久久a久久精品| av观看在线免费| 亚洲欧美日韩爽爽影院| 中文字幕在线播放网址| 国产经典一区二区| 97se亚洲| 一区二区三区国产福利| 一本一本久久| 亚洲制服在线观看| 国产日本一区二区| 久一区二区三区| 欧美天天综合网| 天天av天天翘| 欧美成人sm免费视频| 黄色精品视频| 精品产品国产在线不卡| 午夜精品久久99蜜桃的功能介绍| www.天天射.com| 99re视频精品| 69av.com| 91精品国产综合久久福利软件| 国产高清一区在线观看| 98精品国产高清在线xxxx天堂| 免费观看在线一区二区三区| 日韩片电影在线免费观看| 99综合视频| 伦伦影院午夜理论片| 国产精品亲子伦对白| 日本视频免费观看| 亚洲国产成人精品女人久久久 | 午夜精品久久久久久久99水蜜桃| 一区不卡在线观看| 一本色道久久88综合日韩精品| 欧洲一区精品| 国产日韩亚洲精品| 国内精品久久久久国产盗摄免费观看完整版| 日韩av手机版| 欧美激情一区二区三区蜜桃视频 | 亚洲韩国青草视频| 99在线视频观看| 91久久久精品| 午夜精品毛片| www.久久久久久久久久久| 国产精品毛片高清在线完整版| 日韩国产亚洲欧美| 亚洲欧美国产日韩中文字幕| 亚洲精品永久免费视频| 蜜桃传媒视频麻豆第一区免费观看 | 一区二区三区国产视频| 欧美羞羞视频| 欧美高清视频一区二区三区在线观看| 国产一区二区你懂的| 久久人人妻人人人人妻性色av| 粉嫩老牛aⅴ一区二区三区| 无码精品在线观看| 欧美综合在线第二页| 久久av影视| 性生交免费视频| 国产精品成人免费在线| 国产免费一区二区三区免费视频| 久久久av网站| 成人春色在线观看免费网站| 青草青青在线视频| 久久久综合九色合综国产精品| 免费黄色小视频在线观看| 国产一区二区三区视频| 亚洲狼人综合| 精品无码av无码免费专区| 成人一区二区三区| 成年人视频在线免费看| 一本久久综合亚洲鲁鲁| 96视频在线观看欧美| 青青青在线观看视频| 99精品在线观看视频| 国产一级片免费视频| 久久艳片www.17c.com | 成人高清视频免费观看| 国产婷婷色一区二区在线观看| 一区二区在线视频播放| 国产激情一区| 91专区在线观看| 国产精品网站导航| a毛片在线免费观看| 97婷婷涩涩精品一区| 精品国产视频| 亚洲欧美激情一区二区三区| 狠狠躁18三区二区一区| av中文资源在线| 国产精品免费一区二区三区在线观看 | 久久久久久久久电影| 欧美美女在线观看| 四季av一区二区三区| 亚洲一本大道在线| 精品乱码一区二区三四区视频 | 97精品久久久| 成久久久网站| 国产情侣久久久久aⅴ免费| 色综合久久综合网97色综合| 午夜在线视频| 狠狠色伊人亚洲综合网站色| 麻豆精品一区二区三区| 久久久久久蜜桃| 亚洲视频一区二区| 福利片一区二区| 五月激情婷婷在线| 欧美性xxxxxxxxx| 91精选在线| 午夜欧美一区二区三区免费观看| 成人综合在线观看| 中文字幕在线观看视频一区| 97视频免费在线看|