精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI連電路圖都看不懂?SeePhys新基準暴擊多模態短板,正確率低至55%

人工智能
新基準名為SeePhys,強調了圖形感知對于模型認識和理解物理世界的重要性。內容涵蓋經典與現代物理的各個知識等級和領域,包括從初中到博士資格考試的全譜系多模態物理問題。

當前頂尖AI模型是否真能“看懂”物理圖像?

全譜系多模態物理推理新基準來了,結果SOTA級模型準確率都不足55%。

新基準名為SeePhys,強調了圖形感知對于模型認識和理解物理世界的重要性。

內容涵蓋經典與現代物理的各個知識等級和領域,包括從初中到博士資格考試的全譜系多模態物理問題。

圖片圖片

它由中山大學、蘇黎世聯邦理工學院、華為諾亞方舟實驗室和香港大學的研究團隊聯合推出,于近日正式開源。

團隊在實驗中系統性評估了LLM/MLLM在復雜科學圖表與理論推導耦合任務中的表現。

結果表明即使是Gemini-2.5-Pro和o4-mini等SOTA模型準確率都不足55%,暴露出多模態推理的巨大挑戰。

團隊表示,目前該基準正在ICML 2025 AI for MATH Workshop中開放評估,歡迎學界與工業界的團隊來挑戰。

圖片圖片

為什么需要SeePhys?

近年來,數學在大語言模型(LLMs)的推理能力評估中大放異彩,而物理學由于其具有與真實場景的強相關性和更復雜的圖像信息,正在多模態測評中得到越來越多的重視。

物理學不僅知識體系龐大、邏輯鏈條復雜,而且天然地將抽象世界規律與千變萬化的視覺圖像緊密結合。無論是電路圖、受力分析圖,還是費曼圖等,都挑戰了多模態大模型根據圖表理解世界本質規律的能力。

現有物理學基準或缺乏視覺組件,或僅覆蓋單一的知識層級,難以全面評估模型的物理思維能力。

SeePhys的誕生填補了這一空白,它旨在回答當前的頂尖AI模型是否真的“看懂”了物理圖像,并能像人類科學家一樣結合圖像進行思考。

SeePhys的獨特之處在于:

  • 知識層級跨度大:從初中到博士,從經典力學到量子場論,全面覆蓋了不同知識階段和研究領域;
  • 強視覺依賴:根據圖表是否包含必要解題信息進行分類,優先選擇具有強視覺依賴的問題;
  • 跨模態耦合:純多模態基準,需同步處理符號公式、幾何關系與真實世界建模。

圖片圖片

具體來看,SeePhys具有以下幾個關鍵屬性。

首先是全譜系覆蓋:

  • 2000道題目+2245張圖表,涵蓋7大物理領域(經典力學、電磁學、量子物理等);
  • 8個知識層級:初中、高中、奧賽(初級/高級)、本科(低年級/高年級)、碩士、博士資格考試;
  • 21類異構圖表:包括電路圖、時空曲率圖、光電效應示意圖等。

其次是不同的視覺富集程度:

  • Vision-Essential(75%):圖表含解題必需信息(如坐標系數值、電路拓撲、費曼圖);
  • Vision-Optional(25%):圖表僅輔助說明(如場景示意圖)。

還有多模態增強設計:

  • 提供純視覺副本(問題文本與圖表融合為單張高分辨率圖像);
  • 四種評估模式:文本+圖表(TV)、文本+描述(TC)、純文本(TO)、純視覺(VO)。

圖片圖片

實驗發現

通過對28個主流模型(包括o4-mini、Gemini-2.5-Pro、Claude-3.7-Sonnet等)的大規模測試,研究團隊總結以下結論:

視覺-文本對齊能力的缺陷:

  • 最佳模型Gemini-2.5-Pro準確率僅54.9%,即使是初中物理題正確率也不及70%。
  • 純語言模型表現意外接近多模態模型,如DeepSeek-R1(42.2%) vs o3-mini(40.3%),且模型在視覺依賴性較低的問題中準確率遠高于視覺信息富集的問題,暴露了當前頂尖MLLM仍存在巨大的視覺-文本對齊問題。
  • 模型對特定圖表類型(波動方程圖、電路圖)存在系統性識別障礙。

圖片圖片

“看見”對于“思考”的重要性:

  • 對于視覺富集的問題,添加對圖像的文本描述和直接輸入圖文交織問題均相對純文本問題提升巨大。
  • 即使是非必要性圖表也能輔助模型理解問題(如Claude-3.7-Sonnet在Text+Vision條件下相對Vision Only準確率提升30.2%),表明適當的視覺提示能夠幫助模型理解問題本質。

圖片圖片

知識注入顯現出邊際效應:

  • 較弱模型(如Qwen2.5-VL-3B和LLaVA-OneVision-7B)由于災難性遺忘現象,在高年級問題上精度下降幅度巨大,而較強模型則下降較為平緩,表明知識注入帶來的性能提升已經初步顯現邊際效應。
  • 當前模型更擅長記憶而非邏輯推理(如高級奧賽題反而比知識考察更深的博資考的準確率更低)。
  • 即使是初中和高中難度的物理題也并未被AI完全解決,物理學對于MLLM依然十分困難。

錯誤推理模式歸納

研究團隊對強模型o4-mini, Gemini-2.5-Pro與弱模型Qwen2.5-VL-3B共同錯誤的100個樣本進行人工分析。

然后,歸納得出了9種錯誤的推理模式,包括視覺誤讀、文本誤讀、建模錯誤、錯誤假設、數值計算錯誤、過度簡化、總結錯誤、過度思考和重復輸出。

所有三個模型都表現出明顯的建模缺陷(例如定理和公式誤用),同時表現出相對較少的文本誤讀和數值計算錯誤。

而過度思考和過度簡化的錯誤頻率在模型之間存在顯著差異,且較小的Qwen2.5-VL-3B出現了高重復輸出率(21%)。

圖片圖片

參賽鏈接:https://www.codabench.org/competitions/7925/

挑戰賽詳細信息:https://sites.google.com/view/ai4mathworkshopicml2025/challengeICML workshop

主頁:https://sites.google.com/view/ai4mathworkshopicml2025/home

論文:https://arxiv.org/pdf/2505.19099項目主頁:https://github.com/SeePhys/seephys-project

責任編輯:武曉燕 來源: 量子位
相關推薦

2025-06-18 08:49:00

模型系統AI

2023-11-07 18:08:03

GPT-4模型

2023-01-02 17:22:45

英文版動機程序員

2025-05-21 08:47:00

2025-06-10 09:10:00

2019-12-09 08:29:26

Netty架構系統

2022-02-07 09:05:00

GitHub功能AI

2025-07-10 08:52:00

2025-10-15 08:44:37

AI模型數據

2022-12-12 07:40:36

服務器項目Serverless

2019-10-24 08:56:38

語言代碼Java

2024-01-30 21:18:57

語言模型圖像序列機器人

2023-06-30 08:01:04

Reactuse關鍵詞

2022-07-26 14:38:08

JavaScriptWeb安全自動化

2022-06-16 14:07:26

Java代碼代碼review

2020-03-30 16:45:06

代碼看不懂

2021-12-09 11:59:49

JavaScript前端提案

2022-01-05 09:40:03

DIff算法前端

2025-02-13 09:40:00

2025-09-08 18:08:28

AIClockBenchAGI
點贊
收藏

51CTO技術棧公眾號

欧美性受xxxx黑人猛交| 亚洲精品欧美二区三区中文字幕| 欧美成人中文字幕| 亚洲制服在线观看| 国产女主播在线直播| 蜜臀av性久久久久蜜臀aⅴ| 中文字幕九色91在线| 超碰在线人人爱| 麻豆传媒视频在线观看免费| 国产乱码精品一品二品| 欧美—级a级欧美特级ar全黄| 日本77777| √天堂8在线网| 岛国精品在线播放| 国产精欧美一区二区三区| 亚洲a∨无码无在线观看| 老司机亚洲精品一区二区| 亚洲伊人色欲综合网| 久久精品99久久| 中文永久免费观看| 国内揄拍国内精品久久| 日韩电视剧在线观看免费网站 | 国产精品三级一区二区| 99热这里只有精品99| 一区二区国产在线观看| 中文日韩在线视频| 荫蒂被男人添免费视频| 中文字幕乱码中文乱码51精品| 中文字幕一区二区不卡| 国产在线精品一区二区三区| 中国黄色一级视频| 一区二区三区导航| 欧美成人免费小视频| 在线免费观看黄色小视频| 青青草国产一区二区三区| 五月天一区二区三区| 欧洲精品久久| 亚洲第一页在线观看| 蜜桃在线一区二区三区| 97色在线观看| 一级片一级片一级片| 人体久久天天| 日韩你懂的在线观看| 亚洲成人av免费看| 欧美久久天堂| 亚洲美女屁股眼交| 欧美精彩一区二区三区| 一区二区三区日| 热久久免费视频| 欧美精品福利视频| avtt天堂在线| 欧美日本一区| 欧美精品国产精品日韩精品| 男女羞羞免费视频| 国产在线欧美| 性色av一区二区咪爱| 国产女同在线观看| 麻豆精品91| 国产精品国产亚洲伊人久久| 国产成人a v| 久久精品国产第一区二区三区| 国产免费一区视频观看免费 | 欧美无人区码suv| 国产精品久久久网站 | 高清在线观看av| 久久久久高清精品| 一区二区三区国| www国产在线观看| 亚洲一区二区三区小说| 久久精品视频16| 欧美性猛交xxx高清大费中文| 日本道精品一区二区三区| 91日韩视频在线观看| 色综合久久久| 精品国产免费人成电影在线观看四季| 国产高清成人久久| 啄木系列成人av电影| 自拍偷拍亚洲一区| 91嫩草|国产丨精品入口| 亚洲国产专区| 国产精品成人v| 国产伦子伦对白视频| 成人国产亚洲欧美成人综合网| 国产精品一区二区三区在线观| 欧美18xxxxx| 综合久久久久久| 菠萝蜜视频在线观看入口| 国产高潮在线| 欧美日韩在线观看一区二区 | 大胆欧美人体视频| 日韩欧美a级片| 日本免费新一区视频| 亚洲淫片在线视频| 日韩在线无毛| 亚洲精品乱码久久久久久| 久久久999视频| 亚洲一区二区av| 亚洲精品网站在线播放gif| 国产午夜精品久久久久久久久| 午夜久久黄色| 国产91九色视频| 精品国自产在线观看| 91麻豆成人久久精品二区三区| 亚洲在线不卡| 99爱在线观看| 777a∨成人精品桃花网| 成人免费网站黄| 亚洲视频观看| 国产日韩欧美在线视频观看| 欧美 日韩 国产 精品| 亚洲国产精品激情在线观看| 精品人妻少妇一区二区| 欧美天堂一区| 亚洲女成人图区| 精品无码久久久久久久久| 蜜桃精品视频在线| 欧美大陆一区二区| 美女91在线| 91精品国产91久久久久久最新毛片| 中文在线一区二区三区| 欧美日韩a区| 91精品久久久久久久久青青| 可以在线观看的av| 欧美日韩精品在线观看| 蜜桃视频无码区在线观看| 色天天久久综合婷婷女18| 欧美一区在线直播| 偷拍精品一区二区三区| 亚洲一区二区精品视频| 伊人五月天婷婷| 日韩欧美电影| 国产精品福利网站| 黄色小视频在线观看| 精品日韩中文字幕| 精品国产一区在线| 亚洲婷婷免费| 不卡日韩av| www视频在线免费观看 | 免费国产羞羞网站视频| 亚洲免费观看高清完整| 一级 黄 色 片一| 综合一区二区三区| 亚洲www永久成人夜色| 免费在线视频欧美| 欧美理论片在线| 中文字幕求饶的少妇| 久久精品72免费观看| 亚洲精品不卡| 韩国理伦片久久电影网| 自拍偷拍亚洲一区| 国产又黄又爽视频| 亚洲精品国产a久久久久久| 熟妇女人妻丰满少妇中文字幕| 在线看片不卡| 99国精产品一二二线| 欧美韩日亚洲| 日韩成人激情视频| 亚洲不卡在线视频| 亚洲国产精品传媒在线观看| 中文字幕在线观看日| 欧美 日韩 国产精品免费观看| 成人动漫在线观看视频| 24小时免费看片在线观看| 日韩精品在线免费观看| 青娱乐在线免费视频| 国产精品久久久久久户外露出| 五月天视频在线观看| 国色天香一区二区| 免费精品视频一区| 日本午夜精品久久久久| 色综合久久88色综合天天看泰| 六月婷婷中文字幕| 色乱码一区二区三区88| 情侣偷拍对白清晰饥渴难耐| 国产91在线观看丝袜| 一女被多男玩喷潮视频| 精品国产91乱码一区二区三区四区 | 欧美成人免费看| 99riav一区二区三区| 天堂中文视频在线| 国一区二区在线观看| 日本一区免费观看| 精品麻豆剧传媒av国产九九九| 性色av香蕉一区二区| 波多野结衣在线影院| 欧美一区二区三区四区在线观看| 日韩精品无码一区二区| 亚洲国产精品t66y| 亚洲麻豆一区二区三区| 日韩高清不卡在线| av在线免费观看国产| 国产精品密蕾丝视频下载| 成人福利网站在线观看11| 国产一级免费片| av网站网址在线观看| 欧美精品一区二区三区蜜桃视频| 在线免费黄色av| 亚洲精品成人少妇| 色哟哟精品观看| 国产成人av电影在线观看| 国产第一页视频| 欧美久久99| 日韩亚洲一区在线播放| 成人春色在线观看免费网站| 国产精品一区久久久| 啊啊啊久久久| 久久亚洲欧美日韩精品专区 | 久久久无码中文字幕久...| 啪啪国产精品| av日韩中文字幕| 欧美日韩尤物久久| 5566成人精品视频免费| 污污网站在线看| 日韩中文第一页| 美国一级片在线免费观看视频 | 超碰在线影院| 亚洲国产精品久久久久秋霞不卡| 国产又爽又黄免费软件| 日本久久电影网| 国产精品黄色网| 亚洲制服丝袜av| 中国一级片在线观看| 欧美韩日一区二区三区四区| 99久久人妻精品免费二区| 国产精品亚洲а∨天堂免在线| 色噜噜狠狠永久免费| 久久久久久一区二区| av动漫在线看| 99精品国产一区二区青青牛奶| 免费网站永久免费观看| 亚洲最新色图| 最新国产精品久久| 日韩电影免费在线观看| 亚洲国产午夜伦理片大全在线观看网站 | 在线免费日韩片| 91国内在线视频| 国产精品蜜芽在线观看| 久久琪琪电影院| av在线加勒比| 91极品女神在线| 欧美大胆a人体大胆做受| 欧美一级成年大片在线观看| 两个人看的在线视频www| 亚州成人av在线| 美女露胸视频在线观看| 午夜精品美女自拍福到在线| 美女精品导航| 97免费视频在线| 性孕妇free特大另类| 日本成熟性欧美| 久久精品女人天堂av免费观看| 日韩免费黄色av| 日韩经典一区| 91九色精品视频| 51vv免费精品视频一区二区| 国产精品久久久久久久小唯西川| 国产精品2023| 国产在线一区二区三区欧美 | 国产精品亚洲午夜一区二区三区 | 日韩一卡二卡在线观看| 久久福利影视| 亚洲色图38p| 久色婷婷小香蕉久久| 欧美视频国产视频| 国产成a人亚洲| 在线看黄色的网站| 久久影视一区二区| 娇妻被老王脔到高潮失禁视频| 中日韩免费视频中文字幕| 国产午夜精品理论片在线| 亚洲精品国久久99热| 国产精品9191| 色哟哟一区二区| 97精品人妻一区二区三区香蕉| 欧美一区二区三区在线看| 男人天堂一区二区| 亚洲欧美国产视频| 欧美日韩在线看片| 欧美激情一区二区三区高清视频| 天堂网在线最新版www中文网| 国产精品高潮呻吟视频| 国产日韩中文在线中文字幕| 国产在线欧美日韩| 成人情趣视频| 国产美女主播在线播放| 三级在线观看一区二区 | 欧美三级电影网址| 国产精品国产三级国产专区53| 国产欧美日韩精品一区二区免费| 一区二区av| 中文在线一区| 九九久久久久久| 97久久精品人人做人人爽| 久久久久99精品成人| 亚洲福利一二三区| 国产精品国产精品国产| 亚洲精品一区二区三区精华液| 久香视频在线观看| 欧美精品videos另类日本| 美女久久久久久| 美女三级99| 欧美777四色影| www.99在线| av午夜一区麻豆| 免费高清在线观看电视| 日韩欧美中文第一页| 亚洲AV无码成人片在线观看| 中文字幕亚洲欧美日韩在线不卡| 国产蜜臀av在线播放| 成人免费视频a| 久久av超碰| heyzo亚洲| 国产成a人亚洲| 国产美女福利视频| 91久久精品一区二区| 天天躁日日躁狠狠躁喷水| 久久网福利资源网站| 精品3atv在线视频| 美女黄毛**国产精品啪啪| 在线观看一区| 国产xxx在线观看| 亚洲欧美中日韩| 国产精品无码一区| 一区二区三区www| 成人免费影院| 精品网站在线看| 久草在线视频网站| 婷婷六月综合网| 在线视频你懂得| 国产亚洲精品综合一区91| 老牛影视精品| 精品国产一区二区三区日日嗨| 欧美日韩亚洲国产精品| 欧美精品色视频| 亚洲免费电影在线| 99久久精品无免国产免费| xxxx性欧美| 色综合一区二区日本韩国亚洲| 亚洲欧洲精品一区二区三区波多野1战4| 三级久久三级久久| 亚洲国产天堂av| 日本高清成人免费播放| 你懂的好爽在线观看| 日本一区二区在线免费播放| 亚洲免费福利一区| 国产91美女视频| 91免费在线播放| 无码任你躁久久久久久久| 亚洲视频一区二区三区| 深夜成人影院| 亚洲电影一二三区| 久久国产精品色| 黑人巨大精品一区二区在线| 欧美一区二区三区视频在线观看| gogo在线高清视频| 99热在线国产| 国产欧美精品| 国产美女永久免费无遮挡| 欧美主播一区二区三区| 日韩av中文| 91av一区二区三区| 一区二区亚洲| 人妻丰满熟妇aⅴ无码| 色老综合老女人久久久| 亚洲乱亚洲乱妇| www.成人av.com| 国产精品色网| 久久午夜精品视频| 欧美一级久久久| 成人在线黄色电影| 日韩电影在线播放| 国产九色精品成人porny | 第一页在线观看| 成人精品视频久久久久| 欧美视频四区| 91视频在线网站| 91麻豆精品国产| 黄色美女视频在线观看| 日本精品一区二区三区视频 | 韩日午夜在线资源一区二区| 久久精品动漫| 破处女黄色一级片| 日韩精品极品在线观看播放免费视频 | 91人人澡人人爽| 色av成人天堂桃色av| 黄色成人在线| 欧美另类一区| 韩国毛片一区二区三区| 日本一级黄色录像| 最近2019年中文视频免费在线观看 | 国产区一区二区三区| 久草视频一区二区| 亚洲视频电影图片偷拍一区| 久久69av| 97在线播放视频| 亚洲欧美日韩中文播放| 免费a在线观看| 国产精品国模大尺度私拍| 老司机免费视频一区二区三区| 国产精品111|