精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

更適合中文LMM體質的基準CMMMU來了:超過30個細分學科,12K專家級題目

人工智能 新聞
M-A-P 開源社區、港科大、滑鐵盧大學、零一萬物等聯合推出了面向中文大規模多學科多模態理解和推理基準 CMMMU(Chinese Massive Multi-discipline Multimodal Understanding and Reasoning)

近期,隨著多模態大模型(LMM) 的能力不斷進步,評估 LMM 性能的需求也日益增長。與此同時,在中文環境下評估 LMM 的高級知識和推理能力的重要性更加突出。

在這一背景下,M-A-P 開源社區、港科大、滑鐵盧大學、零一萬物等聯合推出了面向中文大規模多學科多模態理解和推理基準 CMMMU(Chinese Massive Multi-discipline Multimodal Understanding and Reasoning),用于評估基本模型在中文各種任務中的專家級多模式理解能力。

CMMMU 涵蓋 6 個大類學科,包括藝術、商業、健康和醫學、科學、人文與社會科學、技術與工程,跨越 30 多個細分領域學科。下圖給出了每個細分領域學科的一個題目示例。CMMMU 是第一個在中文背景下的多模態基準,也是現有少數的考察 LMM 復雜理解和推理能力的多模態基準之一。

圖片

數據集構建

數據采集

數據采集分為三個階段,第一階段由研究者們為每一個科目收集滿足版權許可要求的題目來源(網頁或者書籍),同時避免題源重復,然后第二階段,研究者們將題源轉發給眾包標注者以進行進一步的標注。所有的標注者都是本科生或更高的學位,以確保他們可以驗證標注的問題和相關的解釋。在標注過程中,研究者要求標注者嚴格遵循標注原則,比如過濾掉不用圖片就能回答的問題、盡可能地過濾掉使用相同圖像的問題與不需要專家知識來回答的問題等。最后第三階段,研究者為了平衡數據集中每一科目題目數量,對問題收集較少的科目專門進行補充。

數據集清洗

為了進一步提高 CMMMU 的數據質量,研究者們遵循嚴格的數據質量控制協議。首先,每個問題都由至少一位論文作者手工驗證。其次,考慮到數據污染問題,他們也過濾掉了在不借助 OCR 的情況下,幾個 LLM 也可以回答出的問題。

數據集概覽

CMMMU 由 12K 個題目組成,分為少樣本開發集、驗證集和測試集。少樣本開發集包括每個學科 5 個左右的題目,驗證集抽樣出 900 個題目,測試集包括 11K 題目。題目中的圖片包括病理圖、樂譜圖、電路圖、化學結構圖等等,共 39 種類型。他們根據邏輯難度而不是智力難度將數據分為簡單 (30%)、中等 (58%) 和困難 (12%) 三種難度。更多題目統計信息在表 2 和表 3 中展示。

圖片

圖片

圖片

實驗

團隊測試了多種主流的中英文雙語 LMM 以及幾個 LLM 在 CMMMU 上的表現。其中包含了閉源和開源模型。評估過程使用 zero-shot 設置,而不是微調或者 few-shot 設置,以檢查模型的原始能力。LLM 還加入了圖片 OCR 結果 + text 作為輸入的實驗。所有的實驗都是在 NVIDIA A100 圖形處理器上進行的。

主要結果

表 4 展示了實驗結果:

圖片

一些重要發現包括:

- CMMMU 比 MMMU 更具挑戰性,且這是在 MMMU 已經非常具有挑戰性的前提下。  

GPT-4V 在中文語境下的準確率僅為 41.7% ,而在英語語境下的準確率為 55.7% 。這表明,現有的跨語言泛化方法甚至對于最先進的閉源 LMM 都不夠好。

- 與 MMMU 相比,國內具有代表性的開源模型與 GPT-4V 之間的差距相對較小。  

Qwen-VL-Chat 和 GPT-4V 在 MMMU 上的差異為 13.3% ,而 BLIP2-FLAN-T5-XXL 和 GPT-4V 在 MMMU 上的差異為 21.9% 。令人驚訝的是,Yi-VL-34B 甚至將 CMMMU 上開源雙語 LMM 和 GPT-4V 之間的差距縮小到了 7.5% ,這意味著在中文環境下,開源雙語 LMM 與 GPT-4V 相當,這在開源社區中是一個有希望的進步。

- 在開源社區中,追求中文專家多模態人工通用智能 (AGI) 的游戲才剛剛開始。  

團隊指出,除了最近發布的 Qwen-VL-Chat、 Yi-VL-6B 和 Yi-VL-34B 外,所有來自開源社區的雙語 LMM 只能達到與 CMMMU 的frequent choice 相當的精度。

對不同題目難度和題型的分析

- 不同題目類型

Yi-VL 系列、 Qwen-VL-Plus 和 GPT-4V 之間的差異主要還是因為它們回答選擇題的能力不同。

不同題目類型的結果如表 5 所示:

圖片

- 不同題目難度

結果中值得注意的是,最好的開源 LMM (即 Yi-VL-34B) 和 GPT-4V 在面對中等和困難的問題時存在較大的差距。這進一步有力地證明,開源 LMM 和 GPT-4V 之間的關鍵差異在于在復雜條件下的計算和推理能力。

不同題目難度的結果如表 6 所示:

圖片

錯誤分析

研究者們仔細分析了 GPT-4V 的錯誤答案。如下圖所示,錯誤的主要類型有感知錯誤、缺乏知識、推理錯誤、拒絕回答和注釋錯誤。分析這些錯誤類型是理解當前 LMM 的能力和局限性的關鍵,也可以指導未來設計和培訓模型的改進。

圖片

- 感知錯誤 (26%) : 感知錯誤是 GPT-4V 產生錯誤示例的主要原因之一。一方面,當模型無法理解圖像時,會引入對圖像基本感知的偏差,從而導致不正確的響應。另一方面,當模型遇到特定領域知識、隱含意義或不明確的公式中的歧義時,它往往表現出特定領域的知覺錯誤。在這種情況下,GPT-4V 傾向于更多地依賴基于文本信息的回答 (即問題和選項) ,優先考慮文本信息而不是視覺輸入,從而導致理解多模態數據的偏差。

- 推理錯誤 (26%) : 推理錯誤是 GPT-4V 產生錯誤例子的另一個主要因素。在模型正確地感知到圖像和文本所傳達的意義的情況下,在解決需要復雜邏輯和數學推理的問題時,推理過程中仍會出現錯誤。通常,這種錯誤是由于模型較弱的邏輯和數學推理能力造成的。

- 缺乏知識 (22%) : 缺乏專業知識也是 GPT-4V 錯誤作答的原因之一。由于 CMMMU 是評價 LMM 專家 AGI 的基準,因此需要不同學科和子領域的專家級知識。因此,將專家級知識注入 LMM 也是可以努力的方向之一。

- 拒絕回答 (12%) : 模型拒絕回答也是一種常見的現象。通過分析,他們指出模型拒絕回答問題的幾個原因: (1) 模型未能從圖像中感知到信息;(2) 是涉及宗教問題或個人現實生活信息的問題,模型會主動回避;(3) 當問題涉及性別和主觀因素時,模型避免直接提供答案。

- 其錯誤:其余的錯誤包括文本理解錯誤 (7%)、標注錯誤 (2%) 和答案提取錯誤 (5%)。這些錯誤是由于復雜的結構跟蹤能力、復雜的文本邏輯理解、響應生成的局限性、數據標注的錯誤以及答案匹配提取中遇到的問題等多種因素造成的。

結論

CMMMU 基準測試標志著高級通用人工智能 (AGI) 開發的重大進展。CMMMU 的設計是為了嚴格評估最新的大型多模態模型 (LMMs) ,并測試基本的感知技能,復雜的邏輯推理,以及在特定領域的深刻專業知識。該研究通過比較中英雙語語境下 LMM 的推理能力,指出其中的差異。這種詳盡的評估對于判定模型水平與各個領域經驗豐富的專業人員的熟練程度的差距至關重要。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2009-07-10 11:27:00

專家級程序員

2010-08-24 08:58:42

開發者

2021-12-24 11:50:57

滲透測試工具安全工具 防御系統

2020-04-25 20:57:37

機器學習機器學習工具

2018-11-05 06:17:26

GPON網絡故障網絡

2015-03-19 14:56:08

程序員專專家級的程序員

2011-12-07 20:43:33

2010-04-22 22:51:36

2019-11-29 13:11:14

信息技術

2025-08-07 02:11:00

Prompt開發模板

2025-10-28 09:19:50

2025-07-08 15:26:04

AI模型數據

2016-09-09 11:18:21

華為

2025-06-13 08:10:00

終端安全威脅狩獵網絡安全

2025-06-12 01:45:00

2011-09-23 10:14:05

開放操作系統Android

2021-04-27 09:00:00

PythonIDE開發

2024-11-08 15:51:07

2024-08-08 09:52:24

以太彩光網絡
點贊
收藏

51CTO技術棧公眾號

国产精品萝li| 欧美一区二区| 欧美性猛交xxxx| 18成人在线| 青青草手机视频在线观看| 国产精品一区二区精品| 亚洲精品免费在线| 国产免费亚洲高清| √天堂中文官网8在线| 国产精品色婷婷在线观看| 亚洲精品国产a久久久久久| 国产精品日韩在线一区| 亚洲天堂一级片| 91亚洲无吗| 精品久久久久久亚洲国产300| 亚洲www在线| 久久久久久久黄色| 欧美色资源站| 男女男精品视频| 中文字幕不卡av| 乡村艳史在线观看| 桃子视频成人app| 国产欧美视频一区二区| 51蜜桃传媒精品一区二区| 免费观看一级视频| 欧美偷拍综合| 欧美大片在线观看一区| 一本大道熟女人妻中文字幕在线| 在线观看黄色av| 成人99免费视频| 成人黄色av网| 天天干,天天干| 韩国在线一区| 成人性生交大片免费看视频在线| 日本91av在线播放| 麻豆亚洲av成人无码久久精品| 亚洲国产网址| 自拍自偷一区二区三区| 亚洲午夜久久久久久久久电影网 | 欧美极品视频一区二区三区| 国产日韩欧美视频在线观看| 六月丁香综合| 97久久精品国产| 麻豆精品一区二区三区视频| 国产精品亚洲二区| 日韩精品视频免费专区在线播放 | 手机福利在线视频| 国产h视频在线观看| 99综合电影在线视频| 91精品国产99久久久久久红楼 | 国产丝袜在线播放| 亚洲欧美二区三区| 400部精品国偷自产在线观看| 成人性爱视频在线观看| 久久久综合激的五月天| 国产伦精品一区二区三区四区免费| 91精品人妻一区二区三区果冻| 视频在线观看一区二区三区| 456国产精品| 特一级黄色大片| 亚洲精品系列| 91精品国产乱码久久久久久久久 | 国产婷婷在线观看| 成人涩涩网站| 亚洲成av人片在线观看香蕉| 香蕉久久久久久av成人| 日本一区二区三区视频在线看| 欧美老年两性高潮| 99中文字幕在线| 国产精品亚洲一区二区在线观看 | xx欧美撒尿嘘撒尿xx| 性欧美1819sex性高清| 91九色02白丝porn| 国产主播中文字幕| 日本美女久久| 欧美丰满高潮xxxx喷水动漫| 午夜剧场在线免费观看| 国产一区二区三区精品在线观看 | 日韩精品二区| 久久精品国产成人| 男人的天堂久久久| 激情欧美丁香| 日本国产欧美一区二区三区| 无码视频在线观看| 精品一区二区三区在线播放 | 国产日韩欧美一区二区东京热 | 国内三级在线观看| 欧美国产欧美亚州国产日韩mv天天看完整 | 国内精品国产三级国产99| 国产一二区在线| 亚洲国产日产av| heyzo国产| 国产欧美自拍| 精品国产免费一区二区三区香蕉| 久久久国产精品无码| 激情综合网站| 欧美成人sm免费视频| 国产午夜精品无码| 日日夜夜免费精品视频| 成人性生交大片免费看视频直播 | 亚洲精品98久久久久久中文字幕| aaaaa一级片| 性欧美69xoxoxoxo| 98精品在线视频| 亚洲天堂777| 福利电影一区二区三区| 欧美色欧美亚洲另类七区| 成人黄视频在线观看| 天天操天天干天天综合网| 日韩av卡一卡二| 国产成人精品福利| 中文字幕视频一区二区在线有码 | 成人在线免费电影| 一区二区在线看| 成人免费无码av| 日韩一二三区| 在线日韩精品视频| 亚洲 欧美 视频| 国产综合久久久久影院| 久久精品午夜一区二区福利| 激情影院在线观看| 在线看一区二区| 在线观看亚洲免费视频| 98精品视频| 国产91在线播放精品91| 国产成人精品一区二三区四区五区 | 国产成人在线视频| 成人毛片在线精品国产| 亚洲国产精品v| 精品欧美一区免费观看α√| 国产精品视频首页| 色偷偷91综合久久噜噜| 精产国品一区二区| 99免费精品在线观看| 日韩精品第1页| 香蕉久久一区| 在线观看国产欧美| 国产免费一区二区三区四区五区| 成人午夜碰碰视频| 麻豆传媒网站在线观看| 亚洲日本中文| 中文字幕在线观看日韩| 免费看毛片网站| 91丨porny丨户外露出| 国产尤物av一区二区三区| 日韩欧国产精品一区综合无码| 亚洲人成人99网站| 欧美在线观看不卡| 91视频国产资源| 91视频最新入口| 欧美精品国产白浆久久久久| 欧美福利在线观看| av观看在线免费| 亚洲男同性视频| 日韩av影视大全| 亚洲一区 二区 三区| 国产欧美日韩免费| 日本中文字幕在线视频| 欧美日韩在线播| 永久免费观看片现看| 美女免费视频一区二区| 亚洲成人午夜在线| 国产伊人久久| 久久婷婷国产麻豆91天堂| 国产欧美一区二区三区视频在线观看| 亚洲欧洲精品一区二区三区| av中文字幕网址| 亚洲欧洲日韩| 成人av男人的天堂| 99在线视频影院| 亚洲美女激情视频| 伊人久久中文字幕| 成人欧美一区二区三区1314| 97人人模人人爽人人澡| 欧美理论在线| 久久精品日韩| 国产成人福利夜色影视| 久久精品国产精品| 亚洲AV无码一区二区三区性| 亚洲二区在线观看| 人妻丰满熟妇aⅴ无码| 久久亚洲风情| 亚洲美女自拍偷拍| 国产精品任我爽爆在线播放| 欧美一区深夜视频| 91精品国产91久久久久游泳池| 欧美丝袜第三区| 成人免费视频网站入口::| 成人精品国产一区二区4080| 日韩av黄色网址| 久久精品国产68国产精品亚洲| 成人日韩av在线| 黄视频网站在线观看| 中文字幕日韩电影| 亚洲精品一区二区三区四区| 黑人巨大精品欧美一区二区一视频| 久久丫精品忘忧草西安产品| 精品一区二区精品| 免费看国产一级片| 久久中文视频| 国内一区在线| 亚洲精品自拍| 国产91|九色| 黄色网在线播放| 精品亚洲一区二区三区在线观看| 亚洲专区在线播放| 精品久久久久久中文字幕一区奶水| 亚洲一级理论片| av不卡在线观看| 国产乱叫456| 鲁大师影院一区二区三区| 99精品视频网站| 欧美男男gaytwinkfreevideos| 91九色国产视频| 日韩三级影视| 国语对白做受69| 国产鲁鲁视频在线观看特色| 日韩激情av在线播放| 91欧美日韩麻豆精品| 日韩欧美中文第一页| 九九在线观看视频| 国产精品理论在线观看| 蜜桃精品一区二区| 成人性色生活片免费看爆迷你毛片| 成人中文字幕av| 亚洲一区二区三区免费在线观看| 影音先锋成人资源网站| 日本一二区不卡| 欧美亚州在线观看| 日韩精品丝袜美腿| 风间由美久久久| 视频成人永久免费视频| 国产日韩欧美中文| 91精品国产66| 日韩免费中文字幕| 欧美xxx性| 日本中文字幕成人| 高清不卡亚洲| 欧美夜福利tv在线| 91超碰免费在线| 高清亚洲成在人网站天堂| av大大超碰在线| 久久伊人精品一区二区三区| 日本在线播放| 久久久999国产| 岛国成人毛片| 欧美成人中文字幕| 手机在线免费看av| 久久99久久99精品免观看粉嫩| 最新国产露脸在线观看| 欧美成人网在线| а√天堂在线官网| 久久99视频精品| 丁香花在线电影小说观看| 国内免费精品永久在线视频| www.九色在线| 日韩av成人在线观看| 欧美精品资源| 国产日韩在线免费| 成人激情久久| 国产在线一区观看| 欧美黑人经典片免费观看| 午夜激情一区| 全黄性性激高免费视频| 欧美一区久久| av影院在线播放| 最新亚洲激情| 国产精品网站免费| 夜夜夜久久久| 啊啊啊国产视频| 日本大胆欧美人术艺术动态| 亚洲乱码中文字幕久久孕妇黑人| 老牛嫩草一区二区三区日本| 男人操女人免费软件| 先锋a资源在线看亚洲| 国产青草视频在线观看| 一区二区激情| 三级4级全黄60分钟| 亚洲精品九九| youjizzxxxx18| 国内精品久久久久影院一蜜桃| 在线观看的毛片| 国产福利一区二区三区视频 | 日韩国产精品91| 三年中文在线观看免费大全中国| 久久99精品久久只有精品| 亚洲美女性囗交| 成人av资源站| 成年人免费观看视频网站| 久久精品人人爽人人爽| 成人免费视频国产免费观看| 一区二区三区欧美| 成年人午夜视频| 欧美精品1区2区| 蜜臀av中文字幕| 亚洲跨种族黑人xxx| 黄色片网站在线观看| 久久久久久噜噜噜久久久精品| 国产精品论坛| 国产精品麻豆va在线播放| 国产亚洲精aa在线看| 狠狠色综合色区| 国产精品成久久久久| 性一交一乱一伧国产女士spa| 免费中文字幕日韩欧美| 最好看的中文字幕| 久久综合国产精品| 中文字幕无码日韩专区免费| 都市激情亚洲色图| 国产又粗又猛又黄| 亚洲精品美女在线观看播放| 黄色网页在线免费看| 91福利视频网| 精品一区二区三区在线观看视频 | 精品美女视频| 99re8这里只有精品| 久久久国产精品一区二区中文| 亚洲欧美日韩三级| 99久久久久久99| 天天看片中文字幕| 欧洲视频一区二区| www.国产免费| 久久久久北条麻妃免费看| 亚洲精品福利电影| 91免费的视频在线播放| 外国成人在线视频| 日本国产中文字幕| 青青草97国产精品免费观看无弹窗版| 国产xxxx视频| 日韩理论片中文av| 国产一级做a爱免费视频| 91精品国产欧美一区二区| 牛牛影视精品影视| 美女黄色丝袜一区| 久久精品嫩草影院| 欧美精品成人一区二区在线观看| 在线观看一区| 手机av在线网站| 国产欧美日韩综合| 无码一区二区三区| 日韩高清中文字幕| 黄色成人在线| 91视频免费在线| 成人免费电影网址| 欧美三级午夜理伦三级富婆| 26uuu亚洲| 精品美女久久久久| 日韩精品免费视频| av丝袜在线| www久久99| 伊人久久亚洲热| 人妻精品久久久久中文字幕69| 亚洲精品一卡二卡| 97精品人妻一区二区三区香蕉| 亚洲欧美中文日韩在线| 羞羞影院欧美| 欧美主播一区二区三区美女 久久精品人 | 啦啦啦中文在线观看日本| 96pao国产成视频永久免费| 欧美韩国日本在线观看| 网站在线你懂的| 国产精品高潮呻吟| 在线视频 91| 色偷偷噜噜噜亚洲男人| 国产电影一区二区三区爱妃记| 亚洲免费精品视频| 美腿丝袜一区二区三区| 懂色av粉嫩av浪潮av| 欧美乱妇20p| 超碰porn在线| 国产精品美女黄网| 成人av电影在线网| 中文字幕久久av| 国产日韩欧美精品在线| 五月婷婷激情视频| 亚洲丝袜一区在线| 色婷婷综合久久久中字幕精品久久| 欧美午夜精品久久久久久蜜| 久久九九免费| 手机毛片在线观看| 91亚洲国产成人久久精品| 大桥未久一区二区| 成人性色生活片| 1级黄色大片儿| 亚洲老头老太hd| 中文成人在线| 国产精品无码电影在线观看| 亚洲精品自拍视频| av在线电影免费观看| 国产精品精品久久久| 青青草国产成人a∨下载安卓| 亚洲第一色av| 一区二区三区精品视频在线| 手机看片1024日韩| 日韩美女免费观看| 日韩综合网站| 91视频在线免费| 一本一本久久a久久精品综合麻豆| 成人午夜影视| 91亚洲va在线va天堂va国|