MMIE:用于大型視覺語言模型的大規模多模態交錯理解基準(ICLR 2025) 原創
摘要
交錯多模態理解與生成能力 —— 使模型能夠以任意順序生成和解釋圖像與文本 —— 已成為多模態學習的關鍵領域。盡管已有顯著進展,但對這一能力的評估仍顯不足。現有基準在數據規模、范圍和評估深度上存在局限,而當前評估指標往往成本高昂或帶有偏見,在實際應用中缺乏可靠性。為應對這些挑戰,我們推出 MMIE,這是一個大規模知識密集型基準,用于評估大型視覺語言模型(LVLMs)的交錯多模態理解與生成能力。MMIE 包含 20,000 個精心策劃的多模態查詢,涵蓋 3 個類別、12 個領域和 102 個子領域,包括數學、編程、物理、文學、健康和藝術等。它支持交錯的輸入和輸出,并提供選擇題和開放式問題格式的混合,以評估多樣化的能力。此外,我們提出了一種可靠的自動化評估指標,利用通過人工標注數據和系統評估標準微調的評分模型,旨在減少偏差并提高評估準確性。大量實驗證明了我們的基準和指標在全面評估交錯 LVLMs 方面的有效性。具體而言,我們評估了八種 LVLMs,結果顯示即使是最佳模型也有顯著的改進空間,大多數僅取得中等結果。我們相信 MMIE 將推動交錯 LVLMs 發展的進一步突破。我們在??https://mmie-bench.github.io/??公開發布我們的基準和代碼。
1 引言
“真正的評估在于不同模態的無縫交織?!?nbsp;
隨著大型視覺語言模型(LVLMs)的發展,多模態學習取得了顯著進步(Liu 等人,2023a;Zhu 等人,2023;Dai 等人,2023),這些模型能夠處理涉及圖像和文本的各種任務。盡管如此,大多數這些模型僅限于用于文本生成的多模態任務,如視覺問答(VQA)和圖像描述,這并未充分反映多模態能力的潛力。為了拓寬其應用,交錯的文本和圖像生成已成為一個關鍵研究領域(Liu 等人,2024)。它要求模型以任意順序生成圖像和文本,從而增強多模態系統的通用性和有效性。這為各種復雜應用開辟了可能性,如多步推理(Lu 等人,2024;Kazemi 等人,2024)、多模態情境分析(Yang 等人,2021)和視覺敘事(Huang 等人,2016)。
盡管最近的 LVLMs 正在發展以支持交錯的文本和圖像生成(Team,2024;Xie 等人,2024;Chern 等人,2024;Zhou 等人,2024),但由于以下兩個挑戰,全面的評估基準仍然滯后:
1.1 構建模態一致基準的難度
第一個挑戰在于構建模態對齊的多模態數據集的困難,其中輸入和輸出都包含圖像和文本。當前基準主要關注單模態輸出任務(Fu 等人,2023;Li 等人,2024a;Zhang 等人,2023),僅評估生成圖像或文本的質量,而沒有對模態之間的關鍵聯系進行基準測試,例如文本 - 圖像的連貫性和一致性。盡管有一些數據集支持 LVLMs 的交錯多模態評估方法(Liu 等人,2024),但其數據集受到規模有限和查詢格式狹窄的限制,主要集中在 VQA 任務上。
1.2 缺乏自動化評估指標
第二個挑戰是缺乏適用于交錯生成的自動化評估指標。人工評估成本高且耗時,難以在實際應用中擴展。當前的自動化評估指標通常要么評估生成文本的質量(例如 BLEU(Papineni 等人,2002)、BERTScore(Zhang 等人,2020)),要么評估生成圖像的質量(例如 FID(Heusel 等人,2017))。盡管最近的評估策略,如使用 CLIPScore(Hessel 等人,2021)和視覺語言模型(VLMs)(Chen 等人,2023;Liu 等人,2024),可以評估不同模態之間的聯系,但它們嚴重依賴特定模型的預訓練知識(例如 CLIP 訓練數據)或遵循嚴格的人工定義規則。這些方法在一定程度上會引入偏差和不確定性,常常導致結果不一致(Mahmoud 等人,2024)。

圖1 MMIE基準的典型樣本,展示其支持多圖像輸入和輸出,并為每個查詢提供真實標簽。MMIE跨不同領域評估模型,確保對其能力的全面評估。#注釋:該圖呈現了MMIE基準中具有代表性的樣本,直觀體現出基準在多圖像模態交互方面的支持情況,以及其評估的全面性。
為解決這些限制,我們引入 MMIE,這是一個用于 LVLMs 的大規模多模態交錯理解評估基準,并提出了可靠的自動化指標。MMIE 從四個多模態數據集精心策劃而來,涉及 3 個類別、12 個領域和 102 個子領域,包括數學、物理、編程、統計、文學、哲學、教育、金融、健康、體育、藝術和 EECS(電氣工程與計算機科學)。該數據集包含 20,000 個多模態問題,支持交錯的輸入和輸出。它具有選擇題和開放式問題格式的混合,以評估各個領域的廣泛能力。如表 2 所示,MMIE 在深度和廣度上都超越了現有的交錯多模態基準,特別是在解決復雜問題和開放式創意任務方面?;诰牟邉澋臄祿?,我們進一步提出了一種由評分模型驅動的自動化指標。具體來說,我們首先為每個類別設計全面的評估標準。然后,我們策劃一個細粒度的人工標注評分數據集,并使用該數據集微調 InternVL2(Chen 等人,2024c)以獲得評分模型。使用 MMIE,我們評估了四個開源交錯多模態 LVLMs,以及先進 LVLMs(如 GPT-4o)與文本到圖像生成模型(如 Stable Diffusion 3(Esser 等人,2024))的組合。我們的主要貢獻總結如下:
?我們推出了用于評估 LVLMs 的最大高質量交錯多模態基準 MMIE,該數據集將公開發布。
?MMIE 對 LVLMs 提出了重大挑戰,表現最佳的模型(例如 GPT-4o + SDXL)得分僅為 65.47%,突顯了巨大的改進空間。
?所提出的評分模型可靠,已證明與人工評估相當。
2 相關工作
2.1 交錯多模態理解與生成
多模態學習發展迅速,在整合文本和圖像模態方面取得了重大進展。大型視覺語言模型(LVLMs)的最新進展(Liu 等人,2023a;Zhu 等人,2023;2024;Dai 等人,2023;Xia 等人,2024b;c),要么通過整合如 Stable Diffusion(Rombach 等人,2022)這樣的擴散模型驅動,要么使用如 Chameleon(Team,2024)和 Show-o(Xie 等人,2024)這樣的基于令牌的混合模態結構,使模型不僅能夠理解和生成跨模態的內容,還能進行交錯多模態理解和生成。隨著對更豐富、更交互式 AI 的需求增長,交錯多模態理解和生成正在成為下一代 LVLMs 發展的重要組成部分。
2.2 LVLM 基準
盡管多模態學習發展迅速,但評估基準仍遠非完美。以前的基準主要關注評估 LVLMs 的基礎感知能力(Lu 等人,2022;Gurari 等人,2018),例如 GQA(Hudson & Manning,2019),缺乏評估高級推理所需的深度。最近,已提出了幾個高質量的評估基準來評估這些模型的推理能力(Li 等人,2024a;Zhang 等人,2023;Liu 等人,2023a;b;Yu 等人,2023;Xia 等人,2024a;Jiang 等人,2024b;Zhang 等人,2024b;b;c;Jiang 等人,2025),例如 MMMU(Yue 等人,2024)和 MME(Fu 等人,2023)。然而,這些基準不支持交錯的圖像和文本理解與生成。像 MINT-1T(Awadalla 等人,2024)、MANTIS(Jiang 等人,2024a)和 OBELICS(Laurenc?on 等人,2024)這樣的大規模交錯多模態數據集主要是為預訓練模型開發的。然而,它們缺乏文本和圖像之間的精確對齊,不適合評估和基準測試。最近引入了一個小規模的交錯多模態基準(Liu 等人,2024),但其有限的數據規模和查詢質量阻礙了其評估的全面性。MMIE 填補了這一空白,提供了一個支持交錯多模態理解和生成的全面評估框架。我們的數據集包括多個領域的多樣化查詢。通過評估 LVLMs 的感知和生成能力,它提供了更全面的評估。
2.3 多模態任務的評估指標
傳統評估指標,如用于文本質量的 BLEU(Papineni 等人,2002)、BERTScore(Zhang 等人,2020)和用于圖像質量的 FID(Heusel 等人,2017),僅適用于單模態輸出任務。最近的指標,如 CLIPScore(Hessel 等人,2021)和 X-IQE(Chen 等人,2023),已嘗試通過引入多模態模型來評估文本和圖像之間的一致性來解決這一問題。然而,這些指標僅衡量對齊,缺乏對輸出質量的全面評估。此外,許多多模態指標依賴于基于 GPT 的模型(Liu 等人,2024),給整個評估系統帶來了不可控的偏差。為了克服這些缺點,我們提出了一種自動指標,以最大限度地減少偏差并提供對生成結果的全面分析。
3 MMIE 基準
3.1 概述
在本節中,我們介紹 MMIE,這是一個多樣化和全面的基準,用于評估跨廣泛任務的交錯多模態理解和生成。如表 2 所示,MMIE 由 20,103 個精心策劃的樣本組成,涵蓋 12 個領域,包括數學、物理、編程、統計、文學、哲學、教育、金融、健康、體育、藝術和 EECS。每個查詢都經過精心選擇、篩選和完善,以確保在所涵蓋的主題中具有高質量和相關性。此外,MMIE 強調對三種基本能力的評估:感知、推理和生成。與以前評估單模態(Fu 等人,2023;Yue 等人,2024;Li 等人,2024b)輸出結果的基準不同,MMIE 專門設計用于評估模型理解和生成任意順序的交錯文本和圖像的能力。這種評估超越了基本感知,要求模型進行復雜推理,利用不同模態的特定主題知識。
表2 MMIE與其他LVLM基準的比較。Inter-I:交錯輸入;Inter-O:交錯輸出;Multi-I:多圖像輸入;Multi-O:多圖像輸出。#注釋:該表通過多維度對比,清晰展現了MMIE基準相較于其他LVLM基準在數據規模、模態支持、領域覆蓋等方面的優勢。

3.2 數據集策劃
MMIE 中的數據策劃過程包括兩個階段,每個階段都旨在確保我們基準中各個類別的全面覆蓋和高質量表示。我們詳細說明如下:
在第一階段,我們收集并重組四個多模態數據集,以符合交錯的圖像和文本格式,并將它們分類為三個類別 —— 情境分析、基于項目的學習和多步推理,如圖 2 所示。具體來說,對于基于項目的學習,我們從 Wikihow(Yang 等人,2021)中提取數據,該數據最初設計用于測試模型根據給定的文本和圖像上下文選擇正確程序步驟的能力。我們將其調整為交錯的文本和圖像格式。對于情境分析,我們從 VIST(Huang 等人,2016)中抽取樣本,這是一個自然交錯的多模態數據集,設計用于視覺敘事任務,挑戰模型無縫整合敘事文本和圖像。情境分析和基于項目的學習數據集都具有交錯的輸入和輸出。為了用更復雜和多樣化的任務擴展基準,我們進一步引入了支持交錯輸入的專注于多步推理的數據集。為此,我們從 MathVista(Lu 等人,2024)和 ReMI(Kazemi 等人,2024)中獲取示例,它們共同提供了 3,600 個涵蓋從函數到統計主題的問題。這些查詢的答案格式包括選擇題(從幾個選項中選擇一個)和開放式問題(直接生成內容)。從這四個數據集中提取樣本后,我們通過壓縮、重組和整合來自多個來源的問題,將它們合并并完善為一個有凝聚力的基準,確保與我們的評估目標一致。

圖2 MMIE中類別和領域的分布。#注釋:此圖以可視化方式呈現了MMIE基準在類別和領域上的分布情況,有助于直觀理解其覆蓋的范圍和結構。
在第二階段,我們實施了多步驟質量控制過程,以確保數據集的完整性和一致性。首先,我們應用詞匯重疊和源 URL 相似性檢查,以識別和標記潛在的重復條目,然后對其進行人工審核和刪除。接下來,對每個數據集進行精心審核,以確保格式和排版的一致性,確保符合標準化結構。差異得到糾正,以在整個數據集中保持統一性。最終,我們總共收集了 12 個領域的 20,103 個實例,包括數學、物理、編程、統計、文學、哲學、教育、金融、健康、體育、藝術和 EECS。詳細的分類和數據集統計數據見表 1。有關數據集策劃的更多信息,請參閱附錄 A.1。
表1 數據集統計。#注釋:此表對MMIE數據集的各項統計數據進行了匯總,包括問題總數、不同類別占比、格式分布等關鍵信息。

3.3 自動化評估指標
由于傳統指標如 BLEU、BERTScore 和 CLIP-Score 無法提供對多模態輸出質量的全面評估,現有基準使用 GPT-4 系列作為評分模型,這可能在評分過程中引入固有偏差(Liu 等人,2024)。為了確保對各種 LVLMs 的全面和無偏評估,如圖 3 所示,我們提出了一種由我們微調的 LVLM 驅動的自動化評估指標,以協助評分。在這里,我們選擇 InternVL-2-4B(Chen 等人,2024c)作為我們評分系統的基礎,因為它在多模態推理任務中的強大性能和對多圖像輸入的支持。此外,我們微調 InternVL-2-4B 以減輕潛在偏差。

圖3 評分模型的流程。#注釋:該圖展示了MMIE評分模型的工作流程,體現了從數據處理到評分生成的完整過程。
具體來說,我們首先構建一個高質量的多模態評分數據集,涵蓋我們基準的所有方面,并附帶詳細的評分標準和參考答案。在此過程中,我們從四個 LVLMs——MiniGPT-5(Zheng 等人,2023)、EMU-2(Sun 等人,2024)、GILL(Koh 等人,2023)和 Anole(Chern 等人,2024)收集了 800 個響應?;诘孛嬲鎸崢撕?,我們使用帶有明確標準的六點評分量表定義評估標準。一組專家為每個級別生成參考答案,并將所有分數統計轉換為百分比格式。這些標準和參考答案共同構成了 MMIE 的強大評分標準。遵循該標準,人工注釋者嚴格對響應進行評分。評分標準和構建過程的詳細示例在附錄 A.9 和附錄 A.3 中提供。
構建評分數據集后,我們微調 InternVL-2-4B 模型,并使用微調版本作為我們的評分模型。為了驗證其性能,我們隨機選擇 200 個帶有人工評分標簽的新樣本,并將我們模型的結果與其他評分模型的結果進行比較。結果表明,與其他 LVLMs 相比,微調模型顯著提高了人工評分與我們模型生成評分之間的一致性,從而在各種任務中實現了更準確和可靠的評估。我們將在第 4.3 節中詳細討論實驗結果。
3.4 與現有多模態基準的比較
MMIE 在三個關鍵方面超越了現有基準。首先,大多數以前的多模態基準僅支持單模態輸入或輸出,而 MMIE 通過實現交錯的文本和圖像理解與生成來彌補這一差距。我們的數據集確保了強大的模態對齊,將多模態問答對重構為交錯的文本和圖像指令格式,然后進行人工審核以保證質量。此外,這些場景反映了現實世界的應用,如多模態腳本生成、數據圖表分析和多模態故事生成。其次,與最近的交錯理解基準(Liu 等人,2024)相比,MMIE 規模更大,涵蓋的主題范圍更廣,包含推理和時間理解技能,允許進行更全面的評估。最后,MMIE 引入了一個由微調 LVLM 驅動的可靠評分系統,顯著提高了評分的準確性和可靠性。表 2 突出了我們的基準與現有基準之間的差異,展示了 MMIE 在規模、多樣性和評分方法方面的優勢。
4 實驗
MMIE 為支持交錯多模態輸入和輸出的現有開源 LVLMs(交錯 LVLMs)以及最先進的 LVLMs 與文本到圖像生成模型(集成 LVLMs)的集成提供了系統評估。在本節中,我們旨在回答以下關鍵問題:(1)哪種交錯 LVLM 在 MMIE 上總體表現最佳?(2)集成 LVLMs 的效果如何?(3)評估的 LVLMs 是否對某個領域有偏好?(4)與傳統指標和其他 LVLM 評估相比,我們提出的模型驅動指標有多有用?
4.1 實驗設置
基線模型
我們首先對四個開源交錯 LVLMs 進行基準測試。(1)MiniGPT-5(Zheng 等人,2023),一種結合了 MiniGPT-4 和 Stable Diffusion 的多模態模型,專門用于連貫的圖像 - 文本生成。(2)EMU-2(Sun 等人,2024),一種 37B 參數模型,擅長上下文學習和多模態推理,(3)GILL(Koh 等人,2023),一種專門用于生成和檢索交錯輸出的模型,(4)Anole(Chern 等人,2024),基于 Chameleon(Team,2024),一種擅長文本質量的模型,增加了視覺和多模態生成能力。
為了擴大比較范圍,我們還與由文本輸出 LVLMs(即 GPT-4o(Achiam 等人,2023)、Gemini-1.5(Reid 等人,2024)、LLaVA-v1.6-34b(Liu 等人,2023a)和 Qwen-VL-2-72b(Wang 等人,2024))和文本到圖像生成模型(即 Openjourney(ope)、Stable Diffusion 3 Medium(Esser 等人,2024)、Stable Diffusion XL turbo、Flux.1-dev(flu))組成的集成 LVLMs 進行比較。我們將交錯的文本和圖像輸入提供給 LVLM 以生成文本,然后將該文本饋送到文本到圖像生成模型以生成圖像。此過程產生的多模態輸出被視為用于評估的交錯輸出。
人工注釋者
我們組織了一組頂級高校的高年級學生,他們為評分數據集的策劃做出了貢獻。為確保評估的全面性和一致性,我們為基準的每個類別制定了詳細的標準(詳細信息見附錄 A.9)。
評估指標
我們使用第 3.3 節中提出的指標評估所有模型的性能,該指標由基于 InternVL-2-4B(Chen 等人,2024c)微調的 LVLM 驅動,以確??煽康脑u分。
4.2 主要結果
在本節中,我們展示了在 MMIE 基準上的綜合評估。交錯 LVLMs 和集成 LVLMs 的詳細性能分別如表 3 和表 4 所示。我們的主要發現總結如下:
表3 四個支持交錯圖像和文本輸入輸出的開源LVLMs在MMIE上的性能,以百分比顯示。#注釋:此表呈現了不同開源LVLMs在MMIE基準上的具體性能表現,為評估模型能力提供了數據支撐。

表4 與最先進的集成文本到圖像模型的LVLMs(稱為集成LVLMs)在MMIE上的比較。*:LLaVA僅支持單圖像輸入,因此跳過所有多圖像查詢。#注釋:該表對比了集成LVLMs與其他模型的性能,突出了集成模型在某些任務中的表現。

具有挑戰性的評估和有希望的方向
如表 3 所示,所有評估的交錯 LVLMs 表現不佳,平均得分為 50.80%。即使集成了 GPT-4o 等先進模型和文本到圖像生成模型,如表 4 所示,達到的最佳分數(GPT-4o + SDXL)為 65.47%。這凸顯了 MMIE 的高難度和挑戰性。有趣的是,最新的交錯 LVLM Anole(Chern 等人,2024)與之前的交錯 LVLMs 相比有顯著改進,平均得分分別比 MiniGPT-5、GILL 和 EMU-2 高 8.4%、7.0%、21.8%。這表明交錯的文本和圖像模型作為多模態理解和生成未來進展的有希望方向的潛力越來越大。為了促進 MMIE 的更廣泛采用,我們提取了 1,000 個樣本以創建一個迷你集。詳細結果可在附錄 A.5 中找到。
交錯 LVLMs 與集成 LVLMs 之間的差距
現有的交錯 LVLMs 仍然相當有限。為了增強我們對基準的評估和分析,我們在實驗中將非交錯 LVLMs 與 T2I 模型集成。這種集成 LVLMs 方法在所有類別中平均比以前的開源交錯 LVLMs 性能提高了 25.2%。具體而言,集成模型在情境分析、基于項目的學習和多步推理中分別比交錯模型的最佳性能高出 14.6%、26.3% 和 16.1%。令人驚訝的是,集成 LVLMs 在基于項目的學習中表現異常出色,所有基于 LLaVA-34b 的模型得分都在 70% 以上。這些發現表明,將非交錯 LVLMs 的強大理解能力與 T2I 模型的生成能力相結合,為未來的研究提供了一條有希望的途徑。
不同領域的模型性能
如之前在表 3 和表 4 中所示,模型性能因數據的不同類別而異,在基于項目的學習中取得最佳結果,在情境分析中得分最低。這表明模型的性能因類別而異,可能是由于訓練數據分布的固有問題。例如,Anole(Chern 等人,2024)在基于項目的學習數據中得分為 59.05%,但在情境分析中僅為 48.95%,表明它擅長創造性的開放式生成,但在處理詳細的特定學科知識方面有所不足。深入到更細粒度的領域,如圖 4 所示,不同的模型對某些領域的數據表現出偏好。在基于項目的學習的七個領域中,包括教育、金融、健康、哲學、體育、藝術和 EECS,幾乎所有模型在更容易理解的領域,如哲學、藝術和教育中表現良好,但在需要更高推理能力的更復雜領域,如金融和 EECS 中面臨挑戰。圖 4 還顯示,在文本和圖像質量、文本 - 圖像連貫性、方法質量和實用性、創造力和參與度、風格一致性和對應性等標準的得分普遍逐漸下降,表明所有模型都嚴重缺乏文本和圖像對齊以及使用交錯輸出來解決現實世界問題的能力。詳細結果可在附錄 A.7 中找到。

圖4 基于我們的標準,每個模型在基于項目的學習的七個領域中的平均和總分。我們取GPT-4o、Gemini-1.5、LLaVA-v1.6-34b和Qwen-VL2-72b在四個文本到圖像擴散模型上的平均值。#注釋:此圖展示了不同模型在基于項目的學習的多個領域中的表現情況,反映出模型在不同領域的能力差異。
4.3 我們的模型驅動指標與人工注釋的一致性如何?
在本節中,我們進一步驗證了我們提出的指標的有效性。在這里,我們進行了一項實驗,使用幾種差異和相似性指標,即余弦相似度、均方誤差(MSE)、平均絕對誤差(MAE)和皮爾遜系數,來評估其與人工注釋的相關性。為了進行比較,我們報告了傳統多模態對齊指標(即 CLIPScore)和 LVLMs(包括 GPT-4o)判斷的分數,GPT-4o 已在(Liu 等人,2024)中用作指標。如表 5 所示,我們的指標與人工評估結果表現出最接近的一致性,證明是最可靠的。我們的評分模型有效地捕捉了圖像和文本序列的多模態特征,并通過精確的復雜推理對其進行判斷。相比之下,其他 LVLMs 和 CLIPScore 往往主要關注理解序列信息,但在把握序列之間的關系和準確判斷它們之間的對齊方面有所不足。總之,實驗表明我們的指標是評估交錯多模態生成的穩健和可靠的標準。我們在附錄 A.4 和 A.8 中分別提供了 MMIE-Score 的評分偏差和泛化性分析。
表5 評分LVLMs和傳統圖像文本對齊指標的比較。#注釋:該表對不同評分模型和傳統指標進行了對比,驗證了MMIE提出的指標的可靠性和優越性。

5 錯誤分析
本節對評估過程中發現的錯誤進行了詳細分析。我們將關鍵挑戰分為兩類:時間理解和推理能力。具體而言,時間理解問題涉及多模態信息理解和跨模態連貫性,而推理問題涉及復雜推理和生成能力。這一分析源于專家注釋者在評分過程中的觀察,不僅突出了模型當前的局限性,還為未來的發展提供了潛在的改進方向。詳細示例見圖 5。更多案例可在附錄 C 中找到。
5.1 時間理解能力
主要錯誤在于跨模態連貫性和生成適應性。許多模型難以生成與伴隨文本準確對應的圖像,導致嚴重的信息差距、扭曲和冗余。
跨模態連貫性
最常見的錯誤之一是文本和圖像生成之間的不連貫。由于多模態對齊的不足,生成的圖像中的細節通常模糊或完全缺失,使其難以與文本中描述的上下文對齊。一個典型的例子如圖 5 所示,模型正確理解了 “瀏覽器圖像:HowToUseSkypes.png” 方法并產生了準確的文本響應。然而,它生成的相應圖像僅由顏色塊組成,缺乏與文本建立連貫性和對齊所需的必要細節。
生成適應性
另一個重大錯誤是生成響應的不靈活性。例如,模型只能理解給定的文本并產生簡單、缺乏細節的響應。例如,在圖 5 中,模型的回復僅包含標題 “下一步是編寫”,而沒有進一步詳細說明所涉及的步驟或過程,這與提供的查詢示例不同。這個問題可能源于文本理解和生成的弱點。

圖5 模型失敗的示例。介紹并分類了四種典型的錯誤類型,即文本和圖像生成之間的不連貫、生成響應的不靈活性、多模態信息理解差以及無法處理復雜推理任務。#注釋:該圖通過具體示例展示了模型在評估中出現的典型錯誤類型,為分析模型缺陷提供了直觀參考。
5.2 推理能力
在評估模型的推理能力時,最普遍的錯誤類型出現在多模態信息理解和復雜推理中。值得注意的是,許多模型甚至在理解交錯信息方面表現出重大錯誤(Jin 等人,2024b;a;Chen 等人,2024a;b;Zhang 等人,2024a),這不可避免地導致后續推理錯誤。
多模態信息理解
評估 LVLMs 推理能力的一個關鍵錯誤是它們難以理解多模態查詢,特別是從圖像中提取視覺信息。一個常見的問題是,模型正確解釋了查詢的文本組件,但未能完全理解圖像中的視覺細節。例如,在比較四個數據集體積的條形圖的情況下,每個數據集由 y 軸上具有相應高度的條形表示,模型可能識別圖表的標題和標簽,但忽略條形本身傳達的關鍵信息 —— 例如數據集的相對大小。這凸顯了模型傾向于關注表面級文本線索,而不深入探究圖像中嵌入的更深層次的圖形含義。這也凸顯了一個更廣泛的趨勢:LVLMs 表現出強烈的偏向于處理文本,而不是從視覺數據和其他非文本模態中提取細微信息。
復雜推理
另一個重大錯誤是模型無法處理復雜推理任務。如圖 5 所示,模型在多步推理中表現出明顯的弱點。例如,在生物系統的影響分析中,模型正確預測毛毛蟲的減少會導致鳥類種群的下降,但未能推斷出次級效應 —— 植物種群會增加。另一個例子見于算術問題,其中模型犯了明顯的錯誤,例如未能計算三角形的精確長度。這些例子強調了加強模型多步推理能力的必要性,使其在處理復雜任務時更加穩健和可靠。
6 結論
本文介紹了 MMIE,這是一個用于交錯圖像和文本理解與生成的大規模、多樣化基準。MMIE 跨越廣泛的領域,提供了用于交錯多模態理解和生成的全面評估框架,具有 20,000 個查詢。該數據集涵蓋廣泛的領域,確保了對 LVLMs 各個維度的高質量評估。此外,我們提出的模型驅動指標基于輸入的圖像 - 文本上下文,有效地評估了輸出的圖像 - 文本信息的質量。我們的大量實驗進一步表明,我們提出的指標提供了穩健的、類似人工的評估性能,顯著減少了錯誤和偏差。盡管如此,我們觀察到現有模型表現不佳,特別是在復雜和深度交錯的多模態任務中,凸顯了該領域未來面臨的挑戰和機遇。
倫理聲明
本文專注于交錯大型視覺語言模型的評估。使用新構建的人工注釋數據集來微調評分模型。該數據集是按照倫理指南策劃的,以確保不包含敏感信息,并在注釋過程中盡量減少偏差。評估過程旨在透明和可重復,遵循研究完整性和倫理行為的高標準。沒有收集或處理個人可識別數據。
可重復性聲明
為了確保我們結果的可重復性,我們已做出大量努力提供所有必要的細節和材料。具體而言,我們在第 3 節中包括了數據集創建過程的全面描述,包括注釋指南和數據收集方法,并在附錄 A.1 中進一步闡述?;鶞屎驮u估程序在第 4 節中詳細描述,所使用的指標明確定義,以促進獨立驗證。
本文轉載自??AIRoobt?? ,作者:Diji Yang等

















