精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

MMIE:用于大型視覺語言模型的大規模多模態交錯理解基準(ICLR 2025) 原創

發布于 2025-5-29 06:32
瀏覽
0收藏

摘要 

交錯多模態理解與生成能力 —— 使模型能夠以任意順序生成和解釋圖像與文本 —— 已成為多模態學習的關鍵領域。盡管已有顯著進展,但對這一能力的評估仍顯不足。現有基準在數據規模、范圍和評估深度上存在局限,而當前評估指標往往成本高昂或帶有偏見,在實際應用中缺乏可靠性。為應對這些挑戰,我們推出 MMIE,這是一個大規模知識密集型基準,用于評估大型視覺語言模型(LVLMs)的交錯多模態理解與生成能力。MMIE 包含 20,000 個精心策劃的多模態查詢,涵蓋 3 個類別、12 個領域和 102 個子領域,包括數學、編程、物理、文學、健康和藝術等。它支持交錯的輸入和輸出,并提供選擇題和開放式問題格式的混合,以評估多樣化的能力。此外,我們提出了一種可靠的自動化評估指標,利用通過人工標注數據和系統評估標準微調的評分模型,旨在減少偏差并提高評估準確性。大量實驗證明了我們的基準和指標在全面評估交錯 LVLMs 方面的有效性。具體而言,我們評估了八種 LVLMs,結果顯示即使是最佳模型也有顯著的改進空間,大多數僅取得中等結果。我們相信 MMIE 將推動交錯 LVLMs 發展的進一步突破。我們在??https://mmie-bench.github.io/??公開發布我們的基準和代碼。 

1 引言 

“真正的評估在于不同模態的無縫交織?!?nbsp;

隨著大型視覺語言模型(LVLMs)的發展,多模態學習取得了顯著進步(Liu 等人,2023a;Zhu 等人,2023;Dai 等人,2023),這些模型能夠處理涉及圖像和文本的各種任務。盡管如此,大多數這些模型僅限于用于文本生成的多模態任務,如視覺問答(VQA)和圖像描述,這并未充分反映多模態能力的潛力。為了拓寬其應用,交錯的文本和圖像生成已成為一個關鍵研究領域(Liu 等人,2024)。它要求模型以任意順序生成圖像和文本,從而增強多模態系統的通用性和有效性。這為各種復雜應用開辟了可能性,如多步推理(Lu 等人,2024;Kazemi 等人,2024)、多模態情境分析(Yang 等人,2021)和視覺敘事(Huang 等人,2016)。 

盡管最近的 LVLMs 正在發展以支持交錯的文本和圖像生成(Team,2024;Xie 等人,2024;Chern 等人,2024;Zhou 等人,2024),但由于以下兩個挑戰,全面的評估基準仍然滯后: 

1.1 構建模態一致基準的難度 

第一個挑戰在于構建模態對齊的多模態數據集的困難,其中輸入和輸出都包含圖像和文本。當前基準主要關注單模態輸出任務(Fu 等人,2023;Li 等人,2024a;Zhang 等人,2023),僅評估生成圖像或文本的質量,而沒有對模態之間的關鍵聯系進行基準測試,例如文本 - 圖像的連貫性和一致性。盡管有一些數據集支持 LVLMs 的交錯多模態評估方法(Liu 等人,2024),但其數據集受到規模有限和查詢格式狹窄的限制,主要集中在 VQA 任務上。 

1.2 缺乏自動化評估指標 

第二個挑戰是缺乏適用于交錯生成的自動化評估指標。人工評估成本高且耗時,難以在實際應用中擴展。當前的自動化評估指標通常要么評估生成文本的質量(例如 BLEU(Papineni 等人,2002)、BERTScore(Zhang 等人,2020)),要么評估生成圖像的質量(例如 FID(Heusel 等人,2017))。盡管最近的評估策略,如使用 CLIPScore(Hessel 等人,2021)和視覺語言模型(VLMs)(Chen 等人,2023;Liu 等人,2024),可以評估不同模態之間的聯系,但它們嚴重依賴特定模型的預訓練知識(例如 CLIP 訓練數據)或遵循嚴格的人工定義規則。這些方法在一定程度上會引入偏差和不確定性,常常導致結果不一致(Mahmoud 等人,2024)。 



MMIE:用于大型視覺語言模型的大規模多模態交錯理解基準(ICLR 2025)-AI.x社區

圖1 MMIE基準的典型樣本,展示其支持多圖像輸入和輸出,并為每個查詢提供真實標簽。MMIE跨不同領域評估模型,確保對其能力的全面評估。#注釋:該圖呈現了MMIE基準中具有代表性的樣本,直觀體現出基準在多圖像模態交互方面的支持情況,以及其評估的全面性。

為解決這些限制,我們引入 MMIE,這是一個用于 LVLMs 的大規模多模態交錯理解評估基準,并提出了可靠的自動化指標。MMIE 從四個多模態數據集精心策劃而來,涉及 3 個類別、12 個領域和 102 個子領域,包括數學、物理、編程、統計、文學、哲學、教育、金融、健康、體育、藝術和 EECS(電氣工程與計算機科學)。該數據集包含 20,000 個多模態問題,支持交錯的輸入和輸出。它具有選擇題和開放式問題格式的混合,以評估各個領域的廣泛能力。如表 2 所示,MMIE 在深度和廣度上都超越了現有的交錯多模態基準,特別是在解決復雜問題和開放式創意任務方面?;诰牟邉澋臄祿?,我們進一步提出了一種由評分模型驅動的自動化指標。具體來說,我們首先為每個類別設計全面的評估標準。然后,我們策劃一個細粒度的人工標注評分數據集,并使用該數據集微調 InternVL2(Chen 等人,2024c)以獲得評分模型。使用 MMIE,我們評估了四個開源交錯多模態 LVLMs,以及先進 LVLMs(如 GPT-4o)與文本到圖像生成模型(如 Stable Diffusion 3(Esser 等人,2024))的組合。我們的主要貢獻總結如下: 

?我們推出了用于評估 LVLMs 的最大高質量交錯多模態基準 MMIE,該數據集將公開發布。 

?MMIE 對 LVLMs 提出了重大挑戰,表現最佳的模型(例如 GPT-4o + SDXL)得分僅為 65.47%,突顯了巨大的改進空間。 

?所提出的評分模型可靠,已證明與人工評估相當。 

2 相關工作 

2.1 交錯多模態理解與生成 

多模態學習發展迅速,在整合文本和圖像模態方面取得了重大進展。大型視覺語言模型(LVLMs)的最新進展(Liu 等人,2023a;Zhu 等人,2023;2024;Dai 等人,2023;Xia 等人,2024b;c),要么通過整合如 Stable Diffusion(Rombach 等人,2022)這樣的擴散模型驅動,要么使用如 Chameleon(Team,2024)和 Show-o(Xie 等人,2024)這樣的基于令牌的混合模態結構,使模型不僅能夠理解和生成跨模態的內容,還能進行交錯多模態理解和生成。隨著對更豐富、更交互式 AI 的需求增長,交錯多模態理解和生成正在成為下一代 LVLMs 發展的重要組成部分。 

2.2 LVLM 基準 

盡管多模態學習發展迅速,但評估基準仍遠非完美。以前的基準主要關注評估 LVLMs 的基礎感知能力(Lu 等人,2022;Gurari 等人,2018),例如 GQA(Hudson & Manning,2019),缺乏評估高級推理所需的深度。最近,已提出了幾個高質量的評估基準來評估這些模型的推理能力(Li 等人,2024a;Zhang 等人,2023;Liu 等人,2023a;b;Yu 等人,2023;Xia 等人,2024a;Jiang 等人,2024b;Zhang 等人,2024b;b;c;Jiang 等人,2025),例如 MMMU(Yue 等人,2024)和 MME(Fu 等人,2023)。然而,這些基準不支持交錯的圖像和文本理解與生成。像 MINT-1T(Awadalla 等人,2024)、MANTIS(Jiang 等人,2024a)和 OBELICS(Laurenc?on 等人,2024)這樣的大規模交錯多模態數據集主要是為預訓練模型開發的。然而,它們缺乏文本和圖像之間的精確對齊,不適合評估和基準測試。最近引入了一個小規模的交錯多模態基準(Liu 等人,2024),但其有限的數據規模和查詢質量阻礙了其評估的全面性。MMIE 填補了這一空白,提供了一個支持交錯多模態理解和生成的全面評估框架。我們的數據集包括多個領域的多樣化查詢。通過評估 LVLMs 的感知和生成能力,它提供了更全面的評估。 

2.3 多模態任務的評估指標 

傳統評估指標,如用于文本質量的 BLEU(Papineni 等人,2002)、BERTScore(Zhang 等人,2020)和用于圖像質量的 FID(Heusel 等人,2017),僅適用于單模態輸出任務。最近的指標,如 CLIPScore(Hessel 等人,2021)和 X-IQE(Chen 等人,2023),已嘗試通過引入多模態模型來評估文本和圖像之間的一致性來解決這一問題。然而,這些指標僅衡量對齊,缺乏對輸出質量的全面評估。此外,許多多模態指標依賴于基于 GPT 的模型(Liu 等人,2024),給整個評估系統帶來了不可控的偏差。為了克服這些缺點,我們提出了一種自動指標,以最大限度地減少偏差并提供對生成結果的全面分析。 

3 MMIE 基準 

3.1 概述 

在本節中,我們介紹 MMIE,這是一個多樣化和全面的基準,用于評估跨廣泛任務的交錯多模態理解和生成。如表 2 所示,MMIE 由 20,103 個精心策劃的樣本組成,涵蓋 12 個領域,包括數學、物理、編程、統計、文學、哲學、教育、金融、健康、體育、藝術和 EECS。每個查詢都經過精心選擇、篩選和完善,以確保在所涵蓋的主題中具有高質量和相關性。此外,MMIE 強調對三種基本能力的評估:感知、推理和生成。與以前評估單模態(Fu 等人,2023;Yue 等人,2024;Li 等人,2024b)輸出結果的基準不同,MMIE 專門設計用于評估模型理解和生成任意順序的交錯文本和圖像的能力。這種評估超越了基本感知,要求模型進行復雜推理,利用不同模態的特定主題知識。 

表2 MMIE與其他LVLM基準的比較。Inter-I:交錯輸入;Inter-O:交錯輸出;Multi-I:多圖像輸入;Multi-O:多圖像輸出。#注釋:該表通過多維度對比,清晰展現了MMIE基準相較于其他LVLM基準在數據規模、模態支持、領域覆蓋等方面的優勢。


MMIE:用于大型視覺語言模型的大規模多模態交錯理解基準(ICLR 2025)-AI.x社區

3.2 數據集策劃 

MMIE 中的數據策劃過程包括兩個階段,每個階段都旨在確保我們基準中各個類別的全面覆蓋和高質量表示。我們詳細說明如下: 

在第一階段,我們收集并重組四個多模態數據集,以符合交錯的圖像和文本格式,并將它們分類為三個類別 —— 情境分析、基于項目的學習和多步推理,如圖 2 所示。具體來說,對于基于項目的學習,我們從 Wikihow(Yang 等人,2021)中提取數據,該數據最初設計用于測試模型根據給定的文本和圖像上下文選擇正確程序步驟的能力。我們將其調整為交錯的文本和圖像格式。對于情境分析,我們從 VIST(Huang 等人,2016)中抽取樣本,這是一個自然交錯的多模態數據集,設計用于視覺敘事任務,挑戰模型無縫整合敘事文本和圖像。情境分析和基于項目的學習數據集都具有交錯的輸入和輸出。為了用更復雜和多樣化的任務擴展基準,我們進一步引入了支持交錯輸入的專注于多步推理的數據集。為此,我們從 MathVista(Lu 等人,2024)和 ReMI(Kazemi 等人,2024)中獲取示例,它們共同提供了 3,600 個涵蓋從函數到統計主題的問題。這些查詢的答案格式包括選擇題(從幾個選項中選擇一個)和開放式問題(直接生成內容)。從這四個數據集中提取樣本后,我們通過壓縮、重組和整合來自多個來源的問題,將它們合并并完善為一個有凝聚力的基準,確保與我們的評估目標一致。 



MMIE:用于大型視覺語言模型的大規模多模態交錯理解基準(ICLR 2025)-AI.x社區

圖2 MMIE中類別和領域的分布。#注釋:此圖以可視化方式呈現了MMIE基準在類別和領域上的分布情況,有助于直觀理解其覆蓋的范圍和結構。

在第二階段,我們實施了多步驟質量控制過程,以確保數據集的完整性和一致性。首先,我們應用詞匯重疊和源 URL 相似性檢查,以識別和標記潛在的重復條目,然后對其進行人工審核和刪除。接下來,對每個數據集進行精心審核,以確保格式和排版的一致性,確保符合標準化結構。差異得到糾正,以在整個數據集中保持統一性。最終,我們總共收集了 12 個領域的 20,103 個實例,包括數學、物理、編程、統計、文學、哲學、教育、金融、健康、體育、藝術和 EECS。詳細的分類和數據集統計數據見表 1。有關數據集策劃的更多信息,請參閱附錄 A.1。 

表1 數據集統計。#注釋:此表對MMIE數據集的各項統計數據進行了匯總,包括問題總數、不同類別占比、格式分布等關鍵信息。


MMIE:用于大型視覺語言模型的大規模多模態交錯理解基準(ICLR 2025)-AI.x社區

3.3 自動化評估指標 

由于傳統指標如 BLEU、BERTScore 和 CLIP-Score 無法提供對多模態輸出質量的全面評估,現有基準使用 GPT-4 系列作為評分模型,這可能在評分過程中引入固有偏差(Liu 等人,2024)。為了確保對各種 LVLMs 的全面和無偏評估,如圖 3 所示,我們提出了一種由我們微調的 LVLM 驅動的自動化評估指標,以協助評分。在這里,我們選擇 InternVL-2-4B(Chen 等人,2024c)作為我們評分系統的基礎,因為它在多模態推理任務中的強大性能和對多圖像輸入的支持。此外,我們微調 InternVL-2-4B 以減輕潛在偏差。 



MMIE:用于大型視覺語言模型的大規模多模態交錯理解基準(ICLR 2025)-AI.x社區

圖3 評分模型的流程。#注釋:該圖展示了MMIE評分模型的工作流程,體現了從數據處理到評分生成的完整過程。

具體來說,我們首先構建一個高質量的多模態評分數據集,涵蓋我們基準的所有方面,并附帶詳細的評分標準和參考答案。在此過程中,我們從四個 LVLMs——MiniGPT-5(Zheng 等人,2023)、EMU-2(Sun 等人,2024)、GILL(Koh 等人,2023)和 Anole(Chern 等人,2024)收集了 800 個響應?;诘孛嬲鎸崢撕?,我們使用帶有明確標準的六點評分量表定義評估標準。一組專家為每個級別生成參考答案,并將所有分數統計轉換為百分比格式。這些標準和參考答案共同構成了 MMIE 的強大評分標準。遵循該標準,人工注釋者嚴格對響應進行評分。評分標準和構建過程的詳細示例在附錄 A.9 和附錄 A.3 中提供。 

構建評分數據集后,我們微調 InternVL-2-4B 模型,并使用微調版本作為我們的評分模型。為了驗證其性能,我們隨機選擇 200 個帶有人工評分標簽的新樣本,并將我們模型的結果與其他評分模型的結果進行比較。結果表明,與其他 LVLMs 相比,微調模型顯著提高了人工評分與我們模型生成評分之間的一致性,從而在各種任務中實現了更準確和可靠的評估。我們將在第 4.3 節中詳細討論實驗結果。 

3.4 與現有多模態基準的比較 

MMIE 在三個關鍵方面超越了現有基準。首先,大多數以前的多模態基準僅支持單模態輸入或輸出,而 MMIE 通過實現交錯的文本和圖像理解與生成來彌補這一差距。我們的數據集確保了強大的模態對齊,將多模態問答對重構為交錯的文本和圖像指令格式,然后進行人工審核以保證質量。此外,這些場景反映了現實世界的應用,如多模態腳本生成、數據圖表分析和多模態故事生成。其次,與最近的交錯理解基準(Liu 等人,2024)相比,MMIE 規模更大,涵蓋的主題范圍更廣,包含推理和時間理解技能,允許進行更全面的評估。最后,MMIE 引入了一個由微調 LVLM 驅動的可靠評分系統,顯著提高了評分的準確性和可靠性。表 2 突出了我們的基準與現有基準之間的差異,展示了 MMIE 在規模、多樣性和評分方法方面的優勢。 

4 實驗 

MMIE 為支持交錯多模態輸入和輸出的現有開源 LVLMs(交錯 LVLMs)以及最先進的 LVLMs 與文本到圖像生成模型(集成 LVLMs)的集成提供了系統評估。在本節中,我們旨在回答以下關鍵問題:(1)哪種交錯 LVLM 在 MMIE 上總體表現最佳?(2)集成 LVLMs 的效果如何?(3)評估的 LVLMs 是否對某個領域有偏好?(4)與傳統指標和其他 LVLM 評估相比,我們提出的模型驅動指標有多有用? 

4.1 實驗設置 

基線模型 

我們首先對四個開源交錯 LVLMs 進行基準測試。(1)MiniGPT-5(Zheng 等人,2023),一種結合了 MiniGPT-4 和 Stable Diffusion 的多模態模型,專門用于連貫的圖像 - 文本生成。(2)EMU-2(Sun 等人,2024),一種 37B 參數模型,擅長上下文學習和多模態推理,(3)GILL(Koh 等人,2023),一種專門用于生成和檢索交錯輸出的模型,(4)Anole(Chern 等人,2024),基于 Chameleon(Team,2024),一種擅長文本質量的模型,增加了視覺和多模態生成能力。 

為了擴大比較范圍,我們還與由文本輸出 LVLMs(即 GPT-4o(Achiam 等人,2023)、Gemini-1.5(Reid 等人,2024)、LLaVA-v1.6-34b(Liu 等人,2023a)和 Qwen-VL-2-72b(Wang 等人,2024))和文本到圖像生成模型(即 Openjourney(ope)、Stable Diffusion 3 Medium(Esser 等人,2024)、Stable Diffusion XL turbo、Flux.1-dev(flu))組成的集成 LVLMs 進行比較。我們將交錯的文本和圖像輸入提供給 LVLM 以生成文本,然后將該文本饋送到文本到圖像生成模型以生成圖像。此過程產生的多模態輸出被視為用于評估的交錯輸出。 

人工注釋者 

我們組織了一組頂級高校的高年級學生,他們為評分數據集的策劃做出了貢獻。為確保評估的全面性和一致性,我們為基準的每個類別制定了詳細的標準(詳細信息見附錄 A.9)。 

評估指標 

我們使用第 3.3 節中提出的指標評估所有模型的性能,該指標由基于 InternVL-2-4B(Chen 等人,2024c)微調的 LVLM 驅動,以確??煽康脑u分。 

4.2 主要結果 

在本節中,我們展示了在 MMIE 基準上的綜合評估。交錯 LVLMs 和集成 LVLMs 的詳細性能分別如表 3 和表 4 所示。我們的主要發現總結如下:

表3 四個支持交錯圖像和文本輸入輸出的開源LVLMs在MMIE上的性能,以百分比顯示。#注釋:此表呈現了不同開源LVLMs在MMIE基準上的具體性能表現,為評估模型能力提供了數據支撐。


MMIE:用于大型視覺語言模型的大規模多模態交錯理解基準(ICLR 2025)-AI.x社區

表4 與最先進的集成文本到圖像模型的LVLMs(稱為集成LVLMs)在MMIE上的比較。*:LLaVA僅支持單圖像輸入,因此跳過所有多圖像查詢。#注釋:該表對比了集成LVLMs與其他模型的性能,突出了集成模型在某些任務中的表現。


MMIE:用于大型視覺語言模型的大規模多模態交錯理解基準(ICLR 2025)-AI.x社區

具有挑戰性的評估和有希望的方向 

如表 3 所示,所有評估的交錯 LVLMs 表現不佳,平均得分為 50.80%。即使集成了 GPT-4o 等先進模型和文本到圖像生成模型,如表 4 所示,達到的最佳分數(GPT-4o + SDXL)為 65.47%。這凸顯了 MMIE 的高難度和挑戰性。有趣的是,最新的交錯 LVLM Anole(Chern 等人,2024)與之前的交錯 LVLMs 相比有顯著改進,平均得分分別比 MiniGPT-5、GILL 和 EMU-2 高 8.4%、7.0%、21.8%。這表明交錯的文本和圖像模型作為多模態理解和生成未來進展的有希望方向的潛力越來越大。為了促進 MMIE 的更廣泛采用,我們提取了 1,000 個樣本以創建一個迷你集。詳細結果可在附錄 A.5 中找到。 

交錯 LVLMs 與集成 LVLMs 之間的差距 

現有的交錯 LVLMs 仍然相當有限。為了增強我們對基準的評估和分析,我們在實驗中將非交錯 LVLMs 與 T2I 模型集成。這種集成 LVLMs 方法在所有類別中平均比以前的開源交錯 LVLMs 性能提高了 25.2%。具體而言,集成模型在情境分析、基于項目的學習和多步推理中分別比交錯模型的最佳性能高出 14.6%、26.3% 和 16.1%。令人驚訝的是,集成 LVLMs 在基于項目的學習中表現異常出色,所有基于 LLaVA-34b 的模型得分都在 70% 以上。這些發現表明,將非交錯 LVLMs 的強大理解能力與 T2I 模型的生成能力相結合,為未來的研究提供了一條有希望的途徑。 

不同領域的模型性能 

如之前在表 3 和表 4 中所示,模型性能因數據的不同類別而異,在基于項目的學習中取得最佳結果,在情境分析中得分最低。這表明模型的性能因類別而異,可能是由于訓練數據分布的固有問題。例如,Anole(Chern 等人,2024)在基于項目的學習數據中得分為 59.05%,但在情境分析中僅為 48.95%,表明它擅長創造性的開放式生成,但在處理詳細的特定學科知識方面有所不足。深入到更細粒度的領域,如圖 4 所示,不同的模型對某些領域的數據表現出偏好。在基于項目的學習的七個領域中,包括教育、金融、健康、哲學、體育、藝術和 EECS,幾乎所有模型在更容易理解的領域,如哲學、藝術和教育中表現良好,但在需要更高推理能力的更復雜領域,如金融和 EECS 中面臨挑戰。圖 4 還顯示,在文本和圖像質量、文本 - 圖像連貫性、方法質量和實用性、創造力和參與度、風格一致性和對應性等標準的得分普遍逐漸下降,表明所有模型都嚴重缺乏文本和圖像對齊以及使用交錯輸出來解決現實世界問題的能力。詳細結果可在附錄 A.7 中找到。 


MMIE:用于大型視覺語言模型的大規模多模態交錯理解基準(ICLR 2025)-AI.x社區

圖4 基于我們的標準,每個模型在基于項目的學習的七個領域中的平均和總分。我們取GPT-4o、Gemini-1.5、LLaVA-v1.6-34b和Qwen-VL2-72b在四個文本到圖像擴散模型上的平均值。#注釋:此圖展示了不同模型在基于項目的學習的多個領域中的表現情況,反映出模型在不同領域的能力差異。

4.3 我們的模型驅動指標與人工注釋的一致性如何? 

在本節中,我們進一步驗證了我們提出的指標的有效性。在這里,我們進行了一項實驗,使用幾種差異和相似性指標,即余弦相似度、均方誤差(MSE)、平均絕對誤差(MAE)和皮爾遜系數,來評估其與人工注釋的相關性。為了進行比較,我們報告了傳統多模態對齊指標(即 CLIPScore)和 LVLMs(包括 GPT-4o)判斷的分數,GPT-4o 已在(Liu 等人,2024)中用作指標。如表 5 所示,我們的指標與人工評估結果表現出最接近的一致性,證明是最可靠的。我們的評分模型有效地捕捉了圖像和文本序列的多模態特征,并通過精確的復雜推理對其進行判斷。相比之下,其他 LVLMs 和 CLIPScore 往往主要關注理解序列信息,但在把握序列之間的關系和準確判斷它們之間的對齊方面有所不足。總之,實驗表明我們的指標是評估交錯多模態生成的穩健和可靠的標準。我們在附錄 A.4 和 A.8 中分別提供了 MMIE-Score 的評分偏差和泛化性分析。 

表5 評分LVLMs和傳統圖像文本對齊指標的比較。#注釋:該表對不同評分模型和傳統指標進行了對比,驗證了MMIE提出的指標的可靠性和優越性。


MMIE:用于大型視覺語言模型的大規模多模態交錯理解基準(ICLR 2025)-AI.x社區

5 錯誤分析 

本節對評估過程中發現的錯誤進行了詳細分析。我們將關鍵挑戰分為兩類:時間理解和推理能力。具體而言,時間理解問題涉及多模態信息理解和跨模態連貫性,而推理問題涉及復雜推理和生成能力。這一分析源于專家注釋者在評分過程中的觀察,不僅突出了模型當前的局限性,還為未來的發展提供了潛在的改進方向。詳細示例見圖 5。更多案例可在附錄 C 中找到。 

5.1 時間理解能力 

主要錯誤在于跨模態連貫性和生成適應性。許多模型難以生成與伴隨文本準確對應的圖像,導致嚴重的信息差距、扭曲和冗余。 

跨模態連貫性 

最常見的錯誤之一是文本和圖像生成之間的不連貫。由于多模態對齊的不足,生成的圖像中的細節通常模糊或完全缺失,使其難以與文本中描述的上下文對齊。一個典型的例子如圖 5 所示,模型正確理解了 “瀏覽器圖像:HowToUseSkypes.png” 方法并產生了準確的文本響應。然而,它生成的相應圖像僅由顏色塊組成,缺乏與文本建立連貫性和對齊所需的必要細節。 

生成適應性 

另一個重大錯誤是生成響應的不靈活性。例如,模型只能理解給定的文本并產生簡單、缺乏細節的響應。例如,在圖 5 中,模型的回復僅包含標題 “下一步是編寫”,而沒有進一步詳細說明所涉及的步驟或過程,這與提供的查詢示例不同。這個問題可能源于文本理解和生成的弱點。 



MMIE:用于大型視覺語言模型的大規模多模態交錯理解基準(ICLR 2025)-AI.x社區

圖5 模型失敗的示例。介紹并分類了四種典型的錯誤類型,即文本和圖像生成之間的不連貫、生成響應的不靈活性、多模態信息理解差以及無法處理復雜推理任務。#注釋:該圖通過具體示例展示了模型在評估中出現的典型錯誤類型,為分析模型缺陷提供了直觀參考。

5.2 推理能力 

在評估模型的推理能力時,最普遍的錯誤類型出現在多模態信息理解和復雜推理中。值得注意的是,許多模型甚至在理解交錯信息方面表現出重大錯誤(Jin 等人,2024b;a;Chen 等人,2024a;b;Zhang 等人,2024a),這不可避免地導致后續推理錯誤。 

多模態信息理解 

評估 LVLMs 推理能力的一個關鍵錯誤是它們難以理解多模態查詢,特別是從圖像中提取視覺信息。一個常見的問題是,模型正確解釋了查詢的文本組件,但未能完全理解圖像中的視覺細節。例如,在比較四個數據集體積的條形圖的情況下,每個數據集由 y 軸上具有相應高度的條形表示,模型可能識別圖表的標題和標簽,但忽略條形本身傳達的關鍵信息 —— 例如數據集的相對大小。這凸顯了模型傾向于關注表面級文本線索,而不深入探究圖像中嵌入的更深層次的圖形含義。這也凸顯了一個更廣泛的趨勢:LVLMs 表現出強烈的偏向于處理文本,而不是從視覺數據和其他非文本模態中提取細微信息。 

復雜推理 

另一個重大錯誤是模型無法處理復雜推理任務。如圖 5 所示,模型在多步推理中表現出明顯的弱點。例如,在生物系統的影響分析中,模型正確預測毛毛蟲的減少會導致鳥類種群的下降,但未能推斷出次級效應 —— 植物種群會增加。另一個例子見于算術問題,其中模型犯了明顯的錯誤,例如未能計算三角形的精確長度。這些例子強調了加強模型多步推理能力的必要性,使其在處理復雜任務時更加穩健和可靠。 

6 結論 

本文介紹了 MMIE,這是一個用于交錯圖像和文本理解與生成的大規模、多樣化基準。MMIE 跨越廣泛的領域,提供了用于交錯多模態理解和生成的全面評估框架,具有 20,000 個查詢。該數據集涵蓋廣泛的領域,確保了對 LVLMs 各個維度的高質量評估。此外,我們提出的模型驅動指標基于輸入的圖像 - 文本上下文,有效地評估了輸出的圖像 - 文本信息的質量。我們的大量實驗進一步表明,我們提出的指標提供了穩健的、類似人工的評估性能,顯著減少了錯誤和偏差。盡管如此,我們觀察到現有模型表現不佳,特別是在復雜和深度交錯的多模態任務中,凸顯了該領域未來面臨的挑戰和機遇。 

倫理聲明 

本文專注于交錯大型視覺語言模型的評估。使用新構建的人工注釋數據集來微調評分模型。該數據集是按照倫理指南策劃的,以確保不包含敏感信息,并在注釋過程中盡量減少偏差。評估過程旨在透明和可重復,遵循研究完整性和倫理行為的高標準。沒有收集或處理個人可識別數據。 

可重復性聲明 

為了確保我們結果的可重復性,我們已做出大量努力提供所有必要的細節和材料。具體而言,我們在第 3 節中包括了數據集創建過程的全面描述,包括注釋指南和數據收集方法,并在附錄 A.1 中進一步闡述?;鶞屎驮u估程序在第 4 節中詳細描述,所使用的指標明確定義,以促進獨立驗證。 



本文轉載自??AIRoobt?? ,作者:Diji Yang等


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-5-29 06:32:07修改
收藏
回復
舉報
回復
相關推薦
欧美成人在线免费| 91精品国产91综合久久蜜臀| 蜜桃传媒视频第一区入口在线看| 黄色在线视频网址| 日韩电影免费网址| 日韩欧美二区三区| 成人在线观看a| 蜜芽在线免费观看| www.在线成人| 91免费国产网站| 一级免费在线观看| 99re久久最新地址获取| 亚洲国产精品资源| 一区二区xxx| 黄网站在线观| 国产精品乱人伦中文| 国产乱码一区| 国产精品一品二区三区的使用体验| 亚洲a一区二区三区| 亚洲老司机av| 国产免费无码一区二区| 四虎4545www精品视频| 亚洲不卡一区二区三区| 一区二区三区久久网| 婷婷亚洲一区二区三区| 国产成人午夜精品5599| 国产精品偷伦免费视频观看的| av资源吧首页| 午夜av一区| 亚洲人成在线电影| 中文在线永久免费观看| 欧美在线se| 91久久精品日日躁夜夜躁欧美| 真人做人试看60分钟免费| а天堂8中文最新版在线官网| 成人手机电影网| 91在线高清免费观看| 天天爱天天做天天爽| 亚洲在线黄色| 2019av中文字幕| 国产主播在线播放| 欧美全黄视频| 欧美成在线观看| 三上悠亚作品在线观看| 日韩一区二区在线免费| 在线观看国产精品淫| 午夜理伦三级做爰电影| 麻豆一区一区三区四区| 亚洲精品电影在线观看| 中文字幕在线播放一区| 一女二男一黄一片| 伊人中文字幕在线观看| 亚洲老妇激情| 久久国产一区二区三区| 国产探花在线视频| 99九九热只有国产精品| 日韩一区在线视频| 来吧亚洲综合网| 欧美独立站高清久久| 中文字幕在线亚洲| 18精品爽国产三级网站| 日韩在线不卡| 久久久久99精品久久久久| 99久久99久久精品国产| 欧美国产激情| 久久久噜噜噜久久中文字免| 国语对白一区二区| 国产欧美不卡| 国产精品久久久久免费a∨| 中文在线观看免费高清| 麻豆成人久久精品二区三区小说| 国产日韩精品一区二区| 国产婷婷一区二区三区久久| 国产suv精品一区二区883| 粉嫩av一区二区三区免费观看| 国模无码一区二区三区| 91免费国产视频网站| 日本在线观看一区二区| 日本高清视频在线观看| 一区二区三区成人在线视频| 一二三四视频社区在线| 日韩免费小视频| 欧美一区二区三区爱爱| 中文文字幕文字幕高清| 成人一二三区| 欧美国产日韩一区| 三级视频在线观看| 久久99精品国产.久久久久久 | 色戒汤唯在线观看| 色偷偷88欧美精品久久久| 色婷婷成人在线| 亚洲欧美日本国产| 亚洲欧美中文在线视频| 色婷婷粉嫩av| 日韩一级大片| 成人精品在线视频| 日韩一区免费视频| 欧美激情综合五月色丁香小说| 最近免费观看高清韩国日本大全| 国产美女高潮在线| 欧美日韩和欧美的一区二区| 亚洲天堂av网站| 99久久婷婷国产综合精品电影√| 久久露脸国产精品| 中文天堂在线资源| a亚洲天堂av| 国产又黄又爽免费视频| 欧美成人黑人| 欧美成人一区二区| 日本理论中文字幕| 亚洲精选91| 91亚洲精品一区二区| 国产乱子伦三级在线播放| 亚洲欧美一区二区久久| 99热手机在线| 欧美大片网址| 欧美国产乱视频| 一级淫片免费看| 久久久久久久久久久99999| av影院在线播放| 中文字幕综合| 这里只有视频精品| 69视频免费在线观看| 丁香婷婷综合网| 91香蕉视频网址| 成人h在线观看| 亚洲精品之草原avav久久| 久久综合亚洲色hezyo国产| 麻豆成人久久精品二区三区小说| 欧美连裤袜在线视频| f2c人成在线观看免费视频| 欧美日韩一级二级| 性欧美精品男男| 久久婷婷av| 欧美日韩一区在线视频| 色资源二区在线视频| 亚洲成人国产精品| 国产一级特黄视频| 成人激情小说网站| 国产成a人亚洲精v品在线观看| av国产精品| 俺去亚洲欧洲欧美日韩| 91精东传媒理伦片在线观看| 国产女主播一区| 青青草av网站| 欧美日韩国产传媒| 国产精品久久久久久久久久三级| 精品乱码一区二区三四区视频| 五月天久久比比资源色| 艳妇乳肉豪妇荡乳xxx| 亚洲经典在线| 精品欧美一区二区三区久久久| 成人福利影视| 日韩av在线网站| 亚洲日本视频在线观看| 久久蜜桃香蕉精品一区二区三区| 成人免费在线小视频| 久久爱www成人| 国产欧美精品日韩精品| 毛片激情在线观看| 欧美一级片在线看| 久久久久久久久99| 成年人国产精品| 日本在线观看a| 日韩欧美高清在线播放| 91久久久久久久久| 免费毛片在线看片免费丝瓜视频 | 精品三级久久| 日韩毛片中文字幕| 波多野结衣家庭主妇| 国产精品视频yy9299一区| 在线观看岛国av| 欧美激情视频一区二区三区在线播放 | av一区二区三区黑人| 国产午夜伦鲁鲁| 精品产国自在拍| 成人一区二区电影| 97人澡人人添人人爽欧美| 亚洲欧洲一区二区三区久久| 中文字幕视频一区二区| 艳妇臀荡乳欲伦亚洲一区| 亚洲欧美色图视频| 久久99日本精品| 毛片在线播放视频| 欧美偷拍综合| 国产高清在线精品一区二区三区| 裤袜国产欧美精品一区| 久久福利网址导航| 日韩精品福利| 欧美一区二区久久| 亚洲精品男人的天堂| 国产精品久久久久久久久免费丝袜 | 三上悠亚久久精品| 日韩综合一区| 国内一区二区在线视频观看| 超薄肉色丝袜脚交一区二区| 欧美成人久久久| 欧美色综合一区二区三区| 在线电影一区二区三区| 亚洲欧美在线视频免费| 中文字幕亚洲不卡| 女~淫辱の触手3d动漫| 国产一本一道久久香蕉| 久久久久国产精品熟女影院| 亚洲午夜电影| 中文字幕中文字幕在线中一区高清 | 日日欢夜夜爽一区| 国产91在线亚洲| 91九色精品| 日本免费高清不卡| 国产图片一区| 亚洲一区中文字幕| 全球最大av网站久久| 欧美一区二区三区艳史| 青青青国内视频在线观看软件| 在线电影欧美日韩一区二区私密| 欧美熟女一区二区| 日韩天堂在线观看| 国产精品无码在线播放| 欧美性色黄大片| 啦啦啦免费高清视频在线观看| 亚洲精品成人悠悠色影视| 少妇愉情理伦三级| 久久精品在线观看| 一起草在线视频| 成人动漫在线一区| 伊人影院在线观看视频| 精品一区二区三区视频| 一区二区三区韩国| 日韩精品1区2区3区| 国产高清精品在线观看| 影音先锋中文字幕一区| 久久免费一级片| 欧美在线亚洲| 成人午夜视频免费观看| 香蕉国产精品| 成人免费看片视频在线观看| 久久国产电影| 中文字幕不卡每日更新1区2区| 成人一区不卡| 亚洲一区二区精品在线| 欧美伦理在线视频| 亚洲人成人77777线观看| 国产videos久久| 人偷久久久久久久偷女厕| 亚洲香蕉视频| 日韩欧美视频第二区| 青草国产精品| 正在播放一区| 欧美jizzhd精品欧美巨大免费| 中文字幕制服丝袜在线| 在线看片不卡| 人人妻人人澡人人爽欧美一区双 | 免费看黄色一级视频| 欧美精品一区二区三区高清aⅴ| wwwav在线播放| 精品少妇一区二区三区视频免付费 | 成人免费网站观看| 欧洲亚洲女同hd| 日本.亚洲电影| 成人午夜黄色影院| 91成人噜噜噜在线播放| 精品999在线观看| 国产不卡av一区二区| 亚洲欧美综合一区| 欧美成人高清| www.爱色av.com| 葵司免费一区二区三区四区五区| 欧美性猛交xxx乱久交| 韩国女主播成人在线观看| 女人扒开腿免费视频app| 成人妖精视频yjsp地址| 人人妻人人澡人人爽人人精品| 久久久久综合网| 影音先锋男人资源在线观看| 亚洲欧美偷拍另类a∨色屁股| 国产无码精品一区二区| 欧美性生交xxxxx久久久| 一卡二卡在线观看| 精品99久久久久久| 久蕉在线视频| 久久成人18免费网站| 欧美男男tv网站在线播放| 国产精品久久久久久五月尺| 日韩一区二区三区色| 久久精品国产精品国产精品污| 精品日产免费二区日产免费二区| 99热一区二区三区| 国产亚洲精品v| 精品亚洲视频在线| 91在线小视频| 日韩激情综合网| 欧美午夜无遮挡| 性中国xxx极品hd| 在线看日韩欧美| 毛片大全在线观看| 国产精品久久在线观看| www国产精品| 亚洲人成网站在线播放2019| 亚洲大胆在线| 国产精品999.| 久久青草国产手机看片福利盒子| h色网站在线观看| 欧亚洲嫩模精品一区三区| 亚洲国产精品二区| 日韩在线www| 成人影院大全| 国产精品一区二| 五月综合激情| 奇米影音第四色| 久久品道一品道久久精品| 久久精品美女视频| 欧美一区二区三区性视频| 亚洲欧美丝袜中文综合| 欧美大尺度激情区在线播放| 成人国产网站| 农村寡妇一区二区三区| 激情91久久| 色哟哟免费视频| 亚洲欧美一区二区视频| 波多野结衣理论片| 亚洲欧美另类国产| 色是在线视频| 好吊妞www.84com只有这里才有精品| 国产精品精品| 视频二区在线播放| 国产日韩欧美亚洲| 97久久久久久久| 亚洲国产免费av| 波多野结衣中文在线| 99在线影院| 欧美激情aⅴ一区二区三区| 久久成年人网站| 自拍偷拍亚洲激情| 亚洲综合精品在线| 色诱女教师一区二区三区| 99久久婷婷国产综合精品首页| 欧美日韩在线精品| 亚洲欧美成人综合| 国产精品成人一区二区三区电影毛片| 亚洲国产精品精华液网站| 亚洲欧美激情在线观看| 欧美精品videos性欧美| 一区二区三区欧洲区| 亚洲理论电影在线观看| 成人激情午夜影院| 精品国产免费观看| 亚洲精品美女免费| 欧美大片免费| 亚洲精品在线视频观看| 极品少妇xxxx偷拍精品少妇| 国产又黄又粗又猛又爽的| 欧美老女人在线| av在线麻豆| 国产精品theporn88| 亚洲国内精品| 免费中文字幕av| 在线免费视频一区二区| 网友自拍视频在线| 成人欧美一区二区三区在线湿哒哒| 我不卡伦不卡影院| 亚洲乱妇老熟女爽到高潮的片 | 西瓜成人精品人成网站| 日韩欧美精品在线观看视频| 久久久国产精品麻豆| 中文字幕永久免费视频| 不卡av电影院| 欧美wwwwww| 男女视频在线看| 亚洲最大色网站| 久久久久久女乱国产| 国产女精品视频网站免费| 欧美视频网站| 久久无码人妻精品一区二区三区| 欧美在线啊v一区| av网站导航在线观看免费| 国产一区二区三区av在线| 日韩精品免费视频人成| 少妇aaaaa| 亚洲欧美激情视频| 国产精品亚洲欧美一级在线| 欧美日韩在线一| 国产精品久久影院| 色网站免费观看| 国产精品露脸av在线| 黄色精品免费| 四季av中文字幕| 精品999久久久| 日韩av黄色| 免费 成 人 黄 色| 亚洲欧洲在线观看av| 亚洲av成人精品毛片| 91九色蝌蚪国产| 国产精品一二| 成熟的女同志hd| 这里只有视频精品| 亚洲黄色录像| 国产麻豆剧传媒精品国产| 欧美亚日韩国产aⅴ精品中极品| 视频在线这里都是精品|