多模態文檔檢索開源方案-三大競賽獲獎方案技術鏈路 原創
前期也提到,在實際場景中,用戶通常需要檢索多模態文檔,包括文本、圖像、表格和圖表。這需要一個更復雜的檢索系統,能夠處理多模態信息,并根據用戶查詢提供相關文檔或段落。檢索多模態文檔將有助于 AI 聊天機器人、搜索引擎和其他應用程序向用戶提供更準確、更相關的信息。因此衍生了一系列的多模態RAG方案,如:??開源多模態RAG的視覺文檔(OCR-Free)檢索增強生成方案-VDocRAG???提到的諸多方案。
下面來看看www會議開設的多模態文檔檢索挑戰賽的三個獲獎方案。
概述:多模態文檔檢索任務專注于對多模態文檔或網頁中的段落進行建模,利用文本和多模態信息進行嵌入建模。最終目標是根據用戶的文本或多模態查詢檢索相關的多模態文檔或段落。
任務一:MMDocIR – 長文檔的多模態檢索
此任務旨在評估檢索系統識別文檔中視覺豐富的信息的能力。MMDocIR 評估集包含 313 篇長文檔,平均篇幅 65.1 頁,涵蓋多個領域:研究報告、行政管理、行業、教程、研討會、學術論文、宣傳冊、財務報告、指南、政府文件、法律和新聞文章。不同領域的多模態信息分布各異。
每個領域都呈現出獨特的多模態信息分布,帶來了不同的檢索挑戰。
目標:對于給定的文本查詢 → 檢索相關文檔頁面: 識別文檔中與用戶查詢最相關的頁面。每個查詢的檢索范圍僅限于給定文檔中的所有頁面。
數據集:MMDocIR
任務 2:M2KR – 開放域視覺檢索基準
此任務評估檢索系統在開放域場景(包括維基百科網頁)中檢索視覺豐富的信息的能力。它涉及多種主題、形式(圖形、表格、文本)和語言。原始 M2KR 數據集僅包含從維基百科頁面中提取的文本。我們擴展了數據集,以包含維基百科頁面的屏幕截圖。
子任務:
圖片→Wiki文檔檢索: 數據集: WIT、KVQA。 圖片+文字→Wiki文檔檢索: 數據集: OVEN、OKVQA、Infoseek、E-VQA。
Rank1
code:https://github.com/hbhalpha/MDR


流程圖
- 首先使用cv_tools/DINO識別視覺關鍵點
- 通過視覺模型(如DINO)提取輸入數據的視覺關鍵點特征,得到視覺關鍵點結果。
- 訓練五個不同參數的專家模型進行雙任務投票
- 構建五個參數配置不同的專家模型(如不同超參數或初始化),每個專家模型同時參與兩個任務的決策投票。
- 所有專家模型的集成(整體)視為一個統一模型。
- 融合專家投票結果與視覺關鍵點結果
- 將視覺關鍵點特征與專家模型的投票結果進行融合,最終形成統一模型輸出。
- 核心特性:五個專家模型與DINO共同構成一個統一模型,天然支持兩個任務,且無需針對特定任務單獨訓練。
Rank2:視覺豐富的多粒度檢索框架
code:https://github.com/i2vec/MMDocRetrievalChallenge 框架分為兩個主要組成部分:
- M2KR,通過整合的視覺和文本關注細粒度區域級別的檢索
- MMDocIR,將全頁檢索與詳細的區域和基于OCR的檢索階段結合起來
M2KR: Multimodal Region Retrieval with Fusion

流程圖詳細思路如下:
輸入:
- 候選頁面被分割成多個區域,以獲得區域級表示。
- 使用Qwen2.5-VL模型生成候選頁面的文本描述,提供互補的語義信息。
- 用戶查詢(可以是文本、圖像或多模態格式)也被處理成統一的嵌入空間。
過程:
- 應用三種匹配策略:
- 基于區域嵌入的純圖像檢索。
- 結合查詢和區域特征的多模態檢索。
- 查詢和候選文本描述之間的純文本檢索。
- 計算每種模態的余弦相似度(CosSim)。
- 將三種匹配策略的相關性得分融合,綜合考慮視覺、多模態和文本信號。
輸出: 經過分值融合后,使用基于VLM的驗證模塊評估查詢與候選結果的語義對齊。過濾模塊促進高置信度的匹配,丟棄誤報,確保最終結果既精確又與查詢語義一致。
MMDocIR: Full-Page Retrieval with Multistage Validation

輸入:
- 文本形式的用戶查詢
- 候選文檔頁面的全頁圖像、分割區域圖像和OCR識別的文本多種粒度,以實現多粒度檢索。
過程:
- 使用ColQwen2-7B對用戶查詢和全頁圖像候選進行編碼,進行初始全頁檢索。
- 使用GME-7B進行兩個額外的檢索路徑:

- GME框架,https://arxiv.org/pdf/2412.16855
- 文本到OCR文本檢索,將查詢與頁面提取的OCR文本匹配。
- 文本到區域圖像檢索,將查詢與分割的區域圖像匹配。
- 計算每種檢索路徑的余弦相似度(CosSim)。
- 將全頁檢索、OCR文本檢索和區域圖像檢索的相關性得分融合,結合全局、文本和區域信息。
輸出:經過分值融合后,使用基于VLM的驗證模塊(由Qwen2.5-VL模型驅動)對排名靠前的候選結果進行語義驗證。驗證模塊進行細粒度的跨模態驗證,確認查詢意圖與候選內容的一致性,確保最終結果具有高精度和可靠性。
融合和驗證機制
1、多源分數融合
實施兩層分值融合過程:
- 模態分值整合階段:GME模型為每個候選生成三種相關性得分:文本到OCR文本相似度、文本到區域圖像相似度和查詢與區域特征之間的多模態相似度。這些得分捕捉文檔相關性的不同方面,并用于初始排名,提供豐富的多粒度匹配信號。
- 融合GME和ColQwen檢索路徑的輸出:應用RRF,通過為每個檢索路徑的頂部排名結果分配更高權重,有效平衡全局和細粒度檢索信號。融合后的排名確保不同模型的強候選結果被共同考慮,增強檢索的魯棒性。
2、VLM驗證機制
在融合步驟之后,應用基于VLM的驗證過程,使用Qwen2.5-VL模型進行語義驗證。該模塊通過預測每個候選是否為真實匹配(Yes)或不匹配(No)來執行語義驗證。驗證通過的候選結果在最終輸出中被優先考慮,確保只有具有強語義對齊的結果被保留。這一驗證步驟增加了跨模態理解的關鍵層,超越了傳統的基于相似度的方法,進一步優化了檢索結果。
Rank3
方案分兩步:MMDocIR和M2KR
MMDocIR
code:https://github.com/bargav25/MultiModal_InformationRetrieval/tree/main/Task1_MMDocIR

流程
- 使用基于 ColQwen 的模型,根據圖像和 VLM 文本生成每個頁面的圖像和文本嵌入。然后融合這些嵌入。
- 根據文本查詢(即問題)查找查詢嵌入
- 使用后期交互機制查找頁面嵌入和查詢嵌入之間的相似度分數。
- 檢索前 5 個頁面

M2KR:使用 Wikipedia + FAISS 進行多模態檢索
code:https://github.com/bargav25/MultiModal_InformationRetrieval/tree/main/Task2_M2KR
該項目實現了一個端到端的視覺檢索流程,該流程接收查詢圖像,并通過將其與從維基百科頁面抓取或提取的圖像進行匹配,檢索出最相關的維基百科文章。它使用來自 ColQwen2 和 FAISS 的嵌入進行高效的相似性搜索,并支持從實時維基百科頁面抓取圖像以及從屏幕截圖中提取圖像。
功能如下:
- 根據查詢文件名從維基百科文章中抓取圖像(或者,您可以選擇使用傳統的 OpenCV 技術從維基百科截圖中提取圖像:檢查extract_images.py)
- ??? 使用基于 Transformer 的視覺模型生成密集嵌入(ColQwen2)
- ? 使用 FAISS 索引段落圖像(IndexFlatL2)
- ?? 根據查詢檢索前 k 個最相關的圖像
- ?? 模塊化代碼:可輕松擴展到其他數據集或模型
參考文獻:
A Multi-Granularity Retrieval Framework for Visually-Rich Documents,https://arxiv.org/pdf/2505.01457v2
??https://erel-mir.github.io/challenge/overview/??
公眾號大模型自然語言處理 作者:余俊暉
原文鏈接:??https://mp.weixin.qq.com/s/1u17IU7XMRNZhq2VFLSBdg??

















