整合多模態文檔解析與DeepResearch的框架:Doc-Researcher思路 原創
整體偏向工程實現,Doc-Researcher從名字可以看出,首先這個框架需要進行文檔解析提取文檔的圖文多模態元素,文檔解析相關技術鏈路《??文檔智能??》。其次是多模態深度研究(通過迭代分解問題、積累證據、驗證信息,實現多文檔、多跳、多輪的深度推理。)和銜接兩者的多模態檢索架構。

Doc-ReseaRcHeR 架構

多模態文檔深度研究的典型應用場景。用戶在多輪對話的上下文中提出一個需要多跳推理的問題,其中真實證據跨越多個文檔和模態。
下面簡單看下思路。
方法架構

Doc-Researcher 架構
整體架構分三個模塊:文檔解析、多模態檢索和多模態deepResearch。
模塊1:深度多模態文檔解析
與多數的《???RAG??》知識庫構建組件相同,都需要對文檔進行深度解析,盡可能的保留文檔的所有元素信息。該框架使用的是MinerU解析文檔中的(文本/表格/圖表/公式)、邊界框坐標(精確到頁面像素,用于后續定位引用)等信息。表格/圖表:用Qwen2.5-VL生成兩類描述:(1)粗粒度摘要(如“2023年A股市值Top5行業分布表”):用于快速匹配查詢意圖;(2)細粒度描述(如“第一列是行業名稱,第二列是市值占比,金融行業占比28%”):用于精確證據提?。?/p>
多粒度分塊策略
單一元素(如孤立表格)缺乏上下文,需通過布局分析模型合并生成多粒度單元。定義了4個核心粒度級別

- Chunk(塊): 在章節邊界內合并文本/表格/圖表元素,限制最大長度(避免跨章節語義斷裂),保留每個元素的邊界框坐標
- Page(頁面):兩種形式:
1. 合并單頁所有元素(含文本+轉錄后的表格/公式);
2. 原始頁面截圖(用于純視覺檢索) - Full(全文): 合并文檔所有元素,形成完整結構化文本(含章節層級、公式LaTeX、表格描述)
- Summary(摘要): 用LLM對“Full”粒度文本生成摘要,突出核心結論/結構

模塊2:多模態檢索架構

評估了5種文本檢索器
三種檢索范式的設計與對比:
- 純視覺檢索:以“Page”粒度的原始截圖為檢索單元,用視覺模型(如Jina-embedding-v4)直接編碼截圖為向量,匹配查詢的視覺特征(需將查詢轉視覺向量或用跨模態模型匹配)
- 純文本檢索:以“Chunk/Page/Full/Summary”粒度的文本轉錄結果為單元(含OCR文本、表格/圖表描述、公式LaTeX),用文本嵌入模型(如BGE-M3)編碼匹配
- 混合檢索:結合兩種范式:(1)文本檢索器編碼“Chunk/Full/Summary”的文本;(2)視覺檢索器編碼“Page/Chunk”的截圖;(3)融合兩類檢索結果(如加權排序)
模塊3:多模態Deep Research
通過多智能體協作的迭代流程,模擬人類“分解問題→搜索證據→驗證補充→合成結論”的研究過程。

協作流程
如上圖,系統包含4個Agent:
1. 規劃器(Planner)
輸入:用戶查詢、對話歷史、文檔集合
輸出:1. 過濾后相關文檔子集(縮小搜索范圍);2. 最優檢索粒度(如摘要 / 塊 / 頁面);3. 細化子查詢(分解復雜問題)
2. Searcher+ Refiner
核心是通過多輪搜索-精煉循環,逐步補充高質量證據,避免單輪檢索的“證據不足”或“噪聲過多”問題:
- Searcher:證據初篩,基于多模態檢索架構(文本 / 視覺 / 混合),獲取初始多模態證據(文本塊、表格截圖、圖表等)
- Refiner:證據提純,1. 去重(刪除重復證據);2. 相關性過濾(剔除無關內容);3. 輸出精煉后高質量證據
3. Reporter
輸入:用戶查詢、累計精煉證據、解析階段記錄的引用元數據(證據對應的文檔ID、頁面ID、邊界框坐標);
輸出:多模態報告,特點:
- 自動插入證據中的表格/圖表截圖(而非僅文本描述),并搭配解釋;
- 每個結論后標注證據來源,用戶可直接定位到原始文檔位置驗證,解決LLM生成“幻覺”問題;
- 根據查詢類型生成對應結構
實驗性能


參考文獻:Doc-Researcher: A Unified System for Multimodal Document Parsing and Deep Research,https://arxiv.org/pdf/2510.21603v1
本文轉載自??大模型自然語言處理?? 作者:老余

















