金山與華科發布多模態模型MonkeyOCR v1.5:文檔解析能力超越PaddleOCR-VL,復雜表格解析首次突破90%
是金山派來的猴子,復雜文檔解析有救了!
2025年6月以來,多模態文檔解析領域迎來新一輪研究熱潮,該方向逐漸成為多模態理解及大模型數據來源的重要前沿課題。
在數字化辦公與AI技術深度融合的今天,文檔智能解析技術已成為信息抽取、檢索增強生成和自動化文檔分析的核心基石。然而,現實世界中的文檔往往布局復雜、表格嵌套、內含圖片公式,甚至跨頁分布,這讓許多現有的OCR(光學字符識別系統,Optical Character Recognition)系統感到棘手。
MonkeyOCR v1.5是一個全新的統一視覺-語言文檔解析框架。它在全能多模態文檔解析基準OmniDocBench v1.5,OCRFlux-bench上較此前最優方法(MinerU2.5、PPOCR-VL、DeepSeek-OCR等)實現了全面突破,更在復雜表格、嵌入圖像和跨頁結構等棘手場景中,相較此前最優方法大幅提升9.7%。

△圖1 MonkeyOCR v1.5再次突破多模態文檔解析性能上限
為何需要更強的文檔解析引擎?
想象一下這些場景:
- 從一份掃描的科研論文中,精準提取包含嵌套表格和復雜公式的內容。
- 將一份跨越多頁、含有產品插圖的商品目錄表格,無損地還原為一個完整的結構化數據。
- 準確理解一份排版密集的報紙版面上,文本、圖片和表格的正確閱讀順序。
傳統的OCR系統在面對這些挑戰時,往往力不從心。2025年6月,MonkeyOCR第一版本發布時提到此前的方法要么采用串聯式流水線,容易導致錯誤累積;要么采用端到端模型,因文檔圖像的高分辨率而面臨巨大的計算瓶頸。v1.5除了提升了精度之外,同時支持嵌入式圖像恢復、跨頁表格重建以及多列表格合并,并在復雜的真實文檔場景中展現出更強的應用潛力。

△圖2 自2025年6月起,多模態文檔解析工具出現時間軸
MonkeyOCR v1.5的核心突破
MonkeyOCR v1.5的核心設計理念是:將全局的結構理解與細粒度的內容識別高效解耦,并在最關鍵、最復雜的環節引入創新性的智能算法。
1.高效的兩階段解析管道
v1.5將流程簡化為兩個清晰、輕量的階段:
- 階段一:布局分析與閱讀順序預測
采用一個視覺大語言模型,聯合預測文檔的布局(哪里是文本、表格、公式)和閱讀順序。這種方式充分利用了全局視覺上下文,確保了結構元素與其空間順序的一致性,從源頭減少了錯誤。
- 階段二:區域級內容識別
根據第一階段檢測到的區域,系統并行地對每個區域內的文本、公式或表格進行高精度識別。這種設計既保證了細粒度的識別質量,又通過并行處理維持了整體效率。

△圖3 兼顧效率與精度的兩階段文檔解析流程
2.針對復雜表格的三大“殺手锏”
a)基于視覺一致性的強化學習理解復雜表格的結構是行業難題。提出視覺一致性強化學習方案。簡單來說,通過訓練了一個“獎勵模型”,通過比較原始表格圖像與識別結果重新渲染后的圖像,來評估識別質量的好壞。這套系統能讓模型在沒有大量人工標注數據的情況下,自我優化,顯著提升對復雜表格的解析保真性。

△圖4 基于視覺一致性強化學習的復雜表格解析方法
b)圖像解耦表格解析表格里嵌入圖片怎么辦?此前的方法在該問題上均表現不佳,MonkeyOCR v1.5給出了簡單高效的解決方案:圖像解耦表格解析。該模塊會先檢測并“遮住”表格中的圖片,用占位符替代,然后讓模型專注于解析純文本的表格結構(生成含標簽的HTML),最后再將原始圖片“貼回”原位。這完美解決了圖片干擾表格結構識別的問題。

△圖5 圖像解耦表格解析方法應對表格嵌入圖片難題
c)類型引導的表格合并對于跨頁或分欄的表格,v1.5能智能地將其“縫合”起來。我們系統性地定義了三種常見跨頁模式(全標題重復、無標題連續、行分割連續),并采用規則匹配+BERT語義判別的混合決策流程,自動識別類型并執行精準合并,還原出完整的表格結構。

△圖6 應對三種跨頁表格模式解析
性能表現:數據說話
在以下權威基準的測試中,MonkeyOCR v1.5交出了一份亮眼的成績單:
綜合性能第一:在OmniDocBench v1.5基準測試中,MonkeyOCR v1.5以93.01%的整體得分登頂榜首。它不僅超越了前最佳模型PPOCR-VL(92.86%)和MinerU 2.5(90.7%),也領先于其他知名模型,如dots.ocr(88.4%)和Deepseek-OCR(87.0%),證明了其綜合解析能力的顯著進步。

表格場景制霸:在專門測試復雜表格的OCRFlux-complex數據集上,更是以90.9%的得分,領先PPOCR-VL(81.7%)達9.2%,證明了新算法在處理復雜結構上的巨大優勢。

可視化對比:眼見為實
下面的對比案例展示v1.5的對比情況:
布局分析:能準確識別出所有圖像和表格區域,大幅避免了將表格誤判為孤立文本和圖片的錯誤。

嵌入圖像恢復:能完美還原表格結構和其中的所有嵌入圖像,而其它模型則時常出現圖像丟失、表頭丟失或結構錯亂。
|
|
跨頁表格合并:能完整地重建跨頁表格,消除因頁眉/頁腳造成的結構中斷,而其他方法則易被中途“截斷”。
|
|
結語與展望
MonkeyOCR v1.5不僅僅是在數據指標上實現了突破,它更致力于解決文檔解析在真實工業場景中遇到的核心痛點。通過創新的兩階段架構、自監督的強化學習策略以及針對嵌入圖像、跨頁表格的專用模塊,它為處理復雜、異構的文檔理解任務提供了一個強大、可靠且高效的解決方案。MonkeyOCR v1.5技術報告與體驗平臺已發布,歡迎深入了解并體驗MonkeyOCR v1.5的復雜文檔解析能力。
Arxiv:https://arxiv.org/abs/2511.10390v1
Github:https://github.com/Yuliang-Liu/MonkeyOCR
Demo:https://aiwrite.wps.cn/pdf/parse/web/




































