再看兩階段多模態文檔解析大模型-PaddleOCR-VL架構、數據、訓練方法原創

大模型自然語言處理

發布于 2025-10-21 09:09

瀏覽

0收藏

文檔解析這條賽道真卷，《文檔智能》目前整體技術路線分三類：pipline式、兩階段式和端到端，如下：

再看兩階段多模態文檔解析大模型-PaddleOCR-VL架構、數據、訓練方法-AI.x社區

pipline

再看兩階段多模態文檔解析大模型-PaddleOCR-VL架構、數據、訓練方法-AI.x社區

layout+VLM

再看兩階段多模態文檔解析大模型-PaddleOCR-VL架構、數據、訓練方法-AI.x社區

VLM finetune

下面再來看一個兩階段方案，由layout+VLM組成-PaddleOCR-VL-0.9B。

再看兩階段多模態文檔解析大模型-PaddleOCR-VL架構、數據、訓練方法-AI.x社區

方法

再看兩階段多模態文檔解析大模型-PaddleOCR-VL架構、數據、訓練方法-AI.x社區

PaddleOCR-VL

正如上圖，PaddleOCR-VL分兩階段：

階段1：PP-DocLayoutV2，負責布局分析，定位語義區域并預測其閱讀順序。PP-DocLayoutV2結構式RT-DETR以及一個具有六個transformer層的輕量級指針網絡，以準確預測布局元素的閱讀順序。

再看兩階段多模態文檔解析大模型-PaddleOCR-VL架構、數據、訓練方法-AI.x社區

版式分析：RT-DETR結構

訓練方法：版式分析（目標檢測）初始化權重：PP-DocLayout_Plus-L，使用2w數據量訓練100輪。閱讀順序：模型輸出一個矩陣，表示任意兩個元素之間的成對排序關系。

階段2：PaddleOCR-VL-0.9B對文本、表格、公式和圖表進行ocr format。模型結構類似LLaVA：

視覺編碼器：使用NaViT結構，從keye-vl初始化，支持原生分辨率輸入（任意分辨率的圖像而不會失真，從而減少幻覺）。
連接器：隨機初始化的2層MLP。
解碼器：ERNIE-4.5-0.3B，引入3D-RoPE進一步增強了位置表示。

再看兩階段多模態文檔解析大模型-PaddleOCR-VL架構、數據、訓練方法-AI.x社區

PaddleOCR-VL-0.9B

訓練方法：分兩階段

再看兩階段多模態文檔解析大模型-PaddleOCR-VL架構、數據、訓練方法-AI.x社區

訓練配置

階段1：模態對齊

階段2： 激發ocr format能力

OCR：文本識別
表格識別：輸出為以 OTSL 格式（采用 OTSL 是因為它相較于HTML 作為視覺語言模型的目標具有顯著優勢。其極簡設計具有與表格視覺二維矩陣直接的結構對應關系，**將結構 token 數量從超過 28 個減少到僅 5 個，并將平均序列長度縮短約50%**。這使得它成為模型生成時更高效的輸出目標。最后一階段是將 OTSL 輸出簡單轉換為標準HTML。）
公式識別：轉換為結構化的LATEX格式
圖表識別：各種類型的圖表中識別信息，如條形圖、折線圖和餅圖，并將其轉換為Markdown格式表格。

數據引擎

和MinerU2.5的方式差不多，主要從數據收集、管理、偽標、精標和男樣本挖掘構建訓練數據飛輪。

再看兩階段多模態文檔解析大模型-PaddleOCR-VL架構、數據、訓練方法-AI.x社區

實驗評測

OmniDocBench

再看兩階段多模態文檔解析大模型-PaddleOCR-VL架構、數據、訓練方法-AI.x社區

olmOCR-Bench

再看兩階段多模態文檔解析大模型-PaddleOCR-VL架構、數據、訓練方法-AI.x社區

推理性能

PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model,https://ernie.baidu.com/blog/publication/PaddleOCR-VL_Technical_Report.pdf

本文轉載自??大模型自然語言處理?? 作者：余俊暉

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

多模態文檔

大模型

已于2025-10-21 09:27:14修改

贊

回復