再看兩階段多模態文檔解析大模型-PaddleOCR-VL架構、數據、訓練方法 原創
文檔解析這條賽道真卷,《文檔智能》目前整體技術路線分三類:pipline式、兩階段式和端到端,如下:

pipline

layout+VLM

VLM finetune
下面再來看一個兩階段方案,由layout+VLM組成-PaddleOCR-VL-0.9B。

方法

PaddleOCR-VL
正如上圖,PaddleOCR-VL分兩階段:
階段1:PP-DocLayoutV2,負責布局分析,定位語義區域并預測其閱讀順序。PP-DocLayoutV2結構式RT-DETR以及一個具有六個transformer層的輕量級指針網絡,以準確預測布局元素的閱讀順序。

版式分析:RT-DETR結構
訓練方法:版式分析(目標檢測)初始化權重:PP-DocLayout_Plus-L,使用2w數據量訓練100輪。閱讀順序:模型輸出一個矩陣,表示任意兩個元素之間的成對排序關系。
階段2:PaddleOCR-VL-0.9B對文本、表格、公式和圖表進行ocr format。模型結構類似LLaVA:
- 視覺編碼器:使用NaViT結構,從keye-vl初始化,支持原生分辨率輸入(任意分辨率的圖像而不會失真,從而減少幻覺)。
- 連接器:隨機初始化的2層MLP。
- 解碼器:ERNIE-4.5-0.3B,引入3D-RoPE進一步增強了位置表示。

PaddleOCR-VL-0.9B
訓練方法:分兩階段

訓練配置
階段1:模態對齊
階段2: 激發ocr format能力
- OCR:文本識別
- 表格識別:輸出為以 OTSL 格式(采用 OTSL 是因為它相較于HTML 作為視覺語言模型的目標具有顯著優勢。其極簡設計具有與表格視覺二維矩陣直接的結構對應關系,**將結構 token 數量從超過 28 個減少到僅 5 個,并將平均序列長度縮短約50%**。這使得它成為模型生成時更高效的輸出目標。最后一階段是將 OTSL 輸出簡單轉換為標準HTML。)
- 公式識別:轉換為結構化的LATEX格式
- 圖表識別:各種類型的圖表中識別信息,如條形圖、折線圖和餅圖,并將其轉換為Markdown格式表格。
數據引擎
和MinerU2.5的方式差不多,主要從數據收集、管理、偽標、精標和男樣本挖掘構建訓練數據飛輪。

實驗評測
- OmniDocBench


- olmOCR-Bench

- 推理性能

PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model,https://ernie.baidu.com/blog/publication/PaddleOCR-VL_Technical_Report.pdf
本文轉載自??大模型自然語言處理?? 作者:余俊暉

















