只有0.9B的PaddleOCR-VL，卻是現在最強的OCR模型。

數字生命卡茲克

發(fā)布于 2025-10-27 06:33

瀏覽

0收藏

這幾天，OCR這個詞，絕對是整個AI圈最火的詞。

因為DeepSeek-OCR，甚至讓OCR這個賽道文藝復興，又給直接帶火了。

只有0.9B的PaddleOCR-VL，卻是現在最強的OCR模型。-AI.x社區(qū)

整個Hugging Face的趨勢版里，前4有3個OCR，甚至Qwen3-VL-8B也能干OCR的活，說一句全員OCR真的不過分。

然后在我上一篇講DeepSeek-OCR文章的評論區(qū)里，有很多朋友都在把DeepSeek-OCR跟PaddleOCR-VL做對比，也有很多人都在問，能不能再解讀一下百度那個OCR模型（也就是PaddleOCR-VL）。

只有0.9B的PaddleOCR-VL，卻是現在最強的OCR模型。-AI.x社區(qū)

所以我也覺得，不如就來寫一篇關于PaddleOCR-VL的內容吧。

非常坦誠的講，百度家的東西，我寫的一直都會非常謹慎。

但是這個PaddleOCR-VL，是我真的覺得值得一寫的。

因為，確實很牛逼。

只有0.9B的PaddleOCR-VL，卻是現在最強的OCR模型。-AI.x社區(qū)

首先提一下，PaddleOCR這個項目本身，不是啥新東西，這是百度一直都在做的項目，很多年了，最早期甚至可以追溯到2020年，也是一直是開源的姿態(tài)。

只有0.9B的PaddleOCR-VL，卻是現在最強的OCR模型。-AI.x社區(qū)

后來他們就不斷的迭代，整整5年時間，成了整個OCR領域最火的開源，現在也應該是現在Github上Star最高的OCR項目，有60K，基本屬于斷檔領先。

只有0.9B的PaddleOCR-VL，卻是現在最強的OCR模型。-AI.x社區(qū)

而PaddleOCR-VL模型，就是他們前幾天開源了他們的PaddleOCR系列里最新的模型，這也是第一次，把大模型用在了整個OCR文檔解析的最核心的位置。

只有0.9B的PaddleOCR-VL，卻是現在最強的OCR模型。-AI.x社區(qū)

整個模型只有0.9B，但是幾乎在OCR的評測集叫OmniDocBench v1.5的所有子項，都做到了SOTA。

只有0.9B的PaddleOCR-VL，卻是現在最強的OCR模型。-AI.x社區(qū)

左邊有三個類型，分別是傳統(tǒng)的多階段流水線系統(tǒng)、通用多模態(tài)大模型、專門為文檔解析訓練的視覺語言模型。

PaddleOCR-VL參數最小，效果最好，然后因為發(fā)的剛好早了三四天，所以表里沒有DeepSeek-OCR的跑分，但是OmniDocBench v1.5的最新跑分昨天也出爐了，DeepSeek-OCR綜合跑分是86.46，比PaddleOCR-VL的92.56還是低了大概6分，不過也能理解。

只有0.9B的PaddleOCR-VL，卻是現在最強的OCR模型。-AI.x社區(qū)

PaddleOCR-VL確實足夠的猛，在垂直模型領域，把性價比做到了極致。

你可能會有一點點好奇，為啥一個0.9B的模型，能比其他的大模型都要強。

除了確實專精這個領域之外，還有個非常有趣的架構，是我覺得單獨可以說一下的。

也是長上下文和避免幻覺的一種非常有趣的解法。

只有0.9B的PaddleOCR-VL，卻是現在最強的OCR模型。-AI.x社區(qū)

很多的多模態(tài)大模型，是端到端的，他們干OCR的方式其實是非常低效的。

就是你把一整張A4紙扔給它，它需要一口氣把這張圖上所有的文字、表格、公式、圖片、排版等等全都看懂，然后再一口氣生成一個完美的Markdown，這個難度，其實也挺地獄級的。

畢竟模型需要同時理解：“哦，這塊是個表，它在頁面的左上角，這個表有3行5列，哦表頭是這個，哦內容是那個，它旁邊的這段文字是在解釋這個表……哦哎臥槽我第一個事是要干啥來著。。。”

PaddleOCR-VL的做法就挺高效好玩的，它的架構，就兩步：

第一步，先讓專干布局分析的傳統(tǒng)視覺模型上。這個玩意叫PP-DocLayoutV2，它干的活兒特純粹，就是“框”。

它以極快的速度掃一眼整張圖，然后把一些區(qū)域都框起來，然后告訴你：“報告老板，這里是標題，那里是正文，這塊是個表，那塊是公式。” 而且每個框的閱讀順序，也都是符合人類的閱讀順序的。

這個活兒，在CV領域已經很成熟了，根本不需要一個大模型來搞。

只有0.9B的PaddleOCR-VL，卻是現在最強的OCR模型。-AI.x社區(qū)

第二步，就是主力登場。這個主力，就是最核心的這個0.9B的PaddleOCR-VL模型。

它現在接到的任務，根本不是去看那張復雜的A4紙。它接到的是一堆被PP-DocLayoutV2裁好的小圖片。

一個任務是：“這是一張200x500的小圖，我（PP-DocLayoutV2）已經告訴你這是個表了，你（PaddleOCR-VL）給我把它轉成Markdown。”

下一個任務是：“這是一張50x50的小圖，我知道這是個公式，你給我轉成LaTeX。”

然后循環(huán)往復，最后，又準又快。

所以這種做法，根本不需要復雜的幾百B的大模型，直接上0.9B的模型，卻能達到最完美的效果。

我之所以把這個點單獨拿出來說，也是想表達我的一個觀點：

在普通用戶眼里，其實很多時候技術根本沒有優(yōu)劣，能解決用戶的問題，就是最牛逼的技術。黑貓白貓，能抓到耗子的，就是好貓。

至少我認為，PaddleOCR-VL的做法，就非常的巧勁。

我也專門找了幾類特別有代表性，處理起來比較頭疼的圖片來給大家看一下實測的效果。

首先肯定是掃描PDF，這種應該是重中之重，比如下面這張非常糊的掃描件截圖，肉眼看起來也會有點吃力。

只有0.9B的PaddleOCR-VL，卻是現在最強的OCR模型。-AI.x社區(qū)

糊不拉幾的，我眼睛看著都疼。

而把這個扔給PaddleOCR-VL，它處理起來很順利，先是把需要識別的地方框了出來，并打上了閱讀循序的序號。

只有0.9B的PaddleOCR-VL，卻是現在最強的OCR模型。-AI.x社區(qū)

然后是第二步，分塊識別出結果，效果很不錯，公式也識別出來了。

只有0.9B的PaddleOCR-VL，卻是現在最強的OCR模型。-AI.x社區(qū)

我詳細核對了2、3遍，發(fā)現確實一個字都沒錯。

最后的那個+號后面之所以沒東西了，是因為我截圖的時候，不小心讓搜狗輸入法的圖標給擋住了。。。

我又找了一些手寫筆記的照片去試，這玩意絕對是OCR領域的硬骨頭。

不管是中文還是英文，只要字跡別太潦草到像天書一樣，PaddleOCR-VL給出的識別結果準確率都還挺在線的。

對比很多工具碰到手寫基本就歇菜的情況，這個已經很能打了。

只有0.9B的PaddleOCR-VL，卻是現在最強的OCR模型。-AI.x社區(qū)

當然，前提是你的手寫字得大致能看懂，如果是醫(yī)生的那種字，我覺得神仙來了都沒用。。。

然后是論文這種排版密集的。報紙那小字、多分欄、緊湊的布局，對布局分析和識別都是不小的挑戰(zhàn)。

實測下來，PaddleOCR-VL對多欄的處理還比較穩(wěn)定，閱讀順序也能捋順，文字識別本身也沒啥毛病，基本全對，總體效果挺好。

只有0.9B的PaddleOCR-VL，卻是現在最強的OCR模型。-AI.x社區(qū)

因為支持端到端的解析，所以能給你把一些圖表啥的都給你還原回來。

只有0.9B的PaddleOCR-VL，卻是現在最強的OCR模型。-AI.x社區(qū)

這個點非常的牛逼。

還有就是票據，像發(fā)票收據這些。格式雖然相對固定，但里面混著機打字、數字、手寫補充、甚至蓋章，挺復雜的。

PaddleOCR-VL在處理這類半結構化文檔、抓取關鍵信息時表現還行，我自己跑了很多次，不能說百分百沒差錯，但在同類模型里，已經算非常靠譜的了。

只有0.9B的PaddleOCR-VL，卻是現在最強的OCR模型。-AI.x社區(qū)

感覺這個已經完全可以替換我們現在多維表格上用的視覺大模型，接入到我們公司財務的多維表格系統(tǒng)里面了。。。

準確性強很多，真的能節(jié)省財務的不少時間。

還有那種大型表格，這就是重頭戲了。

不管是論文里那種帶合并單元格的復雜表，還是財報里密密麻麻的數字表，甚至是沒啥框線的表，PaddleOCR-VL的表格結構識別能力是有一點讓我驚訝的，不光能認出格子里面的字，還能把表格的行列關系比較好地還原出來，這對我們的一些自動化信息提取非常有幫助。

比如就是上文里面的那個跑分圖。

識別提取出來之后，沒有一丁點問題，這個是有點離譜的。

只有0.9B的PaddleOCR-VL，卻是現在最強的OCR模型。-AI.x社區(qū)

總的來說，這些實測跑下來，PaddleOCR-VL在處理這些復雜和刁鉆的場景時，表現確實可圈可點。

而且實測確實會比DeepSeek-OCR準確更高，DeepSeek-OCR提取的時候總是會錯一兩個字，PaddleOCR-VL是一字不錯，當然你不能把DeepSeek-OCR純看成是一個純OCR模型，畢竟意義還是不太一樣。

我們自己其實有很多飛書多維表格的信息提取工作流，也已經在考慮換成PaddleOCR-VL了。

比如我們經常需要，批量上傳一些各個平臺的數據截圖，然后提取里面的一些結構化信息。

只有0.9B的PaddleOCR-VL，卻是現在最強的OCR模型。-AI.x社區(qū)

現在都是接了一些比較大的多模態(tài)大模型來做提取的，有一說一，從價格上來說，會比PaddleOCR-VL這種貴很多，而且有時候還會出錯。

感覺把PaddleOCR-VL接進去，會是目前的最優(yōu)解。

目前PaddleOCR-VL已經開源，網址在此：

??https://github.com/PaddlePaddle/PaddleOCR??

我本來想跟DeepSeek-OCR一樣，給大家手搓一個Windows的本地整合包，讓大家能開箱即用，結果因為不同于一些常規(guī)的大模型，折騰了一夜，干到凌晨4點多，兩眼發(fā)黑，還是沒做出來，這個只能說對不起大家，還是有點太菜了= =

所以現階段，大家如果有自己部署能力的，可以自己根據PaddleOCR Github上的部署教程來部署到本地。

只是想用一下的，不想折騰部署的，可以去各大demo平臺上用官方自己部署的體驗版本。

飛槳：https://aistudio.baidu.com/application/detail/98365

魔搭：https://www.modelscope.cn/studios/PaddlePaddle/PaddleOCR-VL_Online_Demo

Hugging Face：https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo

最后，還是想多說幾句。

DeepSeek-OCR探索的上下文光學壓縮確實非常新，也打開了大家對人類視覺感知的一些新的想象。

百度的PaddleOCR-VL，更是從實際出發(fā)，在一個細分領域達到了SOTA，成為了這個領域效果最好的模型。

高效、準確，也能實實在在地提升我們處理文檔信息的效率。

兩者都是非常優(yōu)秀的工作，沒有誰比誰強。

都是在自己領域。

最亮眼的仔。

本文轉載自??數字生命卡茲克??，作者：數字生命卡茲克

標簽

OCR

模型

Qwen3-VL-8B

已于2025-10-27 06:33:03修改

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

只有0.9B的PaddleOCR-VL，卻是現在最強的OCR模型。

目錄