精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

最強OCR竟然不是DeepSeek、Paddle!HuggingFace新作:六大頂尖開源OCR模型橫評!繼DS后又殺出匹黑馬!

原創 精選
人工智能
在AI快速進化的浪潮中,文字和圖像的界限正在被重新定義。那些能“看懂”文件、理解圖表、讀出語義的視覺語言模型(VLM),正在讓傳統OCR(光學字符識別)進入一個全新的智能階段。

編輯 | 聽雨

在AI快速進化的浪潮中,文字和圖像的界限正在被重新定義。那些能“看懂”文件、理解圖表、讀出語義的視覺語言模型(VLM),正在讓傳統OCR(光學字符識別)進入一個全新的智能階段。如果你還以為OCR只是“識字”的工具,那你可能錯過了它真正的革命性變化。

這兩天,小編讀到AI開源平臺Hugging Face 發布的一篇關于開源 OCR 模型的文章,提供了全面的模型選擇和使用指南。

里面涵蓋了 DeepSeek-OCR、PaddleOCR-VL、dots.ocr 等六大主流模型的詳細分析對比,包括輸出格式、功能特性和多語言支持,同時提供 OmniDocBenchmark、OlmOCR-Bench、CC-OCR 三大權威基準測試的介紹,幫助詳細評估模型性能。

除此之外,文章里還提供這些模型的本地和云端部署的完整代碼示例,包括如何使用 vLLM、Transformers 等多種推理框架。

在這份指南中,你將了解到:

  • 當前模型的格局與能力
  • 何時應微調模型 vs. 直接使用開箱即用模型
  • 選擇模型時需要考慮的關鍵因素
  • 如何超越傳統 OCR,進入多模態檢索與文檔問答

對于需要為項目集成 OCR 功能的開發者,或正在構建文檔處理系統的團隊,這篇文章非常值得一讀。

話不多說,咱們開始吧!

一、從OCR到文檔AI:新的起點

光學字符識別(OCR)是計算機視覺最古老也最實用的任務之一。早期OCR只負責“識別文字”;而如今,隨著視覺語言模型(VLM)的興起,它已經變成能“理解文檔”的智能系統。

這些新模型不僅能識別掃描件中的文字,還能:

  • 處理低質量掃描與手寫體;
  • 理解表格、圖表、圖片等復雜結構;
  • 甚至直接回答關于文檔的問題。

換句話說:OCR 不再只是“看見”,而是能“看懂”。

二、現代OCR的核心能力

1、轉錄

最新的 OCR 模型能夠將文本內容轉錄為機器可讀格式,輸入包括:

  • 手寫文字
  • 多語言字符(拉丁文、阿拉伯文、日文等)
  • 數學公式
  • 化學式
  • 圖像、版面標簽、頁碼等

OCR 模型可將它們轉化為機器可解析的格式(如 HTML、Markdown 等)。

2、處理復雜文檔組件

除了純文本,一些模型還能識別:

  • 圖片
  • 圖表
  • 表格

有些模型甚至能檢測圖片在文檔中的位置并正確插入,有的還能生成圖片描述并嵌入相應位置,這在將 OCR 輸出傳給 LLM 時尤為有用。典型模型包括OlmOCR(AllenAI)和 PaddleOCR-VL(PaddlePaddle)。

模型常見的輸出格式包括:

  • DocTags
  • HTML
  • Markdown

不同的輸出格式會影響表格與圖表的呈現方式:有的模型將圖表視作圖像保留;而另一些模型則將圖表轉化為 Markdown 表格或 JSON,如下例所示:

Chart RenderingChart Rendering

同理,表格會被轉換為機器可讀格式,同時保留列名、標題等上下文。

輸出格式:

現代 OCR 模型常用輸出格式如下:

  • DocTag:類 XML 格式,保留布局、文本樣式、元素層級信息(如 Docling 模型所用)

DocTagsDocTags

  • HTML:常見文檔解析格式,表達結構清晰
  • Markdown:最易讀的格式,簡潔但不支持復雜表格
  • JSON:常用于結構化表格或圖表數據,不用于整篇輸出

選擇建議:

  •  數字重建:選 DocTags / HTML(保留布局)
  •  LLM 問答輸入:選 Markdown + 圖片描述
  •  程序化分析:選 JSON 輸出

3、空間定位感知

文檔常有復雜布局(如多欄排版、浮動圖片)。傳統 OCR 需在后處理中手動排序文字,極易出錯。現代 OCR 模型引入布局元數據(“anchors”),用邊界框(bounding boxes)錨定文本,從而保留閱讀順序與位置關系,這個過程也稱為grounding/anchoring,有助于減少幻覺錯誤。

模型提示

OCR 模型可接受圖片輸入,有時還支持文本提示(prompt)。例如:

  • Granite-Docling 支持指令切換,如“Convert this page to Docling”或“Convert this formula to LaTeX”。
  • OlmOCR(AllenAI) 依賴較長的系統提示詞。它基于 Qwen2.5-VL 微調,因此也能處理其他任務,但 OCR 性能最佳。

三、2025最新OCR模型橫評

為了幫助你更容易選擇合適的模型,我們整理了一份目前最有代表性的開源OCR模型對比表(非完整清單)。下面這些模型都有一個共同點:它們都具備版面感知能力(layout-aware),能解析表格、圖表、數學公式等復雜文檔結構。

每個模型所支持的語言列表可在其 Model Card(模型卡)中找到。除 Chandra 使用 OpenRAIL 許可證 和 Nanonets 許可證不明確外,其余模型均為開源。文中的“平均分”(Average Score)來自模型卡上公布的評測結果,主要基于 OlmOCR Benchmark(一個僅含英文的標準測試集)。

值得注意的是:目前許多模型都基于Qwen2.5-VL或Qwen3-VL微調而來,所以文末也列出了Qwen3-VL的原始表現以作參考。

 模型對比

模型名稱

輸出格式

特性

參數規模

多語言支持

平均OlmOCR基準分

Nanonets-OCR2-3B

結構化 Markdown / HTML 表格

提取簽名、水印、手寫;生成圖片描述

4B

英/中/法/阿等

N/A

PaddleOCR-VL

Markdown、JSON、HTML

支持手寫、舊文檔;可提示;圖表轉 HTML

0.9B

109種語言

N/A

dots.ocr

Markdown、JSON

Grounding;圖片嵌入

3B

多語言

79.1 ± 1.0

OlmOCR-2

Markdown、HTML、LaTeX

Grounding;批量優化

8B

僅英語

82.3 ± 1.1

Granite-Docling-258M

DocTags

Prompt 任務切換;位置標記

258M

英/日/阿/中

N/A

DeepSeek-OCR

Markdown、HTML

支持通用視覺理解;表格→HTML;手寫

3B

近百種語言

75.4 ± 1.0

Chandra

Markdown、HTML、JSON

Grounding;圖片提取

9B

40+語言

83.1 ± 0.9

Qwen3-VL

任意格式

可識別古文、手寫、圖片

9B

32語言

N/A

注:Qwen3-VL 是強大的視覺語言模型,能做文檔理解等任務,但并非專為 OCR 微調。使用時建議結合 prompt 實驗。

從整體評分來看,國外模型依然在準確率和結構化能力上占據上風。

在OlmOCR基準測試中,Chandra(83.1)與 OlmOCR-2(82.3)表現最佳,穩居第一梯隊,展現出強大的版面理解與表格解析能力。dots.ocr(79.1)也有不錯的綜合表現,尤其在圖像嵌入和手寫識別上表現均衡。

國產模型方面,DeepSeek-OCR(75.4)雖略低于國外頂尖模型,但在中文識別、跨語言泛化與推理速度上表現突出,成為最具潛力的新秀。Qwen3-VL則更偏向通用視覺語言模型,雖然沒有固定 OCR 提示詞優化,但在圖表重構與古籍識別上具備獨特優勢。PaddleOCR-VL延續了其輕量高效的傳統,支持 109 種語言,適合大規模部署與實際工程應用。

四、模型評估與基準

沒有“通吃型模型”。評估時要看任務需求(如表格輸出格式、語言等)。推薦基準:

  • OmniDocBenchmark:文檔類型多樣(書籍、雜志、教材),支持 HTML / Markdown 表格評估。
  • OlmOCR-Bench:以“單元測試”式評估英文文檔,涵蓋表格、版式、公式。
  • CC-OCR(多語言):覆蓋多語言,但質量較低;是目前少數支持英文/中文以外語言的基準。

建議:若你的領域(如醫療、金融)在公開數據集中未被覆蓋,應自行收集代表性樣本來評估模型。

五、成本與部署效率

大多數OCR模型都在3B~7B參數之間,推理成本遠低于封閉API。舉例:

  • OlmOCR-2(配合vLLM/SGLang):H100上每百萬頁成本約$178;
  • DeepSeek-OCR:A100單卡可日處理20萬頁;
  • 支持量化版,進一步降本。

總體來看,開源模型在大規模使用時性價比顯著優于閉源方案。

六、開源OCR數據集

雖然開源模型爆發,但可用數據集仍稀缺。目前代表性數據包括:

  • olmOCR-mix-0225(AllenAI):已被至少72個模型使用;
  • isl_synthetic_ocr:高質量合成數據;
  • Medical History of British India:人工校正的歷史檔案;
  • VLM生成數據 + 篩選算法:正成為主流趨勢。

未來,更多“可訓練即用”的開放數據集將推動社區加速前進。

七、本地與云端部署指南

 本地部署

  • 多數模型支持 vLLM 或 transformers 加載;
  • 一行命令即可運行:vllm serve nanonets/Nanonets-OCR2-3B。

或用Python調用OpenAI兼容接口,輕松推理圖文。

MLX for Apple Silicon

Apple 推出的 MLX 框架可在 Mac 上本地運行 OCR 模型。

安裝方式:

pip install -U mlx-vlm

wget https://huggingface.co/datasets/merve/vlm_test_images/resolve/main/throughput_smolvlm.png

python -m mlx_vlm.generate --model ibm-granite/granite-docling-258M-mlx --max-to

云端部署

  • Hugging Face Inference Endpoints:一鍵托管推理;
  • Hugging Face Jobs:支持批量OCR推理,自動批處理數千張文檔,無需GPU本地部署。

八、OCR:文檔AI的未來

Visual Document Retrieval

支持直接對PDF堆棧進行“視覺搜索”的模型,可搭配向量數據庫構建多模態RAG系統。

Document Question Answering

相比先轉文本再喂LLM,更推薦直接使用如 Qwen3-VL 這類視覺語言模型——能保留圖表、公式、圖片上下文,避免信息損失。

可以預見,未來的文檔AI將不再只是OCR的升級,而是多模態智能的落地場景。開源模型的興起,讓成本和隱私問題不再是阻礙;而視覺語言模型的普及,則讓“文檔理解”從專業能力變成了普惠工具。我們正處在一個轉折點上——當機器開始“讀懂”人類的文字,信息的邊界也將被重新定義。

評論區的各位大佬:

你目前在用哪款OCR模型?更看重“精度”還是“速度”?

你覺得文檔AI的下一個突破點,會是更強的模型能力,還是更好的應用場景?

歡迎在評論區聊聊你的看法!

參考鏈接:https://huggingface.co/blog/ocr-open-models

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2013-12-06 14:57:24

瀏覽器

2025-08-06 00:00:11

開源多模態大模型

2025-10-29 16:42:06

DeepSeekOCR 模型

2025-11-07 08:37:27

2018-01-31 11:28:36

智能

2015-07-21 16:49:57

達沃

2025-04-14 09:17:00

2013-04-12 09:11:01

2009-06-10 17:13:50

Java開源軟件

2024-09-10 12:11:18

2023-12-25 13:24:00

模型OCR頁面

2010-07-29 16:31:34

Flex開源項目

2010-08-10 13:42:27

Flex開源項目

2017-09-05 08:57:04

2025-10-30 07:00:00

2023-05-17 15:22:45

識別開源工具

2025-03-10 18:50:57

2022-07-04 23:16:21

開源技術容器

2022-07-01 05:58:38

開源技術開源
點贊
收藏

51CTO技術棧公眾號

一级成人免费视频| 右手影院亚洲欧美| 免费影视亚洲| 91色porny蝌蚪| 国产欧美韩国高清| 日本系列第一页| 欧美亚洲国产一区| 精品国产乱码久久久久久久久| www.爱色av.com| 九七久久人人| 久久综合色婷婷| 91在线精品播放| 亚洲GV成人无码久久精品| 五月天综合网站| 日韩精品视频在线| 亚洲区 欧美区| 国产成人亚洲一区二区三区| 亚洲福利电影网| 亚洲欧美国产精品桃花| 日韩三级电影网| 国产ts人妖一区二区| 人人爽久久涩噜噜噜网站| 欧美日韩三级在线观看| 日韩理论电影院| 亚洲美女黄色片| 三级视频网站在线观看| 亚洲精品aa| 黑人巨大精品欧美一区二区三区 | 日产午夜精品一线二线三线| 亚洲精品在线三区| 樱花草www在线| 久久亚洲精品爱爱| 欧美日韩亚洲精品内裤| 日韩美女爱爱视频| av在线免费播放| 国产精品网站导航| 欧美不卡在线一区二区三区| 农村少妇久久久久久久| 国产精品综合二区| 91影院在线免费观看视频| 一级黄色免费看| 蜜臀av一级做a爰片久久| 青青久久aⅴ北条麻妃| 黄色小说在线观看视频| 伊人久久成人| 久久久久久久色| 久久久久久久福利| 欧美二区视频| 久久久久久久999| avove在线播放| 91精品一区国产高清在线gif| 这里只有精品视频| youjizz亚洲女人| 欧美亚洲激情| 久久精品国产91精品亚洲| 日韩一级片在线免费观看| 不卡一区2区| 视频直播国产精品| 5566中文字幕| 亚洲精品a级片| 久久69精品久久久久久国产越南| 亚洲av无码一区二区三区在线| 一区二区中文字| 欧美黑人视频一区| 国产精品2020| 免费视频久久| 国产精品国产三级国产专播精品人| 日本高清不卡码| 青青草原综合久久大伊人精品优势 | 日韩国产欧美一区二区三区| 国产国语刺激对白av不卡| 国产男人搡女人免费视频| 免费在线视频一区| 亚洲精品免费一区二区三区| 亚洲免费成人网| 91社区在线播放| 欧美一区二区视频17c| 91网在线播放| 一二三区精品福利视频| www.中文字幕在线| 成人全视频免费观看在线看| 欧美一卡2卡三卡4卡5免费| 国产av一区二区三区传媒| 亚洲精品亚洲人成在线观看| 中文字幕亚洲综合久久| 欧美黄色免费看| 午夜在线a亚洲v天堂网2018| 国产精品视频免费在线观看| 99久久免费国产精精品| 成a人片国产精品| 日本在线播放一区| 中文字幕免费高清电视剧网站在线观看 | 91精品国产品国语在线不卡| 免费黄色三级网站| 欧美一区电影| 久久免费福利视频| 综合久久中文字幕| 国产.精品.日韩.另类.中文.在线.播放 | 91精品中文字幕| 91亚洲国产成人精品一区二区三| 天堂一区二区三区| h片在线观看| 欧美人妇做爰xxxⅹ性高电影| 超碰caoprom| 99热国内精品永久免费观看| 91成品人片a无限观看| 97国产精品久久久| 久久久久久亚洲综合| 国产尤物av一区二区三区| 欧美亚洲大片| 精品99999| 在线免费看av网站| 三级一区在线视频先锋 | 97在线视频一区| 国产又粗又大又爽| 久久综合久久久久88| 欧美黑人在线观看| 99久久这里有精品| 亚洲偷欧美偷国内偷| 国产一级视频在线| 国产精品一二三在| 亚洲一二三区精品| 中文字幕系列一区| 亚洲小视频在线| 999这里只有精品| 国产成人啪午夜精品网站男同| 亚洲图片小说在线| 成人自拍av| 亚洲精品成a人在线观看| 欧美日韩亚洲国产另类| 国产在线观看一区二区| 亚洲成人网上| 色综合桃花网| 精品国产一区二区三区av性色 | 黄色电影免费在线看| 亚洲动漫第一页| 一级黄色大片免费看| 久久久久国产精品| 成人在线精品视频| 免费大片在线观看www| 欧美三区在线视频| 呻吟揉丰满对白91乃国产区| 免费成人在线影院| 亚洲国产一区二区三区在线 | 亚洲视频高清| 国产二区不卡| 波多野结衣乳巨码无在线观看| 日韩美女一区二区三区四区| 校园春色 亚洲| 国产精品99久久久久久宅男| 激情视频小说图片| 视频一区日韩| 国内精久久久久久久久久人| 午夜小视频免费| 色视频欧美一区二区三区| 性欧美13一14内谢| 美女一区二区三区| 在线观看亚洲视频啊啊啊啊| 亚洲视频自拍| 九九热最新视频//这里只有精品| 风流少妇一区二区三区91| 欧美日韩国产精品专区| 日本一级免费视频| 精品午夜久久福利影院| 天堂av在线中文| 精品淫伦v久久水蜜桃| 欧美一级高清免费播放| 国产在线小视频| 911精品国产一区二区在线| 欧美亚洲日本在线| 91在线国产福利| 无需播放器的av| 午夜精品av| 久久riav| 亚洲人成网站在线在线观看| 久久乐国产精品| 成在在线免费视频| 欧美一级久久久| 天堂中文字幕在线观看| 中文字幕亚洲精品在线观看| 亚洲精品乱码久久久久久蜜桃欧美| 亚洲精华国产欧美| 午夜精品短视频| 91欧美极品| 国产精品久久一区主播| 亚洲国产精品精华素| 亚洲精品中文字幕av| 91影院在线播放| 丰满岳妇乱一区二区三区| www.黄色com| 99精品视频免费在线观看| 亚洲一级免费观看| 最新日韩在线| 亚洲一区三区| 特黄特色欧美大片| 亚洲精品日韩av| 欧美自拍电影| 欧美激情欧美狂野欧美精品 | 蜜臀91精品国产高清在线观看| 成人黄色免费在线观看| 国产在线精彩视频| 久久香蕉频线观| 成人欧美一区| 日韩电影免费在线观看中文字幕| 91久久久久久久久久久久| 黄色一区二区在线观看| 国产在线一卡二卡| 国产欧美精品国产国产专区 | 中文字幕日韩一区二区| 蜜桃传媒一区二区亚洲av | 91麻豆精品秘密入口| 日日夜夜天天综合| 国产91|九色| 国产美女一区视频| 久久影院中文字幕| av成人手机在线| 日韩精品免费在线视频观看| 亚洲av无码一区二区三区dv| 欧美美女直播网站| 成年人视频免费| 欧美日韩亚洲网| 国产无精乱码一区二区三区| 亚洲精品乱码久久久久| 夫妻性生活毛片| 国产精品视频一二三区| 国产一二三四五区| 91天堂素人约啪| 欧亚乱熟女一区二区在线| 国产毛片精品一区| 三日本三级少妇三级99| 精品在线播放午夜| 91香蕉视频污版| 天堂成人免费av电影一区| 亚洲精品国产精华液| 999视频在线免费观看| 一区二区视频免费完整版观看| 欧美精品video| 91精选在线| 美女福利视频一区| 国产成人无吗| 久久在线视频在线| 精品欧美色视频网站在线观看| 中文字幕亚洲欧美在线| 触手亚洲一区二区三区| 中文字幕久热精品视频在线| 国产高清免费在线播放| 亚洲人成电影网站色xx| 久久精品视频91| 日韩av电影资源网| 国产精品久久激情| 欧美性片在线观看| 国产精品网红福利| 亚洲一区二区三区久久久| 国产日韩欧美电影在线观看| 欧美成a人片免费观看久久五月天| 国产精品色婷婷视频| 日韩午夜电影免费看| 亚洲free性xxxx护士hd| 试看120秒一区二区三区| 国产精品v欧美精品∨日韩| 色妞ww精品视频7777| 国产a一区二区| 美女av一区| 欧美激情第六页| 国产最新精品| 一区二区三区电影| 综合久久亚洲| 国产 日韩 亚洲 欧美| 99综合精品| 日韩欧美黄色大片| 精品一区二区三区不卡 | xxxxwww一片| 欧美精品国产一区二区| 国产免费xxx| 欧美在线91| 拔插拔插海外华人免费| 亚洲专区欧美专区| 999在线免费视频| 国内外成人在线视频| 在线观看亚洲免费视频| 久久色.com| 在线观看黄网址| 亚洲一区二区三区四区五区中文| 日韩av大片在线观看| 在线观看日韩国产| 国产wwwxxx| 亚洲精品中文字幕女同| 免费大片在线观看www| 久久久久亚洲精品成人网小说| 国产精欧美一区二区三区蓝颜男同| 国产精品无码专区在线观看| 日韩一区二区三区色| 欧美精品二区三区四区免费看视频 | 日本中文字幕在线不卡| 26uuu久久天堂性欧美| 少妇高潮一区二区三区喷水| 午夜精品国产更新| 一二三区中文字幕| 日韩av在线天堂网| 菠萝菠萝蜜在线视频免费观看| 2021国产精品视频| 中文字幕综合| 欧美国产综合视频| 激情久久婷婷| 伊人色在线视频| 久久综合一区二区| 久草视频免费播放| 欧美日本一区二区| 青青草免费在线视频| 久久久久久久久久久免费| 国产精品第一国产精品| 九九99玖玖| 亚洲色图网站| 欧美黄色性生活| 91亚洲国产成人精品一区二区三| 成年人一级黄色片| 欧美性做爰猛烈叫床潮| 肉丝一区二区| 久久99国产精品自在自在app| 欧美色网在线| 美日韩免费视频| 亚洲理伦在线| 成人做爰69片免费| 亚洲情趣在线观看| 一级黄色大毛片| 一区二区三区美女xx视频| 亚洲精品福利电影| 精品国产综合久久| 好吊一区二区三区| 又大又长粗又爽又黄少妇视频| 中文字幕在线免费不卡| 国产午夜无码视频在线观看| 亚洲欧美日本精品| 成人免费看黄| 久久精品人人爽| 国产精品实拍| 国产在线播放不卡| 成人看片爽爽爽| 日本免费a视频| 国产成人一区在线| 欧美又粗又大又长| 国产亚洲婷婷免费| 日本熟妇色xxxxx日本免费看| 欧美一级高清片在线观看| 黄网站免费在线播放| 亚洲精品日韩激情在线电影| 午夜国产精品视频免费体验区| 一区二区日本| 亚洲人人精品| 久久一区二区电影| 色综合亚洲欧洲| 噜噜噜在线观看播放视频| 日本伊人精品一区二区三区介绍| 国产探花一区在线观看| 国产精品一码二码三码在线| 久久午夜影院| 精品久久久久久一区| 欧美激情理论| 亚洲精品中字| 一本久久综合| 亚洲午夜激情| 91p九色成人| 一本一道久久久a久久久精品91| 久久精品xxxxx| 国产丝袜一区视频在线观看| www.久久网| 最新成人av在线| 中文字幕日韩三级片| 麻豆91小视频| 亚洲色图100p| 日韩欧美电影一二三| 午夜视频在线观看网站| 91丝袜脚交足在线播放| 黄色成人在线网站| heyzo亚洲| 国产精品毛片久久久久久久| 亚洲国产精品二区| 亚洲新声在线观看| 亚洲一二三区视频| 日本毛片在线免费观看| 国产精品色婷婷| 亚洲爱情岛论坛永久| 日韩av免费在线| 亚洲国产精品成人| 亚洲精品视频大全| 日本不卡电影| 麻豆一区区三区四区产品精品蜜桃| 五月婷婷亚洲| 手机在线看片日韩| 欧美日韩在线不卡| 国产福利在线免费观看| 日韩视频在线观看国产| 日韩精品久久久久久| 免费国产羞羞网站美图| 911精品产国品一二三产区| 在线观看的黄色| 一区二区免费在线视频| 久久午夜免费电影| 午夜精品久久久久久久96蜜桃 | av高清一区|