DeepSeek-OCR:OCR 的新突破

DeepSeek 近日發布了DeepSeek-OCR。這不僅僅是一個 OCR 模型,而是一個概念驗證,它可能會從根本上改變我們在大型語言模型中對上下文的理解。
這個想法是這樣的:如果不是向 LLM 輸入數千個文本標記,而是將該文本壓縮成圖像,并用 100 個視覺標記來表示它,而不會損失準確性,那會怎樣?
這正是 DeepSeek-OCR 所展現的。其潛力無限。
什么是 DeepSeek-OCR?
從本質上講,DeepSeek-OCR 探索了一個有趣的假設:視覺模態能否作為文本信息的有效壓縮媒介?
試想一下,一份文檔的一頁可能包含 1,000 個單詞,大約有 1,300 個文本標記。但同樣的頁面,如果是一張圖片呢?DeepSeek-OCR 只需 100 到 256 個視覺標記就能將其表示出來。
壓縮率高達10 倍,準確率高達 97%。
即使壓縮率達到 20 倍,該模型也能保持 60% 的準確率。雖然不算完美,但考慮到 token 的效率,這個成績已經非常出色了。
使其發揮作用的架構
DeepSeek-OCR 由兩個關鍵組件組成:
DeepEncoder(3.8億個參數)——這是它的秘密武器。它是一款新穎的視覺編碼器,結合了以下特點:
- 用于感知的 80M SAM 基礎架構(以窗口注意力為主)
- 300M CLIP-large 用于知識(密集的全局注意力)
- 一個 16x 卷積壓縮器將它們連接起來
這種巧妙的設計即使在高分辨率輸入下也能保持較低的激活內存占用。一幅 1024×1024 的圖像會被分割成 4,096 個塊,但壓縮器會將其壓縮到僅 256 個標記,然后再進入代價高昂的全局注意力層。
DeepSeek-3B-MoE 解碼器(570M 激活參數)——一種緊湊但功能強大的語言模型,可以從壓縮的視覺標記中重建文本。
整個系統圍繞一個原則進行設計:維持少量視覺標記、低激活內存和高壓縮比。
按 Enter 鍵或單擊即可查看完整尺寸的圖像

DeepSeek-OCR 架構。來源:官方文檔
重要的數字
DeepSeek 在 Fox 基準測試中測試了他們的模型——真實文檔包含 600-1300 個文本標記。結果清晰地說明了這一點:
按 Enter 鍵或單擊即可查看完整尺寸的圖像

Fox Benchmark 上的 DeepSeek-OCR
最佳壓縮點很明顯:在 10 倍壓縮下,該模型保持約 97% 的準確率。從實用角度來看,這基本上是無損壓縮。
在 OmniDocBench(一個全面的文檔解析基準測試)上,DeepSeek-OCR 的表現優于 GOT-OCR2.0(每頁使用 256 個標記),而視覺標記數量僅為 100 個。它甚至擊敗了 MinerU2.0(每頁需要 6,000 多個標記,而視覺標記數量不到 800 個)。
為什么這不僅僅與 OCR 有關
有趣的是,DeepSeek-OCR 并非試圖成為世界上最好的 OCR 模型。它只是一個探索 AI 架構基本問題的研究工具。
其真正含義在于LLM 中的長上下文處理。
想象一下,在多輪對話中,超過特定點的對話歷史記錄會自動渲染為圖像并壓縮 10 倍。或者,代理系統通過將舊信息存儲為壓縮的視覺表示來維護龐大的上下文窗口。
DeepSeek 甚至提出了一種“遺忘機制”——逐步降低舊渲染圖像的采樣率,以進一步減少標記的消耗。近期內容在高分辨率下依然清晰可見。較舊的內容會變得更加模糊,消耗的標記也更少,這模仿了人類記憶自然消退的規律。
這就像在人工智能系統中實現生物記憶衰減曲線。
超越文檔:隱藏的功能
雖然重點是文檔 OCR,但由于訓練數據組合,DeepSeek-OCR 還具有一些令人驚訝的附加功能:
OCR 2.0 任務:
- 圖表解析(將圖表轉換為 HTML 表格)
- 化學式識別(SMILES格式)
- 平面幾何解析
- 數學方程式識別
總體愿景:
- 圖像字幕
- 物體檢測
- 視覺接地
- 基本 VQA 任務
多種語言:
- 支持近100種語言
- 布局感知和無布局 OCR 模式
該模型并非通用的 VLM——它由 70% 的 OCR 數據、20% 的通用視覺數據和 10% 的純文本數據組成。但這是有意為之。它針對壓縮研究問題進行了優化。

示例 1:圖表解析(將圖表轉換為 HTML 表格)
實際應用
這在實踐中有什么重要意義?
- LLM 訓練:將 3000 萬頁 PDF 文檔轉換為工業級訓練數據。該模型可處理約 100 種語言,非常適合多語言預訓練數據集。
- 對于代理系統:實現高效的上下文管理,其中舊的對話歷史被光學壓縮,釋放令牌以進行主動推理。
- 對于文檔處理:部署比現有解決方案更快、更高效的生產 OCR 系統,同時保持競爭準確性。
- 研究目的:使用 DeepSeek-OCR 作為探索上下文壓縮、記憶機制和視覺語言權衡的試驗臺。
局限性
DeepSeek-OCR 是一個研究模型,該論文對其局限也坦誠相告:
- 壓縮率超過 10 倍時性能會下降
- 擁有 1,000 多個代幣的復雜布局可能會對模型造成挑戰
- 該模型不是通用聊天機器人(沒有 SFT/RLHF)
- 仍然需要真正的上下文壓縮驗證(大海撈針測試等)
作者明確將其定位為“初步探索”和“概念驗證”。在一個充斥著夸大其詞的領域,這種誠實令人耳目一新。
結論
DeepSeek-OCR 代表了從“我們如何擴展上下文窗口?”到“我們如何智能地壓縮上下文?”的轉變。
該模型證明,通過光學表示可以實現 10 倍無損壓縮。這并非空穴來風——真實文檔的驗證準確率高達 97%。
更重要的是,它開辟了一個研究方向,或許可以重塑我們對長上下文人工智能系統的思考方式。與其與二次縮放作斗爭,不如通過壓縮來解決這個問題。
其影響遠不止提高個人生產力或改進文檔解析,而是要讓人工智能系統在其基本任務——信息處理和推理——上更加高效。
與大多數向世界做出承諾并提供 API 端點的 AI 研究不同,DeepSeek-OCR 為我們提供了開放的權重、透明的基準和誠實的限制。


































