DeepSeek-OCR:10倍壓縮率,讓AI像人一樣"看懂"文檔
DeepSeek-OCR是一款創新的OCR模型,不僅在文本識別上表現優異,還首次將視覺Token用于上下文壓縮。通過圖像編碼大幅提升長文檔處理效率,突破傳統LLM的Token瓶頸,實現多模態信息的高密度表達,為大模型應用于大規模文檔和多模態理解提供了經濟與技術新途徑。
1. AI的上下文危機
2. DeepSeek-OCR上下文光學壓縮思路
4. 10倍壓縮率的高精度
3. DeepSeek-OCR系統架構
5. 超越競爭對手
6. LLM記憶與上下文管理
7. 總結
2025年10月20日,DeepSeek又發布了一個新的模型DeepSeek-OCR。
盡管它是一個非常強大的 OCR 模型,但其目的和其方法的深遠意義,超出了人們對“又一個 OCR 模型”的普遍預期。
因為它除了是一個OCR模型外,還嘗試性的做了一個擴展超長上下文處理潛力的探索,并拿到了不錯的成績。

圖(a)展示了在Fox基準測試中的壓縮率(真實文本Tokens數/模型使用的視覺Tokens數);圖(b)呈現了OmniDocBench上的性能對比。DeepSeek-OCR在端到端模型中實現了最先進的性能,同時使用的視覺Tokens數最少。
1. AI的上下文危機
大型語言模型(LLMs)的強大能力建立在處理被稱為“Token”的連續數據流之上。
在處理文檔時,這些Token通常代表著文檔中的詞語或子詞片段。然而,這種處理方式在面對海量、復雜的長文檔時,面臨一個根本性的挑戰:上下文窗口限制。
在長上下文中,會導致計算成本極高,處理成本會隨著Token數量的增長呈二次方(Quadratic)增長。
這意味著,分析一份包含數萬詞的密集法規文件或一篇復雜的科研報告,需要處理數萬個Token,這在計算資源和內存消耗上是極其昂貴的,效率低下,限制了AI在大規模文檔處理中的應用。
2. DeepSeek-OCR上下文光學壓縮思路
DeepSeek-OCR探索了一種新解決方案:利用視覺模態作為文本信息的高效壓縮媒介。
一張包含文檔內容的圖片,就能用比同樣文字少得多的Tokens來表達大量信息。這說明,用視覺Tokens做光學壓縮,可能達到更高的壓縮效率。
deepseek從以 LLM 為核心的角度重新思考視覺語言模型(VLMs),關注視覺編碼器如何提升 LLM 在處理文本信息時的效率,而不是專注于人類本就擅長的基礎視覺問答(VQA)任務。
OCR 任務作為連接視覺與語言的中間模態,為這種視覺到文本的壓縮方式提供了理想的測試平臺。它在視覺與文本表示之間建立了自然的壓縮到解壓的映射關系。
傳統的AI模型是直接“讀取”文本,而DeepSeek-OCR則是首先“查看”文本的圖像,通過最新的編碼器生成短小、易于管理的視覺Token,實現比傳統文本編碼高得多的信息編碼密度。
這倒是非常類似人類在閱讀文檔時,并非逐字處理。我們能夠瞬間掌握文檔的布局、結構和上下文。
DeepSeek-OCR正是模仿了這種行為,將AI文檔理解從線性、順序的解析模式中解放出來 。
這項技術突破的核心價值,并非是一般的性能提升,而是為多模態AI中根本性的經濟和規模化障礙提出了一個新的解決思路。
Token數量的減少能帶來巨大的成本節約。
4. 10倍壓縮率的高精度
驗證該系統的主要指標是在壓縮下的準確性。
當以10倍的壓縮率運行時,DeepSeek-OCR實現了優秀的97% OCR精度 。這證實了效率的提升并未以犧牲生產任務中的數據完整性為代價。
即使將壓縮極限推至激進的20倍壓縮率,系統仍能維持大約60%的準確性。
盡管這一準確度不能完美的提取細節,但文檔中核心的語義主干仍然被保留和識別 。這種較低保真度模式對于過濾、索引或LLM的記憶機制具有高度價值,因為在這些場景中,優先考慮的是快速攝取文檔的核心思想,而不是完美的字符識別。
這對歷史長文本壓縮、大語言模型記憶遺忘機制等研究方向展現出顯著潛力。
壓縮情景 | 壓縮率 | 解碼精度 | 實際應用 |
高保真生產 | 97% | 適用于所有關鍵任務(法律、研究、金融),需要結合數據完整性與資源效率。 | |
調查/索引 | 有助于快速了解上下文、大規模索引或實現LLM遺忘機制,優先考慮語義結構而非細節。 |
此外,DeepSeek-OCR賦予模型解析圖表、化學公式、簡單幾何圖形和自然圖像的能力,以進一步增強其實用價值。
在生產環境中,DeepSeek-OCR僅需20個節點(160個A100-40G GPU),每天即可處理3300萬頁文檔。如此高的吞吐量解決了AI實驗室和文檔處理企業在獲取訓練數據方面的瓶頸問題。
3. DeepSeek-OCR系統架構
DeepEncoder接收高分辨率文檔圖像作為輸入,并對整頁進行整體處理。
通過專門的訓練,編碼器學習識別并將語義邊界(如段落、列、表格)映射到壓縮的視覺向量中。
這確保了輸出的視覺Token不僅保留了內容,還保留了關鍵的空間關系。最終,壓縮后的視覺Token流不僅體積小、密度高,而且已準備好被下游LLM的上下文窗口快速攝取。少量的Token確保了后續計算成本在可控范圍內。

DeepSeek-OCR的架構。DeepSeek-OCR由DeepEncoder和DeepSeek-3B-MoE解碼器組成。DeepEncoder是DeepSeek-OCR的核心,包含三個組件:以窗口注意力為主的感知模塊SAM、具有密集全局注意力的知識模塊CLIP,以及連接二者的token壓縮器。
如圖所示,DeepSeek-OCR采用統一的端到端VLM架構,由編碼器和解碼器組成。編碼器(即DeepEncoder)負責提取圖像特征并對視覺表征進行標記化與壓縮。解碼器則根據圖像Tokens和提示信息生成所需結果。
- DeepEncoder(核心壓縮器):這是DeepSeek-OCR的創新引擎。
它必須處理像素密集的文檔圖像,同時確保低激活度并實現極高的壓縮率(意味著它在壓縮階段使用最小的計算和內存)。它生成了短小、易于管理的視覺Token序列。該模型從一開始就考慮了工業化擴展和GPU內存限制,這解釋了其驚人的生產吞吐量。 - DeepSeek3B-MoE-A570M(智能解碼器):該組件負責將超壓縮的視覺Token翻譯回連貫、準確的文本。
該解碼器采用了混合專家(Mixture-of-Experts, MoE)架構,這種設計本身就優化了稀疏性和效率,可以實現快速、并行化的解碼,從而支持系統的高吞吐量要求。
將高效的編碼器與高效的MoE解碼器配對,創建了一個生產流水線,最大限度地降低了壓縮和解壓縮階段的計算成本 ,使其非常適合大規模數據生成。
5. 超越競爭對手
- DeepSeek-OCR 對比 GOT-OCR2.0:在OmniDocBench上,DeepSeek-OCR的表現超越了GOT-OCR2.0。
GOT-OCR2.0通常每頁需要使用256個Token,而DeepSeek-OCR只需100個視覺Token就能超越它。這直接展示了光學壓縮的效率優勢。 - DeepSeek-OCR 對比 MinerU2.0:與為處理高復雜度文檔設計的系統相比,這種對比更為鮮明。
MinerU2.0平均每頁文檔需要使用6000多個Token進行處理。DeepSeek-OCR不僅性能顯著優于MinerU2.0,同時使用的視覺Token數量卻少于800個。這相當于實現了7.5倍或更高的壓縮比。
DeepSeek-OCR在對抗MinerU2.0時的成功,凸顯了其在處理復雜文檔布局方面的卓越能力。
通常,需要6000多個Token(如MinerU2.0平均值)的文檔都是包含密集格式的文檔,例如表格、嵌套列表或圖表。DeepEncoder能夠將這些復雜的二維結構映射到少于800個視覺Token中,驗證了視覺上下文對于結構元素的描述能力遠超標準的文本Token序列,使其成為增強文檔解析的有力工具 。
6. LLM記憶與上下文管理
當前的LLMs在長期交互中難以維持上下文,常常會遺忘固定上下文窗口之外的細節。
光學壓縮為在LLMs中實現動態的、長期記憶提供了新的解決方案,即記憶遺忘機制。
傳統的檢索增強生成(RAG)使用文本索引進行記憶查找,而DeepSeek-OCR則提出了視覺索引方法。
對于較早的上下文,我們可以逐步縮小渲染圖像的尺寸,以進一步減少標記消耗。
這一假設的靈感來源于人類記憶隨時間衰減與視覺感知隨空間距離減弱之間的自然類比,二者都呈現出類似的漸進信息丟失模式,如圖 所示。
通過結合這些機制,所提出的上下文光學壓縮方法能夠實現一種類似生物學遺忘曲線的記憶衰減:近期信息保持高保真度,而較遠的記憶則通過更高的壓縮比自然淡化。

遺忘機制是人類記憶最基本的特征之一。上下文光學壓縮方法通過將歷史對話文本渲染成圖像進行初級壓縮,隨后逐步縮小較早圖像的尺寸實現多級壓縮——在此過程中標記數量遞減、文字漸趨模糊,從而完成文本遺忘的模擬。
7. 總結
DeepSeek-OCR是一項開創性的工作,它引入了上下文光學壓縮技術,有效解決了AI處理高分辨率長文檔時的計算瓶頸。它用高效的視覺壓縮層取代了對海量文本Token序列昂貴且順序的處理方式。
該系統展現了工業級的性能:實現了10倍壓縮和97%保真度,并且能夠利用標準基礎設施每天生成3300萬頁的訓練數據 。通過證明可以教會AI“看懂”信息,而不是逐字解析,DeepSeek-OCR為克服當前上下文窗口的物理限制奠定了基礎。
本文轉載自??AI取經路??,作者:AI取經路

















