DeepSeek-OCR：用視覺模態給長文本“瘦身”，大模型處理效率再突破

作者：Goldma 2025-10-30 07:00:00

DeepSeek團隊最近開源的DeepSeek-OCR模型，給出了一個全新解法：把文本“畫”成圖像，用視覺Token實現高效壓縮。原本需要1000個文本Token存儲的內容，現在100個視覺Token就能搞定，還能保持97%的OCR精度。這種“光學壓縮”思路，不僅讓長文本處理效率飆升，更給大模型的“記憶機制”研究打開了新窗口。

在大語言模型（LLMs）不斷拓展能力邊界的今天，長文本處理始終是道繞不開的坎——文本序列每增加一倍，計算量就可能翻四倍，像處理一本幾十萬字的書籍、一份上千頁的金融報告時，內存溢出、推理卡頓成了常態。

但DeepSeek團隊最近開源的DeepSeek-OCR模型，給出了一個全新解法：把文本“畫”成圖像，用視覺Token實現高效壓縮。原本需要1000個文本Token存儲的內容，現在100個視覺Token就能搞定，還能保持97%的OCR精度。這種“光學壓縮”思路，不僅讓長文本處理效率飆升，更給大模型的“記憶機制”研究打開了新窗口。

目前，DeepSeek-OCR的代碼、模型權重、論文已經全部開源，大家可以直接上手試用：

論文地址：https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
項目地址：https://github.com/deepseek-ai/DeepSeek-OCR
Hugging Face：https://huggingface.co/deepseek-ai/DeepSeek-OCR

01、為什么要給長文本“換一種存儲方式”？

傳統LLM處理長文本的痛點，本質是“文本Token的低效性”——一段文字里藏著大量冗余信息，卻要靠一個個Token線性存儲，導致計算量隨長度呈平方級增長。比如要處理1萬字的文檔，可能需要上萬個文本Token，模型光是建立這些Token間的關聯，就要消耗大量算力。

DeepSeek團隊的核心洞察是：視覺是更高效的信息壓縮媒介。一張包含文字的圖片，能比純文本少用幾十倍的Token來傳遞同樣信息。就像我們看一頁書時，眼睛能瞬間捕捉整頁內容，而不是逐字逐句讀取——這種“二維視覺優勢”，正是解決長文本瓶頸的關鍵。

更巧的是，OCR（光學字符識別）任務成了絕佳的“試驗場”。它既要把圖像里的文字“解壓縮”成文本（驗證壓縮效果），又能通過精度、壓縮比等指標量化性能，完美契合“視覺-文本壓縮”的研究需求。

02、核心架構：兩大組件實現“壓縮-解壓”閉環

DeepSeek-OCR的架構特別簡潔，就像一套“文本壓縮工具包”，由編碼器（DeepEncoder）和解碼器（DeepSeek3B-MoE）組成，前者負責“壓得小”，后者負責“解得出”。

DeepEncoder：高分辨率下的“Token瘦身大師”

傳統視覺編碼器在應對高分辨率圖像時，存在兩個突出問題。一方面，處理高分辨率圖像時會生成過多的 Token。以 1024×1024 的圖像為例，會生成 4096 個 Token（1024/16×1024/16 = 4096），過多的 Token 會導致計算量大幅增加，給后續的處理帶來沉重負擔。另一方面，部分編碼器在對圖像進行壓縮后，細節丟失嚴重，這對于需要精準識別文本的 OCR 任務來說是致命的，會極大影響識別的準確性和完整性。

DeepEncoder通過“局部+全局”的雙階段設計，完美平衡了“壓縮比”和“保真度”：

第一步：局部感知（窗口注意力）
采用 SAM-base 模型：DeepEncoder 使用參數為 8000 萬的 SAM-base 模型，該模型將輸入的圖像分割成 16×16 的小 patch。這種方式就如同使用 “顯微鏡”，能夠聚焦于圖像的每一個細微部分，精確捕捉每個字符的細節信息。
窗口注意力機制控制計算量：在生成較多 Token 的情況下，窗口注意力機制發揮了關鍵作用。它使得模型在處理這些 Token 時，計算量處于可控范圍。窗口注意力機制會限定模型關注的區域，只對窗口內的 Token 進行計算，避免了對所有 Token 同時進行大規模計算帶來的高復雜度，確保了模型在高分辨率圖像局部處理時的高效性和穩定性。
第二步：全局壓縮（16×卷積+全局注意力）
2 層卷積模塊壓縮 Token 數量：經過局部感知后，DeepEncoder 利用一個 2 層卷積模塊對生成的 Token 進行壓縮。這個卷積模塊能夠將 Token 數量大幅減少，例如把 4096 個 Token 壓縮到 256 個，壓縮比例達到 1/16 。
CLIP-large 模型實現全局理解：壓縮后的 Token 會被傳輸到 3 億參數的 CLIP-large 模型。CLIP-large 模型具有強大的全局理解能力，它能將經過初步處理的 “零件”（壓縮后的 Token）整合起來，形成對文檔的整體認知，就像把一堆零件組裝成完整機器。在這個過程中，不僅減少了 Token 數量，降低了后續處理的復雜度，還成功保留了文檔的整體布局信息，使得模型在后續的文本解碼中，能夠更好地還原文檔內容，提高 OCR 任務的準確性。
多分辨率輸入與 “Gundam 模式”
多分辨率輸入支持：DeepEncoder 支持從 512×512（64 個 Token）到 1280×1280（400 個 Token）的多分辨率輸入。不同分辨率適用于不同的場景和需求，較低分辨率在處理簡單文檔或對精度要求稍低的場景下，可以提高處理速度；較高分辨率則能在處理復雜文檔或對細節要求嚴格的任務時，保證信息的完整性和準確性。
“Gundam 模式” 處理大圖像：對于像報紙這種超長篇幅的大圖像，DeepEncoder 通過 “Gundam 模式” 將其拆分成小瓦片進行處理。這種方式進一步降低了處理大圖像時的計算壓力，同時保證了對大圖像內容的有效處理。通過 “Gundam 模式”，DeepSeek-OCR 能夠適應各種復雜的文檔場景，真正實現了 “按需壓縮”，在不同的應用場景下都能展現出良好的性能。

DeepEncoder 通過獨特的 “局部 + 全局” 雙階段設計以及對多分辨率輸入和 “Gundam 模式” 的支持，有效解決了傳統視覺編碼器的問題，在高分辨率圖像的處理上實現了高效的 Token 壓縮和信息保留，為 DeepSeek-OCR 在 OCR 任務中的出色表現奠定了堅實基礎。

DeepSeek3B-MoE：小參數也能高效“解壓”

解碼器沒有用傳統的大模型，而是選了30億參數的混合專家（MoE）架構，推理時從64 個路由專家中只激活6個專家模塊（總激活參數5.7億）。這種設計的好處很明顯：

既有30億參數模型的“理解能力”，能精準把視覺Token還原成文本；
又有小模型的“速度優勢”，單張A100-40G顯卡一天能處理20萬頁文檔，比傳統OCR工具快好幾倍。

它的“解壓邏輯”也很清晰：通過非線性映射，把DeepEncoder輸出的壓縮視覺Token（n個），還原成原始文本Token（N個，n≤N），就像把壓縮包還原成完整文件一樣。

03、性能有多能打？數據說話

壓縮比與精度：10倍壓縮近乎無損

在Fox基準測試（包含多種文檔布局）中，DeepSeek-OCR的表現超出預期：

當文本Token是視覺Token的10倍以內（壓縮比<10×）時，OCR精度能到97%，相當于把1000字的文檔壓成100個視覺Token，還原后幾乎沒錯字；
就算壓縮到20倍（2000字對應100個視覺Token），精度仍有60%，核心信息基本能保留。

這個結果說明，未來用“文本轉圖像”實現“無損壓縮”完全有可能——而且不用額外加算力，因為它能直接復用視覺語言模型（VLM）的基礎設施。

實際任務：用更少Token贏過主流模型

在真實文檔解析任務（OmniDocBench基準）中，它的“性價比”優勢更明顯：

僅用100個視覺Token，就超過了需要256個Token的GOT-OCR2.0；
使用 400 個視覺Token，性能與該基準測試上的當前最優模型持平。
用不到800個視覺Token，性能碾壓了平均需要6000+個Token的MinerU2.0。

關鍵結論：

部分類別文檔僅需極少數Token即可達到理想性能。例如，幻燈片（slides）僅需 64 個視覺Token；書籍（book）和報告（report）類文檔使用 100 個視覺Token即可實現良好性能。這可能是因為這些文檔中大多數文本Token數量在 1000 以內，視覺 - 文本壓縮比未超過 10×。
對于報紙（newspaper）類文檔，由于文本Token數量通常在 4000-5000 之間，遠超其他模式 10× 壓縮比的處理范圍，需要使用 Gundam 模式甚至 Gundam-master 模式才能達到可接受的編輯距離（edit distance），為 VLMs 的視覺Token優化、LLMs 的上下文壓縮及遺忘機制等研究提供了參考。

深度解析：不止能識字，還能解析圖表、公式、多語言

DeepSeek-OCR 具備布局處理和 OCR 2.0 任務處理能力，可通過二次調用對文檔中的圖像進行進一步解析，稱為“深度解析”（deep parsing）。只需統一提示詞，模型就能對圖表、幾何圖形、化學公式乃至自然圖像進行深度解析。

圖表：把金融報告里的折線圖、柱狀圖，自動轉成結構化的HTML表格；

書籍和文章：對于書籍和文章，深度解析模式可對自然圖像輸出密集型描述。

化學公式：識別文檔里的分子式，輸出科研常用的SMILES格式；
幾何圖形：還原平面幾何題里的線段、角度，甚至能標注坐標；
多語言：支持近100種語言，從中文、英文到阿拉伯語、僧伽羅語都能搞定。

這些能力讓它在金融、科研、教育等場景里“大有用武之地”——比如把幾十年的歷史病歷壓縮成圖像存儲，既能節省空間，又能快速檢索關鍵信息。

通用視覺理解

DeepSeek-OCR 同樣具備一定程度的通用圖像理解能力，包括圖像描述、目標檢測、視覺定位等功能。同時，由于訓練數據中包含純文本數據，模型的語言能力也得以保留。但是，模型并非聊天機器人，部分功能需通過完整提示詞激活。

04、更大的價值：給大模型裝一個“視覺記憶庫”

DeepSeek-OCR的意義，遠不止是一個高效OCR工具——更在動搖“文本作為大模型核心輸入”的固有認知，為LLM的“長上下文處理”提供了顛覆性新范式：視覺模塊可以成為LLM的“核心記憶組件”。

傳統LLM的“記憶”依賴文本Token存儲，就像用一根“無限長的薯條”堆砌信息，不僅占用大量上下文窗口，還受制于分詞器的諸多弊病。而DeepSeek-OCR的視覺模塊將信息壓成“一張小餅”，一舉解決幾大關鍵痛點：

突破容量瓶頸：依托強大的視覺壓縮能力，100個視覺Token可對應上千個文本Token，在OmniDocBench基準測試中甚至能實現最高60倍的壓縮比。這種效率提升相當于讓LLM的“記憶容量”呈數倍增長，使其能輕松存下整本書、數天的多輪對話記錄，從根本上緩解了上下文窗口的容量壓力。
重構記憶效率：通過分辨率調節實現“按需存儲”——近期的重要信息用高分辨率圖像保留細節（精準解碼），遠期的次要信息用低分辨率壓縮核心（語義蒸餾），這種“近清遠模糊”的模式既貼合人類記憶規律，又大幅降低了算力消耗，完美契合視覺輸入的高效特性。
實現多模態兼容：視覺輸入讓信息流更通用，不僅能存純文本，更能自然融合加粗、彩色文字、圖表、圖片等豐富格式。例如把帶數據圖表的財報渲染為圖像壓縮存儲，后續調用時既能讀取文字數據，又能還原圖表邏輯——這是受限于文本形式的傳統記憶完全無法實現的。
擺脫分詞器桎梏：視覺模塊通過像素處理信息，徹底繞開了“丑陋、獨立”的分詞器，避免了其帶來的Unicode兼容、字節編碼遺留問題，以及“肉眼相同字符卻生成不同Token”的荒謬情況，更消除了由此引發的安全與越獄風險，讓記憶存儲更純粹、更可靠。

05、寫在最后

DeepSeek-OCR的探索僅僅是個開始，正如Karpathy看完論文后甚至“想立馬搞一個只有圖像輸入的nanochat版本”，這個方向還有無數值得深挖的可能：如何將“視覺壓縮”的短期記憶轉化為模型的參數化長期記憶？能否基于這種模態轉換實現真正的“無限長上下文”對話？視覺輸入的雙向注意力機制如何與LLM的生成邏輯更高效地銜接？

但無論如何，DeepSeek-OCR已經用事實證明了Karpathy的判斷：通過模態轉換優化效率，遠比單純堆參數、擴窗口更聰明。它所實踐的“文本轉視覺”路徑，不僅是技術層面的優化，更是對大模型輸入范式的重新思考——畢竟“所有‘文本到文本’任務都能轉化為‘視覺到文本’任務，反之則不行”。

對于開發者而言，現在就能用它批量處理多格式文檔、生成高質量訓練數據，享受高壓縮率與高準確率帶來的效率提升；對于研究人員，它更是驗證“視覺輸入優越性”的絕佳“試驗田”。或許不久后，我們就能看到能“記住一整本書、看懂所有格式”的大模型，而這一切的起點，正如Karpathy所展望的，就是把文本“渲染”成一張圖。

責任編輯：龐桂玉來源：小白學AI算法

DeepSeek 視覺模態開源