DeepSeek-OCR:用視覺模態給長文本“瘦身”,大模型處理效率再突破

在大語言模型(LLMs)不斷拓展能力邊界的今天,長文本處理始終是道繞不開的坎——文本序列每增加一倍,計算量就可能翻四倍,像處理一本幾十萬字的書籍、一份上千頁的金融報告時,內存溢出、推理卡頓成了常態。
但DeepSeek團隊最近開源的DeepSeek-OCR模型,給出了一個全新解法:把文本“畫”成圖像,用視覺Token實現高效壓縮。原本需要1000個文本Token存儲的內容,現在100個視覺Token就能搞定,還能保持97%的OCR精度。這種“光學壓縮”思路,不僅讓長文本處理效率飆升,更給大模型的“記憶機制”研究打開了新窗口。
目前,DeepSeek-OCR的代碼、模型權重、論文已經全部開源,大家可以直接上手試用:
- 論文地址:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
- 項目地址:https://github.com/deepseek-ai/DeepSeek-OCR
- Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-OCR
01、為什么要給長文本“換一種存儲方式”?
傳統LLM處理長文本的痛點,本質是“文本Token的低效性”——一段文字里藏著大量冗余信息,卻要靠一個個Token線性存儲,導致計算量隨長度呈平方級增長。比如要處理1萬字的文檔,可能需要上萬個文本Token,模型光是建立這些Token間的關聯,就要消耗大量算力。
DeepSeek團隊的核心洞察是:視覺是更高效的信息壓縮媒介。一張包含文字的圖片,能比純文本少用幾十倍的Token來傳遞同樣信息。就像我們看一頁書時,眼睛能瞬間捕捉整頁內容,而不是逐字逐句讀取——這種“二維視覺優勢”,正是解決長文本瓶頸的關鍵。
更巧的是,OCR(光學字符識別)任務成了絕佳的“試驗場”。它既要把圖像里的文字“解壓縮”成文本(驗證壓縮效果),又能通過精度、壓縮比等指標量化性能,完美契合“視覺-文本壓縮”的研究需求。
02、核心架構:兩大組件實現“壓縮-解壓”閉環
DeepSeek-OCR的架構特別簡潔,就像一套“文本壓縮工具包”,由編碼器(DeepEncoder)和解碼器(DeepSeek3B-MoE)組成,前者負責“壓得小”,后者負責“解得出”。

DeepEncoder:高分辨率下的“Token瘦身大師”
傳統視覺編碼器在應對高分辨率圖像時,存在兩個突出問題。一方面,處理高分辨率圖像時會生成過多的 Token。以 1024×1024 的圖像為例,會生成 4096 個 Token(1024/16×1024/16 = 4096),過多的 Token 會導致計算量大幅增加,給后續的處理帶來沉重負擔。另一方面,部分編碼器在對圖像進行壓縮后,細節丟失嚴重,這對于需要精準識別文本的 OCR 任務來說是致命的,會極大影響識別的準確性和完整性。
DeepEncoder通過“局部+全局”的雙階段設計,完美平衡了“壓縮比”和“保真度”:
- 第一步:局部感知(窗口注意力)
采用 SAM-base 模型:DeepEncoder 使用參數為 8000 萬的 SAM-base 模型 ,該模型將輸入的圖像分割成 16×16 的小 patch。這種方式就如同使用 “顯微鏡”,能夠聚焦于圖像的每一個細微部分,精確捕捉每個字符的細節信息。
窗口注意力機制控制計算量:在生成較多 Token 的情況下,窗口注意力機制發揮了關鍵作用。它使得模型在處理這些 Token 時,計算量處于可控范圍。窗口注意力機制會限定模型關注的區域,只對窗口內的 Token 進行計算,避免了對所有 Token 同時進行大規模計算帶來的高復雜度,確保了模型在高分辨率圖像局部處理時的高效性和穩定性。 - 第二步:全局壓縮(16×卷積+全局注意力)
2 層卷積模塊壓縮 Token 數量:經過局部感知后,DeepEncoder 利用一個 2 層卷積模塊對生成的 Token 進行壓縮。這個卷積模塊能夠將 Token 數量大幅減少,例如把 4096 個 Token 壓縮到 256 個,壓縮比例達到 1/16 。
CLIP-large 模型實現全局理解:壓縮后的 Token 會被傳輸到 3 億參數的 CLIP-large 模型。CLIP-large 模型具有強大的全局理解能力,它能將經過初步處理的 “零件”(壓縮后的 Token)整合起來,形成對文檔的整體認知,就像把一堆零件組裝成完整機器。在這個過程中,不僅減少了 Token 數量,降低了后續處理的復雜度,還成功保留了文檔的整體布局信息,使得模型在后續的文本解碼中,能夠更好地還原文檔內容,提高 OCR 任務的準確性。 - 多分辨率輸入與 “Gundam 模式”
多分辨率輸入支持:DeepEncoder 支持從 512×512(64 個 Token)到 1280×1280(400 個 Token)的多分辨率輸入。不同分辨率適用于不同的場景和需求,較低分辨率在處理簡單文檔或對精度要求稍低的場景下,可以提高處理速度;較高分辨率則能在處理復雜文檔或對細節要求嚴格的任務時,保證信息的完整性和準確性。
“Gundam 模式” 處理大圖像:對于像報紙這種超長篇幅的大圖像,DeepEncoder 通過 “Gundam 模式” 將其拆分成小瓦片進行處理。這種方式進一步降低了處理大圖像時的計算壓力,同時保證了對大圖像內容的有效處理。通過 “Gundam 模式”,DeepSeek-OCR 能夠適應各種復雜的文檔場景,真正實現了 “按需壓縮”,在不同的應用場景下都能展現出良好的性能 。

DeepEncoder 通過獨特的 “局部 + 全局” 雙階段設計以及對多分辨率輸入和 “Gundam 模式” 的支持,有效解決了傳統視覺編碼器的問題,在高分辨率圖像的處理上實現了高效的 Token 壓縮和信息保留,為 DeepSeek-OCR 在 OCR 任務中的出色表現奠定了堅實基礎。
DeepSeek3B-MoE:小參數也能高效“解壓”
解碼器沒有用傳統的大模型,而是選了30億參數的混合專家(MoE)架構,推理時從64 個路由專家中只激活6個專家模塊(總激活參數5.7億)。這種設計的好處很明顯:
- 既有30億參數模型的“理解能力”,能精準把視覺Token還原成文本;
- 又有小模型的“速度優勢”,單張A100-40G顯卡一天能處理20萬頁文檔,比傳統OCR工具快好幾倍。
它的“解壓邏輯”也很清晰:通過非線性映射,把DeepEncoder輸出的壓縮視覺Token(n個),還原成原始文本Token(N個,n≤N),就像把壓縮包還原成完整文件一樣。
03、性能有多能打?數據說話
壓縮比與精度:10倍壓縮近乎無損
在Fox基準測試(包含多種文檔布局)中,DeepSeek-OCR的表現超出預期:
- 當文本Token是視覺Token的10倍以內(壓縮比<10×)時,OCR精度能到97%,相當于把1000字的文檔壓成100個視覺Token,還原后幾乎沒錯字;
- 就算壓縮到20倍(2000字對應100個視覺Token),精度仍有60%,核心信息基本能保留。
這個結果說明,未來用“文本轉圖像”實現“無損壓縮”完全有可能——而且不用額外加算力,因為它能直接復用視覺語言模型(VLM)的基礎設施。


實際任務:用更少Token贏過主流模型
在真實文檔解析任務(OmniDocBench基準)中,它的“性價比”優勢更明顯:
- 僅用100個視覺Token,就超過了需要256個Token的GOT-OCR2.0;
- 使用 400 個視覺Token,性能與該基準測試上的當前最優模型持平。
- 用不到800個視覺Token,性能碾壓了平均需要6000+個Token的MinerU2.0。


關鍵結論:
- 部分類別文檔僅需極少數Token即可達到理想性能。例如,幻燈片(slides)僅需 64 個視覺Token;書籍(book)和報告(report)類文檔使用 100 個視覺Token即可實現良好性能。這可能是因為這些文檔中大多數文本Token數量在 1000 以內,視覺 - 文本壓縮比未超過 10×。
- 對于報紙(newspaper)類文檔,由于文本Token數量通常在 4000-5000 之間,遠超其他模式 10× 壓縮比的處理范圍,需要使用 Gundam 模式甚至 Gundam-master 模式才能達到可接受的編輯距離(edit distance),為 VLMs 的視覺Token優化、LLMs 的上下文壓縮及遺忘機制等研究提供了參考。

深度解析:不止能識字,還能解析圖表、公式、多語言
DeepSeek-OCR 具備布局處理和 OCR 2.0 任務處理能力,可通過二次調用對文檔中的圖像進行進一步解析,稱為“深度解析”(deep parsing)。只需統一提示詞,模型就能對圖表、幾何圖形、化學公式乃至自然圖像進行深度解析。
- 圖表:把金融報告里的折線圖、柱狀圖,自動轉成結構化的HTML表格;

- 書籍和文章:對于書籍和文章,深度解析模式可對自然圖像輸出密集型描述。

- 化學公式:識別文檔里的分子式,輸出科研常用的SMILES格式;

- 幾何圖形:還原平面幾何題里的線段、角度,甚至能標注坐標;

- 多語言:支持近100種語言,從中文、英文到阿拉伯語、僧伽羅語都能搞定。

這些能力讓它在金融、科研、教育等場景里“大有用武之地”——比如把幾十年的歷史病歷壓縮成圖像存儲,既能節省空間,又能快速檢索關鍵信息。
通用視覺理解
DeepSeek-OCR 同樣具備一定程度的通用圖像理解能力,包括圖像描述、目標檢測、視覺定位等功能。同時,由于訓練數據中包含純文本數據,模型的語言能力也得以保留。但是,模型并非聊天機器人,部分功能需通過完整提示詞激活。

04、更大的價值:給大模型裝一個“視覺記憶庫”
DeepSeek-OCR的意義,遠不止是一個高效OCR工具——更在動搖“文本作為大模型核心輸入”的固有認知,為LLM的“長上下文處理”提供了顛覆性新范式:視覺模塊可以成為LLM的“核心記憶組件”。
傳統LLM的“記憶”依賴文本Token存儲,就像用一根“無限長的薯條”堆砌信息,不僅占用大量上下文窗口,還受制于分詞器的諸多弊病。而DeepSeek-OCR的視覺模塊將信息壓成“一張小餅”,一舉解決幾大關鍵痛點:
- 突破容量瓶頸:依托強大的視覺壓縮能力,100個視覺Token可對應上千個文本Token,在OmniDocBench基準測試中甚至能實現最高60倍的壓縮比。這種效率提升相當于讓LLM的“記憶容量”呈數倍增長,使其能輕松存下整本書、數天的多輪對話記錄,從根本上緩解了上下文窗口的容量壓力。
- 重構記憶效率:通過分辨率調節實現“按需存儲”——近期的重要信息用高分辨率圖像保留細節(精準解碼),遠期的次要信息用低分辨率壓縮核心(語義蒸餾),這種“近清遠模糊”的模式既貼合人類記憶規律,又大幅降低了算力消耗,完美契合視覺輸入的高效特性。
- 實現多模態兼容:視覺輸入讓信息流更通用,不僅能存純文本,更能自然融合加粗、彩色文字、圖表、圖片等豐富格式。例如把帶數據圖表的財報渲染為圖像壓縮存儲,后續調用時既能讀取文字數據,又能還原圖表邏輯——這是受限于文本形式的傳統記憶完全無法實現的。
- 擺脫分詞器桎梏:視覺模塊通過像素處理信息,徹底繞開了“丑陋、獨立”的分詞器,避免了其帶來的Unicode兼容、字節編碼遺留問題,以及“肉眼相同字符卻生成不同Token”的荒謬情況,更消除了由此引發的安全與越獄風險,讓記憶存儲更純粹、更可靠。
05、寫在最后
DeepSeek-OCR的探索僅僅是個開始,正如Karpathy看完論文后甚至“想立馬搞一個只有圖像輸入的nanochat版本”,這個方向還有無數值得深挖的可能:如何將“視覺壓縮”的短期記憶轉化為模型的參數化長期記憶?能否基于這種模態轉換實現真正的“無限長上下文”對話?視覺輸入的雙向注意力機制如何與LLM的生成邏輯更高效地銜接?
但無論如何,DeepSeek-OCR已經用事實證明了Karpathy的判斷:通過模態轉換優化效率,遠比單純堆參數、擴窗口更聰明。它所實踐的“文本轉視覺”路徑,不僅是技術層面的優化,更是對大模型輸入范式的重新思考——畢竟“所有‘文本到文本’任務都能轉化為‘視覺到文本’任務,反之則不行”。
對于開發者而言,現在就能用它批量處理多格式文檔、生成高質量訓練數據,享受高壓縮率與高準確率帶來的效率提升;對于研究人員,它更是驗證“視覺輸入優越性”的絕佳“試驗田”。或許不久后,我們就能看到能“記住一整本書、看懂所有格式”的大模型,而這一切的起點,正如Karpathy所展望的,就是把文本“渲染”成一張圖。



































