DeepSeek 新模型震撼 AI 圈:用視覺模型讀文檔,壓縮率高達(dá) 90%,信息保真 97%!
最近,DeepSeek 推出了一種全新的 OCR 系統(tǒng),能讓 AI 在不超出內(nèi)存限制的情況下,處理更長(zhǎng)的文檔。

地址:https://github.com/deepseek-ai/DeepSeek-OCR?tab=readme-ov-file
這套系統(tǒng)的關(guān)鍵,是把文字當(dāng)作圖像來(lái)壓縮。 DeepSeek 發(fā)現(xiàn),處理圖片反而比處理純文本更節(jié)省算力。
據(jù)其技術(shù)論文,系統(tǒng)在保留 97% 信息量的前提下,可將文檔壓縮至原來(lái)的十分之一。
換句話說(shuō),一本上百頁(yè)的 PDF,經(jīng) DeepSeek 處理后,只需原來(lái)十分之一的 token 數(shù)量,就能被 AI 完整閱讀。
DeepSeek OCR 的核心由兩部分組成:一是圖像處理模塊,DeepEncoder,二是基于 Deepseek-3B-MoE 的文本生成器。
DeepEncoder 擁有 3.8 億參數(shù),負(fù)責(zé)將文檔圖片分析為壓縮后的視覺 token;文本生成器在此基礎(chǔ)上恢復(fù)文字與結(jié)構(gòu)。

在技術(shù)上,它融合了 Meta 的 SAM(Segment Anything Model) 與 OpenAI 的 CLIP 模型。
SAM 擔(dān)任局部視覺分析,CLIP 則提供全局語(yǔ)義關(guān)聯(lián)。兩者之間,嵌入了一個(gè) 16 倍壓縮器,大幅減少圖像 token 數(shù)量。
一張 1024×1024 像素的圖片,起初被分為 4096 個(gè) token;經(jīng)壓縮后,只剩 256 個(gè)。這一過(guò)程的算力節(jié)省是數(shù)量級(jí)的:CLIP 的計(jì)算負(fù)擔(dān)因此顯著下降。
在低分辨率下,DeepSeek OCR 每張圖僅需 64 個(gè)視覺 token;高分辨率時(shí)也不超過(guò) 400。
相比之下,傳統(tǒng) OCR 系統(tǒng)往往需要數(shù)千 token 才能完成同樣的任務(wù)。

DeepSeek 并不僅僅識(shí)別文字。它能識(shí)別圖表、化學(xué)式、幾何圖形等多種復(fù)雜結(jié)構(gòu)。
研究團(tuán)隊(duì)稱,系統(tǒng)可直接從財(cái)報(bào)圖表中提取結(jié)構(gòu)化數(shù)據(jù),并自動(dòng)生成 Markdown 表格。
在“深度解析模式”下,它能將金融圖表、幾何圖形重新繪制成矢量圖,并同時(shí)保留說(shuō)明文字。
測(cè)試結(jié)果顯示,DeepSeek OCR 在 OmniDocBench 基準(zhǔn)上超過(guò)了 GOT-OCR 2.0。
在僅使用 100 個(gè)視覺 token 的情況下,它的表現(xiàn)優(yōu)于 GOT-OCR 2.0 使用 256 token 的結(jié)果。
即使在 800 token 以下,DeepSeek 也擊敗了 MinerU 2.0,后者每頁(yè)需超過(guò) 6000 token。

根據(jù)對(duì)比數(shù)據(jù),DeepSeek OCR 的 Gundam-M 模式 在中英文混合識(shí)別上取得了最佳編輯距離分?jǐn)?shù)。
系統(tǒng)根據(jù)文檔復(fù)雜度自動(dòng)選擇模式:簡(jiǎn)單演示文檔用 64 token;普通報(bào)告約 100;復(fù)雜報(bào)紙需啟用“Gundam 模式”,上限 800 token。
此外,它還提供 Resize、Padding、Multi-page、Sliding 四種策略,在多頁(yè)文檔中平衡壓縮率與準(zhǔn)確性。

DeepSeek OCR 的訓(xùn)練規(guī)模同樣罕見。研究團(tuán)隊(duì)使用了 三千萬(wàn)頁(yè) PDF 語(yǔ)料,覆蓋約一百種語(yǔ)言。
其中包括 2500 萬(wàn)頁(yè)中英文文檔,以及一千萬(wàn)張合成圖表、五百萬(wàn)化學(xué)公式、一百萬(wàn)幾何圖形。
這些數(shù)據(jù)讓模型具備了跨領(lǐng)域、跨語(yǔ)言的泛化能力。
它不僅能保持原始排版,還能在輸出中附帶文字描述和圖像內(nèi)容說(shuō)明。
在多模態(tài)大模型中,文本上下文的限制一直是瓶頸。DeepSeek 的方法繞開了傳統(tǒng) token 計(jì)數(shù)邏輯,用視覺 token 替代文本 token。
這使得語(yǔ)言模型能在“看圖”的同時(shí)完成“讀文”。
對(duì)研究者而言,這是一種近似“外接硬盤”的解決方案:通過(guò)視覺壓縮,AI 的上下文長(zhǎng)度幾乎無(wú)上限。
這種方式也預(yù)示著未來(lái)的模型架構(gòu)可能不再區(qū)分“文本理解”和“圖像理解”。

































