與DeepSeek-OCR不謀而合,NeurIPS論文提出讓LLM像人一樣讀長文本
在 NeurIPS 2025 論文中,來自南京理工大學(xué)、中南大學(xué)、南京林業(yè)大學(xué)的研究團(tuán)隊(duì)提出了一個極具突破性的框架 ——VIST(Vision-centric Token Compression in LLM),為大語言模型的長文本高效推理提供了全新的 “視覺解決方案”。值得注意的是,這一思路與近期引起廣泛關(guān)注的 DeepSeek-OCR 的核心理念不謀而合。
研究背景
在處理短文本時(shí),大語言模型(LLM)已經(jīng)表現(xiàn)出驚人的理解和生成能力。但現(xiàn)實(shí)世界中的許多任務(wù) —— 如長文檔理解、復(fù)雜問答、檢索增強(qiáng)生成(RAG)等 —— 都需要模型處理成千上萬甚至幾十萬長度的上下文。與此同時(shí),模型參數(shù)規(guī)模也從數(shù)十億一路飆升至萬億級別。在 “上下文長度激增” 與 “模型參數(shù)量膨脹” 的雙重挑戰(zhàn)下,Token 壓縮不再是優(yōu)化項(xiàng),而是必需品。若不能有效縮減輸入規(guī)模,即便最強(qiáng)大的大語言模型,也難以高效處理我們需要它分析的海量信息。
VIST 的出現(xiàn),正是為了解決這一痛點(diǎn)。
讓大模型學(xué)會像人一樣讀
該團(tuán)隊(duì)早在一年多以前就開始探索 —— 如何讓模型像人類一樣,以視覺的方式更高效地理解長文本。(相關(guān)研究發(fā)表于 NeurIPS 2024:《Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning》)
人類閱讀文章時(shí),不會逐字讀完每一個詞。“的”“了”“和” 這些功能性高頻詞,幾乎是被大腦自動略過的。真正讓我們停下來的,是那些承載意義的低頻詞 —— 名詞、動詞、數(shù)字等。
VIST 的核心思想,就是讓大模型也具備這種 “選擇性閱讀” 能力。它設(shè)計(jì)了一種模仿人類 “快–慢閱讀通路(Slow–Fast Reading Circuit)” 的視覺化壓縮機(jī)制,讓大模型在理解長文本時(shí),既能快速掃讀,又能深入思考:
- ??♂? 快路徑(Fast Path):將遠(yuǎn)處、相對次要的上下文渲染為圖像,由一個凍結(jié)的輕量級視覺編碼器快速提取顯著性語義;
- ?? 慢路徑(Slow Path):將關(guān)鍵的近處文本直接輸入 LLM,用于深層推理與語言生成。
這種 “視覺 + 語言” 的雙通道協(xié)作,就像人類的眼睛與大腦 —— 一邊掃視全局,一邊聚焦要點(diǎn),深度思考。VIST 讓模型真正具備了 “像人一樣速讀” 的能力。

憑借這一設(shè)計(jì),在處理相同文本內(nèi)容時(shí),VIST 所需的視覺 Token 數(shù)量僅為傳統(tǒng)文本分詞所需 Token 數(shù)量的 56%,內(nèi)存減少了 50%。

- 論文標(biāo)題:Vision-centric Token Compression in Large Language Model
- 論文鏈接:https://arxiv.org/abs/2502.00791(2025 年 2 月發(fā)布)
用「視覺壓縮」解鎖長文本理解
早期的 LLM 主要通過 tokenizer 把文本拆分的離散 token 輸入給 LLM 去處理,這種范式帶來了很多好處,如高度語義化。但是已有研究發(fā)現(xiàn),經(jīng)過大規(guī)模圖文配對數(shù)據(jù)預(yù)訓(xùn)練,CLIP 等視覺編碼器能夠自發(fā)掌握 OCR 能力,這使它們可以直接理解文本圖像內(nèi)容,為長文本的視覺化處理提供了強(qiáng)大工具。
VIST 則借鑒了人類高效閱讀的技巧,提出了一種全新的快–慢視覺壓縮框架,用視覺方式處理長文本,讓模型既能快速掃讀,又能深度理解。
快路徑(Fast Path):
- 將次要的長距離上下文渲染成圖像,由輕量級視覺編碼器處理;
- 通過 Resampler 將視覺特征進(jìn)一步壓縮為 4 倍;
- 壓縮后的視覺特征再通過 cross-attention 與 LLM 的主輸入整合。
慢路徑(Slow Path):
對近處或核心文本直接交給 LLM 處理,進(jìn)行深度推理和語言生成。
這種 “掃視遠(yuǎn)處,專注近處” 的方式,模擬了人類閱讀的自然策略,讓模型在長文本場景下既高效又精準(zhǔn)。

概率感知視覺增強(qiáng)
教模型學(xué)會「略讀」
雖然視覺編碼器(如 CLIP)非常強(qiáng)大,但它們主要在自然圖像上訓(xùn)練,對于渲染文本的理解能力有限。而且,長文本中往往充斥大量冗余信息,如果不加選擇地處理,浪費(fèi)算力,還會被干擾得抓不住重點(diǎn)。
為此,VIST 引入了一個巧妙的機(jī)制 —— 概率感知視覺增強(qiáng)(PVE, Probability-informed Visual Enhancement),教模型 “略讀”,抓住關(guān)鍵信息,忽略冗余詞。

在訓(xùn)練中,PVE 采用基于頻率的屏蔽策略(Frequency-based Masking Strategy)把高頻但信息量低的詞(如英文中的 “the”、“with”)掩碼,而重點(diǎn)保留低頻、高信息量詞,如名詞、動詞、數(shù)字等核心內(nèi)容。這些經(jīng)過語義優(yōu)化的文本嵌入(embeddings)有效指導(dǎo) Resampler 從文本圖像中提取最重要的語義信息,讓視覺壓縮模塊更高效、更精準(zhǔn)。
VIST 展示視覺壓縮的極大潛力
在開放域問答(Open-domain QA) 任務(wù)以及 11 個 In-Context Learning(ICL)基準(zhǔn)任務(wù)上,VIST 顯著優(yōu)于基于文本編碼器的壓縮方法 CEPE。即便在極端條件下 —— 所有篇章僅通過視覺編碼器處理 ——VIST 仍能在開放域問答任務(wù)中達(dá)到與 TinyLlama 相當(dāng)?shù)男阅埽浞诛@示了視覺壓縮在長文本處理中的可靠性。
此外,VIST 在處理相同文本內(nèi)容時(shí),所需視覺 Token 數(shù)量比傳統(tǒng)文本 Token 少 56%(壓縮比約為 2.3,從 1024 個文本 Token 壓縮到 448 個視覺 Token),同時(shí)顯存使用減少 50%,極大提高了計(jì)算效率。



Visual Text Tokenization
讓大模型 “用眼睛讀文字”
VIST 利用輕量級視覺編碼器,將冗長的上下文信息壓縮處理,為大語言模型提供了一條高效、低成本的新路徑。更妙的是,視覺編碼器還能充當(dāng)視覺文本分詞器(Visual Text Tokenization),帶來四大優(yōu)勢:
- 簡化分詞流程
傳統(tǒng)文本分詞器依賴復(fù)雜規(guī)則和固定詞表,通常涉及近十步人工預(yù)處理(如小寫化、標(biāo)點(diǎn)符號處理、停用詞過濾等)。視覺編碼器直接將渲染后的文本視作圖像輸入,無需繁瑣預(yù)處理,處理流程更直接高效。
- 突破詞表瓶頸
傳統(tǒng)分詞器在多語言環(huán)境下容易受詞表限制影響性能,而視覺編碼器無需詞表,統(tǒng)一處理多種語言文本,大幅降低嵌入矩陣和輸出層的計(jì)算與顯存開銷。
- 對字符級噪聲更魯棒
視覺編碼器關(guān)注整體視覺模式,而非單個 Token 匹配,因此對拼寫錯誤或低級文本攻擊具備天然抵抗力。
- 多語言高效性
盡管本文主要針對英文,視覺文本分詞器在其他語言中同樣高效:與傳統(tǒng)文本分詞相比,可減少 62% 的日文 Token、78% 的韓文 Token、27% 的中文 Token,在處理長文本時(shí)優(yōu)勢尤為顯著。
結(jié)語與未來展望
VIST 展示了 “視覺 + 語言” 協(xié)作在大模型長文本理解中的巨大潛力:
- 它讓大模型能夠 “像人一樣讀”,快速掃視冗余信息,同時(shí)專注于關(guān)鍵內(nèi)容;
- 它為多語言、長文本、甚至多模態(tài)場景提供了高效處理方案。
未來,視覺驅(qū)動的 Token 壓縮可能會成為長上下文 LLM 的標(biāo)準(zhǔn)組件。
隨著模型規(guī)模不斷增長,這種 “先看再讀” 的策略,將幫助大模型在保證理解能力的同時(shí),大幅降低計(jì)算成本,為多模態(tài)智能理解鋪平道路。
該研究團(tuán)隊(duì)并非首次探索視覺化文本,感興趣的讀者可以訪問 Blog 進(jìn)一步了解更多相關(guān)內(nèi)容 (https://csu-jpg.github.io/Blog/people_see_text.html)。

































