DPad:擴散大語言模型的中庸之道,杜克大學陳怡然團隊免訓推理加速61倍
論文作者團隊:來自杜克大學 CEI Center,由實習生陳欣驊、黃思韜及郭聰博士共同完成,指導教師為李海教授、陳怡然教授。
擴散大語言模型(dLLMs)憑借并行解碼與獨特的全局規劃能力,有望解決自回歸(AR)大模型的效率瓶瓶頸和規劃能力缺陷。但其「全局規劃」能力依賴于其雙向注意力對所有后文的關注,這帶來了嚴重的計算冗余,從而導致現有開源模型的潛力遠遠未被釋放。
當前的 dLLM 存在「路線之爭」:一是保留全局規劃能力但推理效率極低的「全局雙向注意」(如 LLaDA),二是追求速度卻犧牲規劃能力的「塊內雙向注意」(如 Block Diffusion)。如何在這兩條路線之間調和折中,讓模型既能「著眼全局」,又能加速推理,已成為學界日益關注的問題。
針對以上問題,杜克大學陳怡然團隊另辟蹊徑,揭示了 dLLM 中實現全局規劃的「草稿紙機制」,并發現其存在高度冗余。據此,他們提出免訓練方法 DPad(Diffusion Scratchpad),通過先驗地丟棄大量無效后綴 token,既極大地降低了計算量,又保留了核心規劃能力,嘗試在兩條路線中走出一條「中間路線」。該方法與現有優化技術結合后,在幾乎無損的模型精度下,可實現高達 61.4 倍的推理加速。

- 論文標題:DPad: Efcient Difusion Language Models with Sufx Dropout
- 論文地址:https://arxiv.org/abs/2508.14148
- 代碼地址:https://github.com/Crys-Chen/DPad
dLLM 獨特的「草稿紙」機制:實時記錄語義信息
不同于自回歸模型,dLLM 采用雙向注意力機制,在解碼時既能回顧前文,也能「展望」后文。基于這一點,文本序列可被清晰地劃分為三部分:
- 前綴 token (Prefix Tokens):已完全解碼的文本,語義和位置信息完整。
- 當前塊 token (Current Block):正在解碼的文本,擁有部分語義和完整的位置信息。
- 后綴 token (Suffix Tokens):使用 Mask 初始化的未來文本,僅有位置信息,初始沒有語義信息。可在每層 Transformer block 執行的過程中,逐步記錄語義信息,對未來的文本進行規劃。
研究團隊通過分析雙向注意力機制后發現:dLLM 中的后綴 token 是一種獨特的「草稿紙」。模型在解碼「當前塊」時,會巧妙將這些后綴 token 作為臨時存儲空間,用于在每一層 Transformer block 中記錄自己對后文的構思。這種方法能夠實現對整個文本的規劃,使輸出的前后文更一致,提高語言模型的整體性能。

草稿紙機制示意圖。左圖顯示在淺層(Layer 0),信息從 Prefix 和 Current「寫入」(DPad Writing)到 Suffix 區域。右圖顯示在深層(Layer 1),信息被 Current Block 從 Suffix 區域「讀取」(DPad Reading)回來,輔助解碼。
如上圖所示,前綴、當前和后綴三種類型將注意力分數分為了 9 個區域,使得模型的前向過程存在一個「寫—讀」的工作流:
- 寫入 (Write):在第 0 層 Transformer block,后綴 token 通過注意力機制,從前綴(⑦)和當前(⑧)塊中捕獲信息。這個過程相當于模型對后文的構思作為「草稿」記錄下來。
- 讀取 (Read):在第 1 層 Transformer block,當前塊反過來從后綴 token 讀取信息(⑥)。此時的后綴 token 已不再是「白板」,而是承載了上一層寫入的「草稿」。所以從后文讀取的信息可以用于輔助當前塊的解碼。
研究團隊認為,這種「寫—讀」的行為就像一本「草稿紙」,將模型在淺層對后文的構思傳遞到深層——這正是 dLLM 具備強大全局規劃能力的關鍵。它讓模型在生成當前內容的同時,能初步構思和約束未來的生成方向,實現了前后文的協同共進。
符合直覺的發現:「草稿紙」也要詳略得當
DPad 的核心思想,源于一個非常符合直覺的類比。想象一下您在創作一部鴻篇巨制:
- 對于當前章節,你會反復修改,精雕細琢。
- 對于臨近幾章,你會先列好提綱,構思重點情節,確保情節自然銜接。
- 對于后續章節,或許只是隨手記下幾個天馬行空的靈感,寥寥幾筆。
DPad 正是基于這一思想,避免讓作者(dLLM)在創作每個章節(當前塊 Token)時,對所有未來的「草稿紙」(后綴 Token)進行強行填充,從而,才能集中注意力并節省資源(降低算力和存儲)。其核心思想便是聚焦當下,展望未來,留白長遠,讓模型的每一次「下筆」都更加高效。
通過對 dLLM 注意力機制的分析,研究團隊發現了支撐這種核心思想的關鍵性數據:
- 「草稿紙」大量冗余:離當前塊較遠的后綴 token 往往被寫入了極其相似的「草稿」,其中大部分成了無效計算。
- 注意力隨距離衰減:對當前解碼起關鍵作用的,主要是附近少數幾頁「草稿紙」,遠處的「草稿」重要性顯著降低。

預先解碼出來的后綴 token 存在大量重復。

當前塊對后綴 token 的注意力分數圖。可以看到,注意力(綠線)在進入 Suffix 區域后迅速衰減,表明遠處 token 的影響力逐漸減小。
那么,是否可以更大膽一些呢?如下圖所示,研究人員進行了一個反直覺的實驗:強行刪除那些注意力分數最高的遠端 token。出人意料的是,準確率幾乎沒有任何損失!dLLM 似乎有「自愈能力」,會將注意力自動轉移到鄰近 token 上,補償丟失的信息。
這個「注意力遷移」現象有力地證明:比起某一張特定位置的「草稿紙」,dLLM 其實僅要求在未來某個位置區間內存在可用的「草稿紙」即可。因此,與其空耗算力確定重要 token 的位置,不如直接先驗丟棄。

左圖展示了 dLLM 中當前塊 token 對后綴 token 的注意力分布:整體隨距離衰減,遠端 token 偶爾出現「尖峰」(如 d = 362)。當刪除這些尖峰 token 后(右圖),模型的注意力并沒有消失,而是自然地轉移到了鄰近的 token 上(如,362 號 token 的注意力被轉移到 359 號)。
DPad:簡單高效的「先驗丟棄」
基于以上洞見,DPad 方法應運而生。它的核心思想是:與其等模型算完再「剪枝」,不如在解碼開始前,就先驗地丟掉一批冗余的「草稿紙」。DPad 的實現非常簡潔,主要包含兩大策略:
- 滑動窗口 (Sliding Window):只保留當前解碼位置附近一個固定長度的后綴窗口作為「草稿紙」,遠處的直接丟棄。
- 「近多遠少」采樣 (Distance-decay Dropout):在滑動窗口內部,根據「越近越重要」的原則,以一個隨距離遞減的概率保留后綴 token。

(a) 自回歸模型;(b) 傳統 dLLM,需要關注所有后綴 token;(c) DPad,僅關注附近少數經過篩選的后綴 token。
實驗結果:更快更準
DPad 在 LLaDA 和 Dream 系列等多個主流 dLLM 上進行了全面測試,結果喜人。
大幅提升推理效率
在現實的長輸出場景(少示例、長回答)中,DPad 可謂大放異彩:
- 在 GSM8K 數據集上,DPad 為 LLaDA-1.5 帶來了 20.3 倍的單獨加速比。
- 與 Fast-dLLM 等并行解碼技術結合后,綜合加速比高達 61.39 倍。
- 在 HumanEval 數據集上,當輸出長度達到 2048 個 token 時,DPad 與 Fast-dLLM 的組合為 Dream 模型帶來了 97.32 倍的驚人加速。

圖 6 在 GSM8K(1024 tokens, 1-shot)任務上,DPad 結合其他優化技術,讓 LLaDA-1.5 實現了 61.39 倍的加速。

在 HumanEval(2048 tokens, 0-shot)任務上,DPad 結合其他優化技術,讓 Dream-Base 實現了 97.32 倍的加速。
意外之喜:顯著提升語境學習能力 (In-Context Learning)
通常,推理加速會以犧牲部分模型精度為代價。但 DPad 卻帶來了意外的驚喜:在多個任務上,尤其是在 LLaDA 系列模型上,它不僅沒有降低精度,反而顯著提升了模型的準確率,尤其是「嚴格匹配」(Strict Match)得分。
「嚴格匹配」不僅要求答案正確,還要求模型嚴格遵循輸入示例給出的格式,是衡量模型語境學習能力的關鍵指標。

在 GSM8K 任務中,原始模型(左)雖然算對了答案(通過 Flexible-Match),但未能按要求格式輸出答案,未能通過 Strict-Match。而應用了 DPad 的模型(右),則精準復刻了示例格式,同時給出了正確答案。
DPad 在 LLaDA-Instruct 上與原始模型 (Vanilla) 和 Fast-dLLM 的對比

DPad 在 LLaDA-1.5 上與原始模型 (Vanilla) 和 Fast-dLLM 的對比

DPad 在 Dream-Base 上與原始模型 (Vanilla) 和 Fast-dLLM 的對比
DPad 團隊認為,這是因為丟棄了大量冗余的后綴 token 后,模型能將更多注意力集中在信息量豐富的前綴 token(prompt)上,從而更好地理解和學習示例中蘊含的格式與規范。
總結與展望
面對當前 dLLM 的兩條路線之爭,DPad 巧妙地介于兩者之間,嘗試著開辟一條「中間路線」。它既通過「草稿紙機制」,揭示了后綴 token 對于 dLLM 全局規劃能力的重要性;又向 Block Diffusion 靠攏,通過稀疏化后綴 token 大幅提升了推理效率。
DPad 的提出預示著我們似乎并不需要在速度和規劃能力之間做出非此即彼的選擇。未來,若將 DPad 的思想引入到模型的微調甚至預訓練階段,或許能博采眾長,訓練出更高效、更強大的下一代擴散大語言模型。



































