推理速度10倍提升，螞蟻集團開源業內首個高性能擴散語言模型推理框架dInfer

2025-10-14 08:58:00

dInfer 的誕生，不僅是一個工具的發布，更是一次 LLM 范式的試煉：它證明了擴散語言模型的效率潛力并非空中樓閣，而是可以通過系統性的創新工程兌現，使其成為 AGI 道路上極具競爭力的選項。

近日，螞蟻集團正式開源業界首個高性能擴散語言模型（Diffusion Large Language Model，dLLM）推理框架 dInfer。

在基準測試中，dInfer 將 dLLM 的推理速度相比于 Fast-dLLM 提升了 10 倍以上，并在關鍵的單批次（batch size=1）推理場景下，作為首個開源框架實現了大幅超越經過高度優化的自回歸（AR）模型的性能里程碑，在 HumanEval 上達到 1011 tokens / 秒的吞吐量。dInfer 通過一系列算法與系統協同創新，攻克了 dLLM 的推理瓶頸，兌現了其內生并行生成帶來的推理效率潛力。

這不僅為開發者提供了即刻可用的高效推理框架，更標志著擴散語言模型這一全新的范式邁出了走向成熟的堅實一步。

論文鏈接：https://arxiv.org/abs/2510.08666
項目地址：https://github.com/inclusionAI/dInfer

理論的「翅膀」，現實的「枷鎖」：擴散語言模型的推理困境

近年來，以自回歸（Autoregressive，AR）范式為核心的大語言模型（Large Language Models）已經取得了巨大的成功，推動了智能問答、代碼生成、智能體助手等領域的重大進步。然而，AR 生成范式也存在其固有瓶頸：生成過程完全依賴前序結果，必須逐詞串行生成，這導致推理延時難以降低，即使 GPU 的并行計算能力強大也無用武之地。

作為一種全新的范式，擴散語言模型（dLLM）應運而生。它將文本生成視為一個「從隨機噪聲中逐步恢復完整序列」的去噪過程。這種模式天然具備三大優勢：

高度并行：理論上可以在單次迭代中，并行地預測和更新序列中的多個 token 。
全局視野：模型的每一步決策都基于對整個序列的全局上下文理解，而非僅依賴于已生成的部分。
結構靈活：更易于適應多模態、代碼生成等需要復雜結構和長程依賴的任務。

憑借這些優勢，以 LLaDA-MoE 為代表的 dLLM 已在多個基準測試中，展現出與頂尖 AR 模型相媲美的準確性。然而在推理效率方面，dLLM 理論上的強大潛能，卻長期被殘酷的現實「枷鎖」所束縛。dLLM 的高效推理面臨三大核心挑戰：

高昂的計算成本：多步迭代去噪的特性，意味著模型需要反復對整個序列進行計算，這帶來了巨大的算力開銷。
KV 緩存的失效：dLLM 中的雙向注意力機制，使得 token 對應的 KV 值在每次迭代中都會改變。這導致 AR 模型中「一次計算、永久復用」的 KV 緩存技術直接失效，使得推理過程異常昂貴。
并行解碼的雙刃劍：盡管理論上可以并行生成序列中的所有 token，但在難以精準刻畫其聯合概率分布的情況下一次性解碼太多 token，極易引發彼此間的語義錯配，導致「并行越多，質量越差」的窘境。

這些瓶頸使得 dLLM 的推理速度一直不盡人意，其并行生成帶來的效率淪為「紙上談兵」。如何打破枷鎖，釋放 dLLM 在推理效率的潛能，成為整個領域亟待解決的難題。

dInfer：人人可上手的擴散語言模型高效推理框架

為徹底突破上述瓶頸，螞蟻集團推出了 dInfer—— 一個專為 dLLM 設計的、算法與系統深度協同的高性能推理框架，可支持多種擴散語言模型，包括 LLaDA、 LLaDA-MoE、LLaDA-MoE-TD 等。

dInfer 的設計哲學是模塊化與可擴展性，以系統性集成算法與系統優化。如下圖所示，dInfer 包含四大核心模塊：模型接入（Model）、KV 緩存管理器（KV-Cache Manager），擴散迭代管理器（Iteration Manager），和解碼策略（Decoder）。

這種可插拔的架構，允許開發者像搭樂高一樣，進一步組合和探索不同模塊的優化策略，并在統一的平臺上進行標準化評測。更重要的是，dInfer 針對上述三大挑戰，在每個模塊中都集成了針對性的解決方案。

dInfer 如何「快」起來？

1.削減計算成本，控制生成質量：鄰近 KV 緩存刷新 (Vicinity KV-Cache Refresh)

dLLM 使用雙向注意力機制讓模型獲得更全局的視野，代價是每次解碼會影響所有的 token 的 KV 值，導致 AR 模型依賴的 KV 緩存技術不能直接應用到 dLLM 上。如果不使用任何 KV 緩存，在一個 sequence 上的一次 diffusion 迭代會導致大量的計算。

為了削減計算成本，Fast-dLLM 提出的將 sequence 劃分為 block，然后再逐個對 block 進行解碼，并在當前解碼 block 之外進行 KV 緩存的方法，可以有效降低 diffusion 迭代的計算成本。然而雖然利用上了 KV 緩存，但在大部分情況下，緩存中的 KV 實際上是過時的，因此會導致生成質量的下降。

為了緩解這一問題，dInfer 采取了一種鄰近刷新的策略：KV 緩存過時的原因是 dLLM 中一個新 token 的確定，會影響全局所有 token 的 KV 表示。而 dInfer 基于「語義局部性」原理（一個詞的更新，對其近鄰詞的影響最大），在每次迭代解碼一個 block 時，dInfer 只選擇性地重新計算該區塊及其鄰近一小片區域的 KV，而讓遠處的緩存保持不變。這好比修改文檔中的一句話，你只需檢查上下文是否通順，而無需重讀整篇文章。

這種策略結合 dInfer 的其它優化，在計算開銷和生成質量之間取得了平衡，首次讓 KV 緩存機制在 dLLM 上高效、可靠地運作起來。

2.系統優化：讓 dLLM 的前向運算速度追上 AR

在利用上 KV 緩存之后，dInfer 選擇了合適的 block 大小和 Vicinity KV-Cache Refresh 的范圍，并做了一系列的系統優化，以使 dLLM 一次迭代的速度能追上運行在 SOTA 的推理服務框架如 vLLM 上的 AR 模型，包括：

多卡并行：結合了張量并行 (TP) 與專家并行 (EP)，即使在 batch size=1 的條件下，也能充分利用 GPU 的算力，效率提升超 100%。
編譯優化：通過 torch.compile 進行內核融合并編譯為 CUDA Graph 執行，消除了 PyTorch 框架的執行開銷，結合上述的多卡并行，可讓效率提升 200%。
消除迭代之間的氣泡：采用循環展開 (Loop Unrolling) 技術，讓 Python 可以連續不斷地啟動 CUDA 內核，消除了迭代間的 GPU 空閑氣泡，帶來 5-10% 的性能提升。
早停：在生成 EOS token 后，跳過后續 block 的推理過程，可以減少 5-40% 不必要的開銷。

3.并行解碼：層級解碼 (Hierarchical) 與信用解碼 (Credit)

為了在保證生成質量的前提下，最大化并行解碼的 token 數量，dInfer 提出了兩種無需額外訓練的解碼算法：

層級解碼 (Hierarchical Decoding)：該算法借鑒了「分治」思想，將待解碼的區域不斷遞歸地一分為二，并優先在每個子區域的中心位置解碼 token 。這種方式自然地拉開了新生 token 間的距離，減少了它們之間的語義干擾。在理想情況下，它能以近似對數級的復雜度完成多點并行生成，既快又穩。
信用解碼 (Credit Decoding)：在多輪迭代中，有些正確的 token 可能很早就被模型穩定地預測出來，但因其單次置信度未能「達標」而被反復重算。dInfer 為此引入了「累積信用」機制，持續追蹤并累積每個 token 在歷史迭代中的置信表現。一個長期被穩定預測的 token，即使當前置信度稍低，也能憑借高累積信用被「破格」解碼，從而有效避免了大量冗余計算。

4.壓榨每步迭代價值：迭代平滑 (Iteration Smoothing)

傳統 dLLM 在每輪迭代中，只利用了置信度最高的 token 信息，而將其他位置的概率分布整個丟棄。dInfer 的迭代平滑算法，旨在回收這些被浪費的信息。

它基于未解碼位置的 logits 分布得到該位置的加權 Embedding，并將其作為寶貴先驗知識，平滑地融入下一輪迭代的 Embedding 中。這極大地豐富了上下文信息，使得單次迭代解碼的 token 數量平均提升了 30-40%。

此外，由于 dInfer 可以無障礙地接入多種擴散語言模型，此次率先支持了基于軌跡蒸餾（Trajectory Distillation）加速 diffusion 去噪過程的 LLaDA-MoE-TD 模型，推理性能更強。

實測數據：里程碑式的性能飛躍

在配備 8 塊 NVIDIA H800 GPU 的節點上，dInfer 的性能表現令人矚目。

Figure2：評測數據

10 倍性能提升：在與先前的 dLLM 推理方案 Fast-dLLM 的對比中，dInfer 在模型效果持平的情況下，平均推理速度（avg TPS）實現了 10.7 倍的巨大提升（681 vs 63.6）。
超越自回歸：與在業界頂尖的推理服務框架 vLLM 上運行的、參數量和性能相當的 AR 模型 Qwen2.5-3B 相比，dInfer 的平均推理速度是其 2.5 倍（681 vs 277）。
突破推理極速：在代碼生成任務 HumanEval 上，dInfer 在單批次推理中創造了 1011 tokens / 秒的紀錄。這是開源社區首次見證，擴散語言模型在延遲敏感的單批次推理場景下，速度顯著超越經過高度優化的自回歸模型。

更進一步，當結合軌跡蒸餾（Trajectory Distillation）技術（一種讓模型學會「跳躍式」去噪的后訓練優化方法）后，dInfer 的平均推理速度飆升至 847 TPS，實現了超過 3 倍于 AR 模型的性能。

開源開放：共建下一代 AI 推理新生態

目前，dInfer v0.1 的全部代碼、技術報告與實驗配置已開源。

螞蟻希望 dInfer 能成為：

研究者的標準平臺：為 dLLM 領域的算法創新提供一個公平、高效的試驗場。
開發者的加速引擎：助力社區將強大的 dLLM 輕松部署到實際應用中，享受極致性能。

dInfer 連接了前沿研究與產業落地，標志著擴散語言模型從「理論可行」邁向「實踐高效」的關鍵一步。我們誠邀全球的開發者與研究者一同加入，共同探索擴散語言模型的廣闊未來，構建更加高效、開放的 AI 新生態。

責任編輯：張燕妮來源：機器之心

AI 模型開源