推理速度10倍提升,螞蟻集團開源業內首個高性能擴散語言模型推理框架dInfer
近日,螞蟻集團正式開源業界首個高性能擴散語言模型(Diffusion Large Language Model,dLLM)推理框架 dInfer。
在基準測試中,dInfer 將 dLLM 的推理速度相比于 Fast-dLLM 提升了 10 倍以上,并在關鍵的單批次(batch size=1)推理場景下,作為首個開源框架實現了大幅超越經過高度優化的自回歸(AR)模型的性能里程碑,在 HumanEval 上達到 1011 tokens / 秒的吞吐量 。dInfer 通過一系列算法與系統協同創新,攻克了 dLLM 的推理瓶頸,兌現了其內生并行生成帶來的推理效率潛力。
這不僅為開發者提供了即刻可用的高效推理框架,更標志著擴散語言模型這一全新的范式邁出了走向成熟的堅實一步。

- 論文鏈接:https://arxiv.org/abs/2510.08666
- 項目地址:https://github.com/inclusionAI/dInfer
理論的「翅膀」,現實的「枷鎖」:擴散語言模型的推理困境
近年來,以自回歸(Autoregressive,AR)范式為核心的大語言模型(Large Language Models)已經取得了巨大的成功,推動了智能問答、代碼生成、智能體助手等領域的重大進步。然而,AR 生成范式也存在其固有瓶頸:生成過程完全依賴前序結果,必須逐詞串行生成,這導致推理延時難以降低,即使 GPU 的并行計算能力強大也無用武之地。
作為一種全新的范式,擴散語言模型(dLLM)應運而生 。它將文本生成視為一個 「從隨機噪聲中逐步恢復完整序列」的去噪過程 。這種模式天然具備三大優勢:
- 高度并行:理論上可以在單次迭代中,并行地預測和更新序列中的多個 token 。
- 全局視野:模型的每一步決策都基于對整個序列的全局上下文理解,而非僅依賴于已生成的部分 。
- 結構靈活:更易于適應多模態、代碼生成等需要復雜結構和長程依賴的任務 。
憑借這些優勢,以 LLaDA-MoE 為代表的 dLLM 已在多個基準測試中,展現出與頂尖 AR 模型相媲美的準確性 。然而在推理效率方面,dLLM 理論上的強大潛能,卻長期被殘酷的現實「枷鎖」所束縛。dLLM 的高效推理面臨三大核心挑戰:
- 高昂的計算成本:多步迭代去噪的特性,意味著模型需要反復對整個序列進行計算,這帶來了巨大的算力開銷 。
- KV 緩存的失效:dLLM 中的雙向注意力機制,使得 token 對應的 KV 值在每次迭代中都會改變。這導致 AR 模型中「一次計算、永久復用」的 KV 緩存技術直接失效,使得推理過程異常昂貴 。
- 并行解碼的雙刃劍:盡管理論上可以并行生成序列中的所有 token,但在難以精準刻畫其聯合概率分布的情況下一次性解碼太多 token,極易引發彼此間的語義錯配,導致「并行越多,質量越差」的窘境 。
這些瓶頸使得 dLLM 的推理速度一直不盡人意,其并行生成帶來的效率淪為「紙上談兵」。如何打破枷鎖,釋放 dLLM 在推理效率的潛能,成為整個領域亟待解決的難題。
dInfer:人人可上手的擴散語言模型高效推理框架
為徹底突破上述瓶頸,螞蟻集團推出了 dInfer—— 一個專為 dLLM 設計的、算法與系統深度協同的高性能推理框架 ,可支持多種擴散語言模型,包括 LLaDA、 LLaDA-MoE、LLaDA-MoE-TD 等。
dInfer 的設計哲學是模塊化與可擴展性,以系統性集成算法與系統優化。如下圖所示,dInfer 包含四大核心模塊:模型接入(Model)、KV 緩存管理器(KV-Cache Manager),擴散迭代管理器(Iteration Manager),和解碼策略(Decoder)。

這種可插拔的架構,允許開發者像搭樂高一樣,進一步組合和探索不同模塊的優化策略,并在統一的平臺上進行標準化評測 。更重要的是,dInfer 針對上述三大挑戰,在每個模塊中都集成了針對性的解決方案。

dInfer 如何「快」起來?
1.削減計算成本,控制生成質量:鄰近 KV 緩存刷新 (Vicinity KV-Cache Refresh)
dLLM 使用雙向注意力機制讓模型獲得更全局的視野,代價是每次解碼會影響所有的 token 的 KV 值,導致 AR 模型依賴的 KV 緩存技術不能直接應用到 dLLM 上。如果不使用任何 KV 緩存,在一個 sequence 上的一次 diffusion 迭代會導致大量的計算。
為了削減計算成本,Fast-dLLM 提出的將 sequence 劃分為 block,然后再逐個對 block 進行解碼,并在當前解碼 block 之外進行 KV 緩存的方法,可以有效降低 diffusion 迭代的計算成本。然而雖然利用上了 KV 緩存,但在大部分情況下,緩存中的 KV 實際上是過時的,因此會導致生成質量的下降。
為了緩解這一問題,dInfer 采取了一種鄰近刷新的策略:KV 緩存過時的原因是 dLLM 中一個新 token 的確定,會影響全局所有 token 的 KV 表示。而 dInfer 基于「語義局部性」原理( 一個詞的更新,對其近鄰詞的影響最大),在每次迭代解碼一個 block 時,dInfer 只選擇性地重新計算該區塊及其鄰近一小片區域的 KV,而讓遠處的緩存保持不變 。這好比修改文檔中的一句話,你只需檢查上下文是否通順,而無需重讀整篇文章。
這種策略結合 dInfer 的其它優化,在計算開銷和生成質量之間取得了平衡,首次讓 KV 緩存機制在 dLLM 上高效、可靠地運作起來。
2.系統優化:讓 dLLM 的前向運算速度追上 AR
在利用上 KV 緩存之后,dInfer 選擇了合適的 block 大小和 Vicinity KV-Cache Refresh 的范圍,并做了一系列的系統優化,以使 dLLM 一次迭代的速度能追上運行在 SOTA 的推理服務框架如 vLLM 上的 AR 模型,包括:
- 多卡并行:結合了張量并行 (TP) 與專家并行 (EP),即使在 batch size=1 的條件下,也能充分利用 GPU 的算力,效率提升超 100%。
- 編譯優化:通過 torch.compile 進行內核融合并編譯為 CUDA Graph 執行,消除了 PyTorch 框架的執行開銷,結合上述的多卡并行,可讓效率提升 200%。
- 消除迭代之間的氣泡:采用循環展開 (Loop Unrolling) 技術,讓 Python 可以連續不斷地啟動 CUDA 內核,消除了迭代間的 GPU 空閑氣泡,帶來 5-10% 的性能提升 。
- 早停:在生成 EOS token 后,跳過后續 block 的推理過程,可以減少 5-40% 不必要的開銷。
3.并行解碼:層級解碼 (Hierarchical) 與信用解碼 (Credit)
為了在保證生成質量的前提下,最大化并行解碼的 token 數量,dInfer 提出了兩種無需額外訓練的解碼算法 :
- 層級解碼 (Hierarchical Decoding):該算法借鑒了「分治」思想,將待解碼的區域不斷遞歸地一分為二,并優先在每個子區域的中心位置解碼 token 。這種方式自然地拉開了新生 token 間的距離,減少了它們之間的語義干擾 。在理想情況下,它能以近似對數級的復雜度完成多點并行生成,既快又穩 。
- 信用解碼 (Credit Decoding):在多輪迭代中,有些正確的 token 可能很早就被模型穩定地預測出來,但因其單次置信度未能「達標」而被反復重算 。dInfer 為此引入了「累積信用」機制,持續追蹤并累積每個 token 在歷史迭代中的置信表現 。一個長期被穩定預測的 token,即使當前置信度稍低,也能憑借高累積信用被「破格」解碼,從而有效避免了大量冗余計算 。
4.壓榨每步迭代價值:迭代平滑 (Iteration Smoothing)
傳統 dLLM 在每輪迭代中,只利用了置信度最高的 token 信息,而將其他位置的概率分布整個丟棄 。dInfer 的迭代平滑算法,旨在回收這些被浪費的信息 。
它基于未解碼位置的 logits 分布得到該位置的加權 Embedding,并將其作為寶貴先驗知識,平滑地融入下一輪迭代的 Embedding 中 。這極大地豐富了上下文信息,使得單次迭代解碼的 token 數量平均提升了 30-40%。
此外,由于 dInfer 可以無障礙地接入多種擴散語言模型,此次率先支持了基于軌跡蒸餾(Trajectory Distillation)加速 diffusion 去噪過程的 LLaDA-MoE-TD 模型,推理性能更強。
實測數據:里程碑式的性能飛躍
在配備 8 塊 NVIDIA H800 GPU 的節點上,dInfer 的性能表現令人矚目。

Figure2: 評測數據
- 10 倍性能提升:在與先前的 dLLM 推理方案 Fast-dLLM 的對比中,dInfer 在模型效果持平的情況下,平均推理速度(avg TPS)實現了 10.7 倍的巨大提升(681 vs 63.6) 。
- 超越自回歸:與在業界頂尖的推理服務框架 vLLM 上運行的、參數量和性能相當的 AR 模型 Qwen2.5-3B 相比,dInfer 的平均推理速度是其 2.5 倍(681 vs 277) 。
- 突破推理極速:在代碼生成任務 HumanEval 上,dInfer 在單批次推理中創造了 1011 tokens / 秒的紀錄 。這是開源社區首次見證,擴散語言模型在延遲敏感的單批次推理場景下,速度顯著超越經過高度優化的自回歸模型。
更進一步,當結合軌跡蒸餾(Trajectory Distillation)技術(一種讓模型學會 「跳躍式」去噪的后訓練優化方法)后,dInfer 的平均推理速度飆升至 847 TPS,實現了超過 3 倍于 AR 模型的性能 。
開源開放:共建下一代 AI 推理新生態
dInfer 的誕生,不僅是一個工具的發布,更是一次 LLM 范式的試煉:它證明了擴散語言模型的效率潛力并非空中樓閣,而是可以通過系統性的創新工程兌現,使其成為 AGI 道路上極具競爭力的選項。
目前,dInfer v0.1 的全部代碼、技術報告與實驗配置已開源。
螞蟻希望 dInfer 能成為:
- 研究者的標準平臺:為 dLLM 領域的算法創新提供一個公平、高效的試驗場 。
- 開發者的加速引擎:助力社區將強大的 dLLM 輕松部署到實際應用中,享受極致性能 。
dInfer 連接了前沿研究與產業落地,標志著擴散語言模型從「理論可行」邁向「實踐高效」的關鍵一步。我們誠邀全球的開發者與研究者一同加入,共同探索擴散語言模型的廣闊未來,構建更加高效、開放的 AI 新生態。





































