精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

推理速度10倍提升,螞蟻集團開源業內首個高性能擴散語言模型推理框架dInfer

人工智能 新聞
dInfer 的誕生,不僅是一個工具的發布,更是一次 LLM 范式的試煉:它證明了擴散語言模型的效率潛力并非空中樓閣,而是可以通過系統性的創新工程兌現,使其成為 AGI 道路上極具競爭力的選項。

近日,螞蟻集團正式開源業界首個高性能擴散語言模型(Diffusion Large Language Model,dLLM)推理框架 dInfer。

在基準測試中,dInfer 將 dLLM 的推理速度相比于 Fast-dLLM 提升了 10 倍以上,并在關鍵的單批次(batch size=1)推理場景下,作為首個開源框架實現了大幅超越經過高度優化的自回歸(AR)模型的性能里程碑,在 HumanEval 上達到 1011 tokens / 秒的吞吐量 。dInfer 通過一系列算法與系統協同創新,攻克了 dLLM 的推理瓶頸,兌現了其內生并行生成帶來的推理效率潛力。

這不僅為開發者提供了即刻可用的高效推理框架,更標志著擴散語言模型這一全新的范式邁出了走向成熟的堅實一步。

  • 論文鏈接:https://arxiv.org/abs/2510.08666
  • 項目地址:https://github.com/inclusionAI/dInfer

理論的「翅膀」,現實的「枷鎖」:擴散語言模型的推理困境

近年來,以自回歸(Autoregressive,AR)范式為核心的大語言模型(Large Language Models)已經取得了巨大的成功,推動了智能問答、代碼生成、智能體助手等領域的重大進步。然而,AR 生成范式也存在其固有瓶頸:生成過程完全依賴前序結果,必須逐詞串行生成,這導致推理延時難以降低,即使 GPU 的并行計算能力強大也無用武之地。

作為一種全新的范式,擴散語言模型(dLLM)應運而生 。它將文本生成視為一個 「從隨機噪聲中逐步恢復完整序列」的去噪過程 。這種模式天然具備三大優勢:

  • 高度并行:理論上可以在單次迭代中,并行地預測和更新序列中的多個 token 。
  • 全局視野:模型的每一步決策都基于對整個序列的全局上下文理解,而非僅依賴于已生成的部分 。
  • 結構靈活:更易于適應多模態、代碼生成等需要復雜結構和長程依賴的任務 。

憑借這些優勢,以 LLaDA-MoE 為代表的 dLLM 已在多個基準測試中,展現出與頂尖 AR 模型相媲美的準確性 。然而在推理效率方面,dLLM 理論上的強大潛能,卻長期被殘酷的現實「枷鎖」所束縛。dLLM 的高效推理面臨三大核心挑戰:

  1. 高昂的計算成本:多步迭代去噪的特性,意味著模型需要反復對整個序列進行計算,這帶來了巨大的算力開銷 。
  2. KV 緩存的失效:dLLM 中的雙向注意力機制,使得 token 對應的 KV 值在每次迭代中都會改變。這導致 AR 模型中「一次計算、永久復用」的 KV 緩存技術直接失效,使得推理過程異常昂貴 。
  3. 并行解碼的雙刃劍:盡管理論上可以并行生成序列中的所有 token,但在難以精準刻畫其聯合概率分布的情況下一次性解碼太多 token,極易引發彼此間的語義錯配,導致「并行越多,質量越差」的窘境 。

這些瓶頸使得 dLLM 的推理速度一直不盡人意,其并行生成帶來的效率淪為「紙上談兵」。如何打破枷鎖,釋放 dLLM 在推理效率的潛能,成為整個領域亟待解決的難題。

dInfer:人人可上手的擴散語言模型高效推理框架

為徹底突破上述瓶頸,螞蟻集團推出了 dInfer—— 一個專為 dLLM 設計的、算法與系統深度協同的高性能推理框架 ,可支持多種擴散語言模型,包括 LLaDA、 LLaDA-MoE、LLaDA-MoE-TD 等。

dInfer 的設計哲學是模塊化與可擴展性,以系統性集成算法與系統優化。如下圖所示,dInfer 包含四大核心模塊:模型接入(Model)、KV 緩存管理器(KV-Cache Manager),擴散迭代管理器(Iteration Manager),和解碼策略(Decoder)。

這種可插拔的架構,允許開發者像搭樂高一樣,進一步組合和探索不同模塊的優化策略,并在統一的平臺上進行標準化評測 。更重要的是,dInfer 針對上述三大挑戰,在每個模塊中都集成了針對性的解決方案。

dInfer 如何「快」起來? 

1.削減計算成本,控制生成質量:鄰近 KV 緩存刷新 (Vicinity KV-Cache Refresh)

dLLM 使用雙向注意力機制讓模型獲得更全局的視野,代價是每次解碼會影響所有的 token 的 KV 值,導致 AR 模型依賴的 KV 緩存技術不能直接應用到 dLLM 上。如果不使用任何 KV 緩存,在一個 sequence 上的一次 diffusion 迭代會導致大量的計算。

為了削減計算成本,Fast-dLLM 提出的將 sequence 劃分為 block,然后再逐個對 block 進行解碼,并在當前解碼 block 之外進行 KV 緩存的方法,可以有效降低 diffusion 迭代的計算成本。然而雖然利用上了 KV 緩存,但在大部分情況下,緩存中的 KV 實際上是過時的,因此會導致生成質量的下降。

為了緩解這一問題,dInfer 采取了一種鄰近刷新的策略:KV 緩存過時的原因是 dLLM 中一個新 token 的確定,會影響全局所有 token 的 KV 表示。而 dInfer 基于「語義局部性」原理( 一個詞的更新,對其近鄰詞的影響最大),在每次迭代解碼一個 block 時,dInfer 只選擇性地重新計算該區塊及其鄰近一小片區域的 KV,而讓遠處的緩存保持不變 。這好比修改文檔中的一句話,你只需檢查上下文是否通順,而無需重讀整篇文章。

這種策略結合 dInfer 的其它優化,在計算開銷和生成質量之間取得了平衡,首次讓 KV 緩存機制在 dLLM 上高效、可靠地運作起來。

2.系統優化:讓 dLLM 的前向運算速度追上 AR

在利用上 KV 緩存之后,dInfer 選擇了合適的 block 大小和 Vicinity KV-Cache Refresh 的范圍,并做了一系列的系統優化,以使 dLLM 一次迭代的速度能追上運行在 SOTA 的推理服務框架如 vLLM 上的 AR 模型,包括:

  • 多卡并行:結合了張量并行 (TP) 與專家并行 (EP),即使在 batch size=1 的條件下,也能充分利用 GPU 的算力,效率提升超 100%。
  • 編譯優化:通過 torch.compile 進行內核融合并編譯為 CUDA Graph 執行,消除了 PyTorch 框架的執行開銷,結合上述的多卡并行,可讓效率提升 200%。
  • 消除迭代之間的氣泡:采用循環展開 (Loop Unrolling) 技術,讓 Python 可以連續不斷地啟動 CUDA 內核,消除了迭代間的 GPU 空閑氣泡,帶來 5-10% 的性能提升 。
  • 早停:在生成 EOS token 后,跳過后續 block 的推理過程,可以減少 5-40% 不必要的開銷。

3.并行解碼:層級解碼 (Hierarchical) 與信用解碼 (Credit)

為了在保證生成質量的前提下,最大化并行解碼的 token 數量,dInfer 提出了兩種無需額外訓練的解碼算法 :

  • 層級解碼 (Hierarchical Decoding):該算法借鑒了「分治」思想,將待解碼的區域不斷遞歸地一分為二,并優先在每個子區域的中心位置解碼 token 。這種方式自然地拉開了新生 token 間的距離,減少了它們之間的語義干擾 。在理想情況下,它能以近似對數級的復雜度完成多點并行生成,既快又穩 。
  • 信用解碼 (Credit Decoding):在多輪迭代中,有些正確的 token 可能很早就被模型穩定地預測出來,但因其單次置信度未能「達標」而被反復重算 。dInfer 為此引入了「累積信用」機制,持續追蹤并累積每個 token 在歷史迭代中的置信表現 。一個長期被穩定預測的 token,即使當前置信度稍低,也能憑借高累積信用被「破格」解碼,從而有效避免了大量冗余計算 。

4.壓榨每步迭代價值:迭代平滑 (Iteration Smoothing)

傳統 dLLM 在每輪迭代中,只利用了置信度最高的 token 信息,而將其他位置的概率分布整個丟棄 。dInfer 的迭代平滑算法,旨在回收這些被浪費的信息 。

它基于未解碼位置的 logits 分布得到該位置的加權 Embedding,并將其作為寶貴先驗知識,平滑地融入下一輪迭代的 Embedding 中 。這極大地豐富了上下文信息,使得單次迭代解碼的 token 數量平均提升了 30-40%。

此外,由于 dInfer 可以無障礙地接入多種擴散語言模型,此次率先支持了基于軌跡蒸餾(Trajectory Distillation)加速 diffusion 去噪過程的 LLaDA-MoE-TD 模型,推理性能更強。

實測數據:里程碑式的性能飛躍

在配備 8 塊 NVIDIA H800 GPU 的節點上,dInfer 的性能表現令人矚目。

Figure2: 評測數據

  • 10 倍性能提升:在與先前的 dLLM 推理方案 Fast-dLLM 的對比中,dInfer 在模型效果持平的情況下,平均推理速度(avg TPS)實現了 10.7 倍的巨大提升(681 vs 63.6) 。
  • 超越自回歸:與在業界頂尖的推理服務框架 vLLM 上運行的、參數量和性能相當的 AR 模型 Qwen2.5-3B 相比,dInfer 的平均推理速度是其 2.5 倍(681 vs 277) 。
  • 突破推理極速:在代碼生成任務 HumanEval 上,dInfer 在單批次推理中創造了 1011 tokens / 秒的紀錄 。這是開源社區首次見證,擴散語言模型在延遲敏感的單批次推理場景下,速度顯著超越經過高度優化的自回歸模型。

更進一步,當結合軌跡蒸餾(Trajectory Distillation)技術(一種讓模型學會 「跳躍式」去噪的后訓練優化方法)后,dInfer 的平均推理速度飆升至 847 TPS,實現了超過 3 倍于 AR 模型的性能 。

開源開放:共建下一代 AI 推理新生態

dInfer 的誕生,不僅是一個工具的發布,更是一次 LLM 范式的試煉:它證明了擴散語言模型的效率潛力并非空中樓閣,而是可以通過系統性的創新工程兌現,使其成為 AGI 道路上極具競爭力的選項。

目前,dInfer v0.1 的全部代碼、技術報告與實驗配置已開源。

螞蟻希望 dInfer 能成為:

  • 研究者的標準平臺:為 dLLM 領域的算法創新提供一個公平、高效的試驗場 。
  • 開發者的加速引擎:助力社區將強大的 dLLM 輕松部署到實際應用中,享受極致性能 。

dInfer 連接了前沿研究與產業落地,標志著擴散語言模型從「理論可行」邁向「實踐高效」的關鍵一步。我們誠邀全球的開發者與研究者一同加入,共同探索擴散語言模型的廣闊未來,構建更加高效、開放的 AI 新生態。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-11 14:39:50

AILLMMistral

2023-03-22 13:53:26

芯片英偉達

2025-05-30 15:52:05

訓練代碼推理

2023-01-18 09:51:56

模型開源

2018-12-06 10:07:49

微軟機器學習開源

2025-07-10 14:54:13

AI模型圖像生成

2024-02-26 07:43:10

大語言模型LLM推理框架

2022-12-23 10:50:20

模型開源

2023-12-03 08:49:38

微軟開源

2025-08-04 08:23:00

2022-07-18 17:37:27

字節跳動人工智能AI模型

2024-07-08 13:04:01

2025-02-27 09:09:45

2023-11-15 14:17:23

微軟語言模型AI 模型

2024-07-19 09:59:31

2025-05-27 15:28:11

模型訓練AI

2025-06-18 16:39:02

視頻生成AI模型

2025-11-06 08:45:00

AI語言模型算法

2022-05-11 14:45:48

模型人工智能

2025-04-21 09:07:00

點贊
收藏

51CTO技術棧公眾號

中文字幕一区二区三区精华液 | 伊人久久大香线蕉av超碰演员| 欧美一区二区免费视频| 久草视频这里只有精品| 欧美色综合一区二区三区| 日韩av不卡在线观看| 精品中文字幕在线观看| 久久精品—区二区三区舞蹈| 蜜桃精品视频| 在线免费不卡视频| 蜜臀精品一区二区| 男人和女人做事情在线视频网站免费观看 | 国产视频一区不卡| 99一区二区| 最近国语视频在线观看免费播放| 狠色狠色综合久久| 中文字幕日韩欧美在线视频| 97精品人妻一区二区三区蜜桃| 色婷婷综合久久久中字幕精品久久| 亚洲精品视频观看| 日韩精品一区二区三区色偷偷| 亚洲精品911| 美女视频免费一区| 日韩美女免费视频| 在线观看 中文字幕| 91精品高清| 中文字幕欧美精品日韩中文字幕| 国产精品300页| 欧美一区在线观看视频| 欧美日韩亚洲丝袜制服| 成人免费毛片网| 欧美性爽视频| 亚洲品质自拍视频| 亚洲一区二区不卡视频| 国产高清在线| 久久精品男人天堂av| 国产一区高清视频| 成人av无码一区二区三区| 久久国产精品无码网站| 国产精品视频地址| 亚洲 日本 欧美 中文幕| 亚洲理伦在线| 久久久综合av| 中文在线观看免费网站| 国产精品v一区二区三区| 久久伊人免费视频| 综合五月激情网| 亚洲最大黄网| 欧美xxxx14xxxxx性爽| 天天鲁一鲁摸一摸爽一爽| 日韩一区电影| 久久精品国产欧美亚洲人人爽| 亚洲激情图片网| 水蜜桃久久夜色精品一区| 在线日韩中文字幕| 欧洲性xxxx| 久久亚洲国产| 久久中国妇女中文字幕| 小泽玛利亚一区二区免费| 欧美激情日韩| 久久久久久久久久久久av| 国产精品xxxx喷水欧美| 国产精品五区| 国产成人精品一区| 国产精品国产精品国产| 极品少妇一区二区| 999在线免费观看视频| 丰满肥臀噗嗤啊x99av| 成人avav在线| 日韩精品久久久免费观看| 在线视频1区2区| 亚洲精品自拍动漫在线| 2019日韩中文字幕mv| a欧美人片人妖| 欧美色综合影院| 日本在线观看视频一区| 久久久亚洲欧洲日产| 亚洲欧美综合精品久久成人| 国产人与禽zoz0性伦| 中文字幕免费精品| 欧美重口另类videos人妖| 中国黄色一级视频| 高清日韩电视剧大全免费| 久久国产一区二区| aiai在线| 亚洲制服丝袜av| 成人亚洲视频在线观看| 亚洲成人毛片| 亚洲国产黄色片| 亚洲无人区码一码二码三码的含义 | 韩国成人精品a∨在线观看| 成人久久18免费网站漫画| 天堂av在线7| 《视频一区视频二区| 国产网站免费在线观看| 日韩专区视频网站| 精品视频久久久久久久| 小向美奈子av| 欧美亚洲网站| 99久久综合狠狠综合久久止| 欧美91精品久久久久国产性生爱| 亚洲免费观看高清完整版在线观看 | 欧美三根一起进三p| 水蜜桃久久夜色精品一区的特点| 亚洲综合色激情五月| 久久精品蜜桃| 亚洲h精品动漫在线观看| 中日韩av在线播放| 美女精品一区最新中文字幕一区二区三区 | 毛片网站免费观看| 国内精品美女在线观看| 国产精品吴梦梦| 日韩a级作爱片一二三区免费观看| 亚洲色欲色欲www| 波多野结衣家庭教师视频| 66精品视频在线观看| 中文字幕日韩免费视频| 秋霞av一区二区三区| www.激情成人| 国产玉足脚交久久欧美| 日本高清久久| 久久精品免费播放| 中文字幕无码乱码人妻日韩精品| 久久综合久久综合久久| 国产真人做爰毛片视频直播| 91麻豆精品| 最新亚洲国产精品| 337p粉嫩色噜噜噜大肥臀| 91年精品国产| 久久久久久久中文| 高潮按摩久久久久久av免费| 欧美老女人性视频| 精品国产18久久久久久| 亚洲色图19p| 亚洲黄色av片| 欧美激情另类| 国产在线播放91| 中文日本在线观看| 欧美喷潮久久久xxxxx| av永久免费观看| 日日夜夜精品免费视频| 奇米精品在线| 婷婷午夜社区一区| 亚洲美女精品成人在线视频| 日韩精品在线免费视频| 99视频一区二区三区| 久久久999视频| 免费视频一区三区| 国产精品欧美日韩久久| 午夜免费视频在线国产| 欧美精品tushy高清| 99热精品免费| 不卡的av网站| 国产成人a亚洲精v品无码| 台湾佬综合网| 国产成人aa精品一区在线播放 | 午夜精品影视国产一区在线麻豆| 8050国产精品久久久久久| 欧美在线一卡| 欧美性猛交xxxx乱大交退制版| 美国精品一区二区| 国产一区二区女| 精品无码一区二区三区在线| 欧美大胆视频| 国产精品99蜜臀久久不卡二区| 中文字幕在线免费| 日韩美一区二区三区| 国产午夜视频在线播放| 久久嫩草精品久久久精品一| 中文字幕视频在线免费观看| 中文字幕一区二区av| 国产精品久久久久久久小唯西川| 性欧美xxx69hd高清| 在线免费看av不卡| www国产一区| 日韩欧美中文在线| 国产探花在线视频| 91性感美女视频| 欧美日韩中文不卡| 欧美三级乱码| 日本一区二区三区视频在线播放 | 亚洲精品国产精品国自产观看| 中文字幕综合| 青青a在线精品免费观看| 国产在线观看a视频| 日韩精品视频免费| 国产又黄又粗又硬| 欧美日韩性生活视频| 中文字幕第二区| av电影天堂一区二区在线观看| 中文字幕网av| 国产欧美另类| 秋霞在线一区二区| 亚洲视频分类| 亚洲综合色激情五月| 色综合一本到久久亚洲91| 欧美大片免费观看在线观看网站推荐| 日韩av高清在线| 欧美成人福利视频| 中文字幕一区二区三区人妻四季| 五月天视频一区| 天天操天天操天天操天天操天天操| 91丨porny丨户外露出| 国产老头和老头xxxx×| 奇米影视在线99精品| 国产在线精品91| 综合激情网站| 在线免费观看成人网| 九色精品91| 久久精品二区| 高潮久久久久久久久久久久久久| 成人免费视频a| 2019年精品视频自拍| 欧美在线视频观看| 1234区中文字幕在线观看| 美女扒开尿口让男人操亚洲视频网站| 国产高清在线| 亚洲天堂av在线免费| 无码国产伦一区二区三区视频| 欧美一二三区精品| 7777久久亚洲中文字幕| 欧美日韩一区成人| 姑娘第5集在线观看免费好剧| 日韩欧美成人区| 日本一区二区不卡在线| 一区二区三区av电影 | 精品女厕一区二区三区| 麻豆精品一区二区三区视频| 国产精品国产三级国产三级人妇 | 成人精品久久| 日韩中文一区二区三区| 国产99久久| 欧美在线激情| 久久99国内| 日本不卡一区二区三区在线观看 | 国产在线不卡一区二区三区| 91精品美女在线| 成人在线啊v| 亚洲aa中文字幕| 久久影院一区二区三区| 亚洲综合成人婷婷小说| 亚洲小说春色综合另类电影| 91精品黄色| 国产精品对白| 久久本道综合色狠狠五月| 精品福利网址导航| 久久99精品久久久久久三级| 免费一区二区| 亚洲精品视频一二三| 日韩免费一区| 日本高清xxxx| 激情亚洲网站| 欧美日韩在线不卡视频| 日本女优在线视频一区二区| 色免费在线视频| 国产揄拍国内精品对白| 9191在线视频| 97aⅴ精品视频一二三区| 91精彩刺激对白露脸偷拍| 欧美激情中文不卡| 色偷偷www8888| 亚洲图片欧美色图| 99久久久久久久久| 欧美另类z0zxhd电影| 国内精品国产成人国产三级| 亚洲国产婷婷香蕉久久久久久| 青青青草网站免费视频在线观看| 在线观看不卡av| 色爱综合区网| 欧洲永久精品大片ww免费漫画| 亚洲日本在线观看视频| 91九色国产视频| 国内露脸中年夫妇交换精品| 日本一区二区三区四区高清视频| 欧美国产偷国产精品三区| 日本五级黄色片| 玖玖在线精品| 四川一级毛毛片| 久久综合色天天久久综合图片| 四虎地址8848| 污片在线观看一区二区| 欧美 亚洲 另类 激情 另类| 精品捆绑美女sm三区| 黄色在线播放| 九色成人免费视频| 国产经典一区| 国产精品久久久久av福利动漫| 国产影视精品一区二区三区| 天天想你在线观看完整版电影免费 | 欧美成人免费全部| 国产精品久久久久av电视剧| 成人看片在线| 成人在线国产| 国产午夜福利100集发布| 久久精品噜噜噜成人av农村| 91av在线免费| 亚洲女人小视频在线观看| youjizz在线视频| 日韩欧美国产一区二区三区 | 亚洲国产日韩在线一区模特| 中文字幕欧美人妻精品一区蜜臀| 精品国产伦一区二区三区观看体验| 91亚洲欧美| 欧美综合国产精品久久丁香| 99精品国产一区二区三区2021| 亚洲亚洲精品三区日韩精品在线视频| 99re国产精品| 国产xxx在线观看| 国产精品国产三级国产普通话蜜臀 | 欧美精品aⅴ在线视频| 九色网友自拍视频手机在线| 久久久最新网址| 日韩激情欧美| 在线免费观看一区二区三区| 日本美女一区二区| 变态另类丨国产精品| 亚洲第一狼人社区| jlzzjlzz亚洲女人18| 久久久av电影| 日韩免费大片| 一区二区欧美日韩| 免费成人av资源网| 亚洲精品一区二区三区影院忠贞| 婷婷综合另类小说色区| 人妻中文字幕一区| 国a精品视频大全| 波多野结衣在线一区二区| 蜜臀在线免费观看| 国产一区二区在线视频| 美女视频久久久| 欧美日韩亚洲综合一区二区三区 | 免费成人高清在线视频theav| 欧美午夜性视频| 成人av免费网站| 精品国产免费观看| 亚洲精品国产品国语在线| 懂色av一区| 激情久久av| 国产精品嫩草99av在线| 深爱五月激情网| 色综合久久中文综合久久牛| 国产在线你懂得| 国产国产精品人在线视| 精品国产乱码久久久久久1区2匹| 日日噜噜噜噜久久久精品毛片| 国产欧美日韩卡一| 国产精品无码粉嫩小泬| 色悠悠国产精品| 国产精品99久久免费| 国产在线无码精品| 成人午夜视频福利| 九一国产在线观看| 亚洲视频综合网| 青娱乐极品盛宴一区二区| 黄色高清视频网站| 国产不卡视频一区| 亚洲免费在线观看av| 亚洲欧美三级在线| 日韩精品第二页| 国产天堂视频在线观看| 97久久超碰国产精品| 天堂av免费在线观看| 精品国产区一区二区三区在线观看| 欧美日韩黄网站| 亚洲熟妇无码另类久久久| 久久免费看少妇高潮| 91福利免费视频| 欧美极度另类性三渗透| 免费成人结看片| 毛片毛片毛片毛片毛| 婷婷丁香久久五月婷婷| eeuss影院在线播放| 99久热re在线精品996热视频 | 特级西西444www| 亚洲超丰满肉感bbw| 国产特黄在线| 成人免费在线看片| 视频一区视频二区中文| 中文字幕人妻一区二| 国产视频自拍一区| 成人短视频软件网站大全app| www..com日韩| 国产精品理论在线观看| 好男人在线视频www| 国产精品爽黄69天堂a| 99精品国产一区二区青青牛奶| 国产黄色录像视频| 亚洲国产欧美一区| 日韩一级特黄| 91视频最新入口| 亚洲精品日日夜夜| 国产大学生校花援交在线播放| 99re视频在线| 美国av一区二区| 天天插天天操天天干| 久久福利视频网| 欧美综合久久| 在线免费观看成年人视频| 欧美变态tickle挠乳网站| 国产精品久久亚洲不卡|