現在的LLM或浪費96%GPU，推理系統或要推倒重做！英偉達華人團隊神作：免費Token槽榨出近6倍token速度！不依賴閉源！

原創精選

作者：云昭 2025-11-19 11:19:21

人工智能

為什么？因為問題不在于你的硬件，也不是你的代碼，而是出在了 LLM 這種自回歸語言模型本身的結構，以及 GPU 的工作方式上。你的GPU可能大部分時間都被浪費掉了！

編輯 | 云昭

出品 | 51CTO技術棧（微信號：blog51cto）

每個做 LLM 的開發者都體會過這種折磨：推理太慢。你等 2–3 秒才能出一個 token。

然而，真相更讓人產生戲劇感：你和用戶已經抱怨延遲 N 個月了，但你的 GPU 大部分時間其實都在發呆。

更魔幻的是，不管你怎么操作，CUDA 核心就是一直閑著。一點加速辦法都沒有。

為什么？因為問題不在于你的硬件，也不是你的代碼，而是出在了 LLM 這種自回歸語言模型本身的結構，以及 GPU 的工作方式上。

你的GPU可能大部分時間都被浪費掉了！

單純堆算力不管用：「內存墻」

自回歸模型一次只能生成一個 token。聽起來很合理——語言是順序的，那按順序生成就好。但在 GPU 內部，每一步生成實際發生的是：

從顯存加載模型權重（以 GB 計）
從顯存加載 KV Cache（也是 GB 級別）
計算下一個 token 的概率（微秒級）
寫入新的 KV Cache
重復

計算本身幾乎不花時間。真正的瓶頸在內存帶寬——也就是不斷搬運權重和 KV cache。你的 GPU 每秒能執行數萬億次計算，但大部分時間其實都在等數據。

這就是所謂的 “memory-bound（受內存帶寬限制）”，也解釋了為什么單純增加算力并不能帶來提升。

業界給出的方案是推測解碼（speculative decoding）：

用一個更小的起草模型（draft model）一次生成多個候選 token，再由主模型做驗證。

這個方法雖然有效，但有天花板：

起草模型更弱，所以通過率（acceptance rate）會下降；
仍然是順序式處理，無法完全并行；
而且需要維護兩個獨立的模型。

最喜歡的Trick：免費 token 槽位

那有別的辦法嗎？當然。

其實，大多數人不知道 GPU 推理里有這么一個概念：免費Token槽位（Free Token Slots）：

如果瓶頸在于顯存帶寬，你其實可以在一次前向計算里并行解出多個 token，延遲幾乎不變。

ps：內存帶寬搬來的數據只用來生成一次token就太浪費了，它可以運算多次！

想想看，模型權重和 KV cache 都已經加載進來了。如果用同一份數據能一次性預測 10 個 token，而不是只預測 1 個，你的有效吞吐就直接提升 10 倍。

這樣，額外的算力開銷幾乎可以忽略——反正你卡的是顯存帶寬。

這個想法，來自于英偉達的研究團隊。他們近日在一篇名為《TiDAR: Think in Diffusion, Talk in Autoregression》的論文中提到了一種“TiDAR”的方法。（沒錯，又是華人團隊霸榜作者名單！）

圖片

研究人員在 H100 上，基于 Qwen3-32B 做過測量：

當 batch size 是 1、上下文長度是 4096 tokens 時，增加“待解碼 token 槽位”的數量，對延遲的影響非常小，直到接近 100+ 個 token 才開始明顯上升。

在這以下的區間，你基本處于 “免費 token 槽位” 區域：并行解碼的成本幾乎可以忽略不計。

圖片

這也是“擴散式語言模型”（diffusion LLM）看起來很有吸引力的原因——它們本來就是一次性預測多個 token。當然，伴生的問題就是：質量會掉。

質量 vs 并行：無法回避的矛盾

輸出的token質量高，與輸出的延遲低，是一個“魚和熊掌”的問題。

擴散模型的生成過程是：對被 mask 的 token 反復去噪。開始時整個序列都是 mask，然后通過多輪迭代逐步恢復真實 token。問題在于：當你把多個 token 并行解碼時，會破壞語言模型賴以運作的因果結構。

自回歸模型遵循鏈式分布分解：

p(x?, x?, …, x?) = p(x?) × p(x?|x?) × p(x?|x?,x?) × …

每個 token 都依賴之前所有 token，這符合語言的自然結構。

但擴散模型的并行解碼更像是從相互獨立的邊緣分布中采樣：

p(x?, x?, …, x?) ≈ p(x?) × p(x?) × p(x?) × …

也就是說，同一步里生成的 token 互相之間是獨立的。這會破壞序列級別的連貫性，并行越多，質量下降越嚴重。

例如開源中表現領先的擴散類 LLM——Dream-7B：只把每步預測 token 數從 1 個提升到 2 個，GSM8K 上的準確率就下降 10%。

Llada 以及其他擴散模型同樣存在這個結構性問題：并行更多，質量更差。

最終，擴散模型最好的生成質量往往是在一次只預測一個 token 時出現——

這正好抵消了它試圖通過并行獲得速度優勢的初衷。

TiDAR：擴散模型的并行 + 自回歸的質量

如何破解這個“魚和熊掌”的難題？

英偉達團隊在論文中提及了一個核心思想：擴散思考，回歸表達。

Think in diffusion, Talk in autoregression.

具體而言，TiDAR 的思路是：

一次 forward，把擴散的并行和自回歸的驗證放在一起完成。

圖片

每步分成 3 類 token：

前綴 token：已經生成的內容，用因果注意力，可緩存
上一步的草稿 token：自回歸方式驗證，能接受的加入前綴，不能的丟棄
下一步的預草稿 token：用雙向注意力并行生成多組候選，根據驗證結果選擇對應的一組

所有這些步驟，都依靠結構化注意力掩碼（structured attention masks）在一次前向計算中完成，不需要兩次推理，不需要兩個模型。

圖片

這樣做為何能成立且有效？因為它解決了四個方面的難題。

首先是，“起草”能力強。該方法的草稿模型，其實就是主模型本體。使用的權重完全相同，而不是一個弱小的附屬模型。因此草稿質量高，因為完整模型的表達能力都在參與起草。

其次，并行生成。擴散式注意力允許同時生成多個 token。這利用了前面提到的 “免費 token slot” 特性。

第三，質量有保證。自回歸式的拒絕采樣確保輸出質量和純 AR （自回歸）模型一致。你采樣的是鏈式分解后的聯合分布（chain-factorized joint distribution），而不是互不關聯的獨立邊緣分布。

最后，單次前向。起草與驗證是同步進行的，不再分多個步驟串行。

訓練方式

TiDAR 的 Attention Mask 是混合式的（也就是混合注意力）：

對 prefix 做因果 attention
對草稿塊內部用雙向 attention

不同于擴散模型的復雜 masking，TiDAR 的訓練做得非常簡單：在擴散區域把 token 全部 mask。這將帶來三點好處：

稠密損失信號：每個 token 都參與訓練，信號密集
容易平衡損失：AR 與 Diff 區域 token 數一致，不依賴隨機 mask
訓練-推理一致性：推理時草稿區域本來就是全 mask，不會分布不一致

新方法有多快？近6倍

研究團隊在實驗中發現，這種新方法帶來的效果增益十分顯著，數據相當硬核。

TiDAR 1.5B：平均每次 forward 生成 7.45 個 token → 比 Qwen2.5 1.5B 快 4.71 倍（質量一致）
TiDAR 8B：8.25 token/forward → 比 Qwen3 8B 快 5.91 倍（質量幾乎不變）

也就是說，在不影響質量的情況下，相較于主流加速策略，TiDAR 這種新方法可以將推理速度提升至近6倍。

而在具體的基準任務評測中，質量和 Token 生成速度也都十分能打。

圖片

編碼任務：（準確率，單次前向計算token生成數）

HumanEval：43.29%，6.50 token/NFE
MBPP：41.40%，9.25 token/NFE
MBPP+：61.11%，9.43 token/NFE

數學任務：

GSM8K：53.90%，5.07 token/NFE

這些分數與基礎自回歸模型相當或更好，但一次 forward 不是生成 1 個，而是 5–9 個。

備注：所有測試均在 H100 + batch size=1。同時，沒有 custom kernel，只用 PyTorch + FlashAttn2。

大模型的推理系統或要重做一遍

這一新方法的提出，可以說將會對大模型推理系統的整個技術棧的運行邏輯、性能行為帶來重大的影響。

包括 LLM 在一個完整的推理服務系統里怎么消耗算力、怎么占內存、怎么安排 attention mask、怎么部署模型等等，統統都會發生變化。

1. 內存流動方式變得更高效了

傳統方法：

兩個模型來回切換（主模型 + draft 模型）
KV cache 不斷寫入、丟棄、重復計算
顯存像搬家一樣一直在“挪東西”

TiDAR：所有事情在一次 forward 內搞定。

一個模型
一套權重
KV cache 更精確管理

a.前綴 token 會按因果方式正常寫入緩存；

b.被拒絕的草稿 token，其對應的 KV cache 會被立即清理；

c.完全不需要像純擴散式方法那樣重新計算。

不來回搬數據

結果就是：顯存壓力更小、 GPU 更少浪費時間等待數據。

2. 底層算子會更快跑

TiDAR 用到了結構化的注意力 mask + Flex Attention。優勢在于：

mask 不需要每次重新算
kernel 執行路線更清晰
每次推理的啟動時間更短

ps：有了 Flex Attention，加速更徹底。你可以在初始化時只創建一個大型 attention mask，后續只根據當前前綴長度切片（slice）即可。無需在每一步重新計算動態 mask。

這也是屬于工程師一看會拍大腿：“這玩意更好調度！” 的那種進步。

3. 在線服務部署更簡單

之前做 speculative decoding 的公司常常抱怨：“一套模型已經夠折騰了，再來一個 draft 模型？上線要出人命。”

TiDAR 的好處是：只要一個模型，就是全套流程。整個架構非常適合在線服務。

部署時不需要對齊兩套權重
不需要給 draft 模型設置額外超參數
整體架構更清爽

對任何做云服務的團隊來說：越少的模型，越少的雷。

4. 硬件利用率更高

TiDAR 的 trick：找到 GPU 上那些“幾乎免費”的 token Slot，把它們填滿。

H100 上的表現是：

正常算力沒變
但吞吐能暴漲 5–6 倍
延遲能瞬間壓到 200ms 級別

這也是系統優化所帶來的質變：不降低輸出質量的情況下，系統更順滑。

5. 批處理（batching）也受影響

對于 batch=1 的實時應用（對話、代碼補全），TiDAR 簡直是提速神器。當然對于 batch 很大的吞吐場景，它的優勢沒前者那么夸張。

這在工程上就意味著：現有的LLM調度策略可能也要重新設計了。

基礎設施成本可砍掉8成

更重要的是，不止對于大模型廠商及研發人員有重要影響，對于我們生產和應用側也會帶來質的變化。

如果你在規模化運行 LLM 推理，吞吐量幾乎直接等于基礎設施成本。吞吐提升 5 倍，就意味著你只需要五分之一的服務器；或者在同樣的機器數量下服務 5 倍的用戶。

對于對延遲敏感的應用，比如：代碼補全、對話式 AI、實時分析，速度提升能讓過去“太慢而無法使用”的交互變得可行。從 1 秒響應縮短到 200 毫秒，本質上改變了整個用戶體驗。

而在正確性至關重要的任務中，質量保證更不可妥協：生成代碼、解數學題、抽取結構化數據，都不能容忍質量下降。TiDAR 在不犧牲準確性的前提下提供速度優勢。

現實中的三點限制

TiDAR 并非沒有代價。一位相關研究人員讀完這種新方法后，發現了三點限制。

首先，是上下文的問題。

該方法在訓練時需要將序列長度加倍，因為要在輸入中拼接帶掩碼的 tokens。這會讓長上下文擴展變得更昂貴——不是做不到，但需要使用像 context parallelism 這樣的專門方法。

其次，Batch size 的影響也很顯著。

論文中 5–6 倍的加速來自 batch size = 1 的場景，這是延遲敏感且明顯受限于內存帶寬的設置。當 batch size 變大時，系統會從“內存受限”轉向“算力受限”，TiDAR 的相對優勢會縮小。
而實際生產系統恰恰是混合情況：有些請求必須 batch 1，有些則可以合批求吞吐。TiDAR 在前者中表現突出，在后者中維持不錯的競爭力。

最后，硬件本身也是關鍵變量。“Free token slots” 現象是在 H100 上測得的。更舊的 GPU、不同的內存架構、不同廠商的芯片，可能會呈現不同的曲線。核心機制普遍成立，即通常都存在額外 token 基本免費的一段區間，但具體數值會變化。

巧的是，研究團隊在論文中針對前兩點給出了回應。

對于長上下文擴展的問題。研究團隊認為，與標準自回歸模型相比，TiDAR 并不存在結構上的長上下文能力限制。

當前實現需要在訓練時因附加掩碼 token 而將序列長度加倍，因此我們把針對 TiDAR 的高效長上下文擴展方法（例如專門為其設計的 context parallelism）留待未來工作繼續探索。

對于第二點，Batch size 不同，競爭優勢不明顯的問題，團隊也給出了解法。

在論文中，主要關注 batch size = 1 的效率基準，但這并不意味著 TiDAR 無法處理更大的 batch size。
我們不僅可以在解碼過程中以零樣本方式調整 block（draft）長度，以適應不同的算力配置，還能在 FLOPs/token 指標上達到具有競爭力的表現。

不依賴開源系統，可復現

注意，這項成果非常新，不到 5 天前剛剛發表的。

但這是第一次，有一種架構能夠在保持自回歸（AR）模型質量的同時，實現接近擴散模型的并行生成能力。無需在速度和正確性之間做取舍，也不需要維護獨立的草稿模型，更不存在額外的串行開銷。

當然，目前還只是論文展示的結果。還需要更多的社區、更多的時間進行復刻和獨立驗證。

尤其是其“免費 token 槽位”這一提出，真的驚艷到了。

它不僅揭示了LLM訓練和推理的兩者截然不同的瓶頸現狀：訓練可以靠錢和算力堆上去，但推理卻受制于物理層面的因素——內存帶寬、延遲、功耗。

同時，英偉達團隊提出的方法可以說是為更好的推理架構提供了一種更高效的思路。

TiDAR 展示出：解決“推理受限于內存帶寬”這一問題，并不一定要靠“買更大的 GPU”或“等下一代硬件”

通過架構創新：重新設計注意力結構和 token 生成方式，可以從現有硬件中榨出更多性能。

不論 TiDAR 是否最終成為行業標準，或成為未來改進方案的基礎，這類思路都值得深入理解。

值得注意的是，這套新架構本身不依賴任何閉源系統，細節也很充分，所以對于業內感興趣的朋友來說，復現起來并不難。

如果其優勢在獨立實驗中得到驗證，很可能在幾個月內就會被部署到生產環境中。

華人團隊，功不可沒的大模型推動者

最后多說一嘴，今年以來，一個很明顯的感受是，大模型最強的戰場已經從模型規模轉移到了提高推理速度、降低推理成本上。而小編發現，華人團隊在這方面的工作功不可沒。

從 DeepSeek 的自研“混合讀寫注意力機制”、到Kimi、清華、阿里等產學研共建的高效開源的推理架構 Mooncake，再到今天這篇華人團隊的 TiDAR 的奇作，每一個都給業界帶來了很大的驚喜，大大向前推進了大模型在國內甚至全球范圍內的普及。

向他們致敬！

論文地址：https://arxiv.org/pdf/2511.08923

參考鏈接：https://medium.com/gitconnected/why-your-llm-is-wasting-96-of-your-gpu-f46482d844d1

責任編輯：武曉燕來源： 51CTO技術棧