聊聊大模型推理系統之Hetis:如何讓“高低配”GPU集群跑出2.25倍吞吐?
在大模型時代,算力需求如潮水般上漲。然而,現實中的生產集群往往并非清一色的頂級顯卡,而是由A100、3090甚至老舊的P100等不同性能和內存配置的 GPU 混搭而成——這種異構 GPU 集群雖能降低成本,卻給大語言模型(LLM)服務帶來了巨大挑戰:高配 GPU 空轉等待,低配 GPU 內存耗盡,整體效率大打折扣。
面對這一行業痛點,最新研究提出了一套顛覆性解決方案。來自澳門大學與中山大學的研究團隊在 SC '25 上發表論文,推出了名為 Hetis 的新型 LLM 服務系統。該系統不僅將服務吞吐量最高提升了2.25 倍,還將推理延遲降低了1.49 倍,其背后究竟有何創新玄機?
核心看點
圖片
Hetis 的核心突破在于徹底改變了傳統 LLM 服務中“一刀切”的并行策略。它首次提出了細粒度動態并行機制,精準匹配異構硬件資源與模型模塊特性。具體而言,Hetis 通過主工作節點并行化(Primary Worker Parallelism)優化計算密集型模塊(如 MLP),僅在高性能 GPU 間進行協作;同時引入動態頭級注意力并行化(Dynamic Head-wise Attention Parallelism),將輕量級的Attention計算靈活分發至所有 GPU,包括低性能設備。在此基礎上,系統還設計了在線調度算法,實時平衡網絡、計算與內存負載,從而實現了資源利用率的全局最優化。
研究背景
當前主流的 LLM 服務系統在異構環境下面臨兩大核心瓶頸:內存效率低下與計算資源錯配。以 Splitwise 為代表的階段拆分方案,將預填充(Prefill)與解碼(Decode)任務分別交給高/低性能 GPU 執行,雖緩解了計算壓力,卻導致 KV 緩存空間嚴重不足。而 Hexgen 等采用非對稱參數劃分的系統,則因計算能力與內存容量的不匹配,造成高端 GPU 內存大量閑置。
圖片
更深層的問題在于,現有方法普遍采用靜態并行策略,無法適應請求長度、批次大小等動態變化。例如,MLP 模塊在 A100 與 P100 上的運算速度差距可達 24.5 倍,若強行統一并行,低效設備將成為拖累整體性能的“短板”。與此同時,Attention 模塊因其無參數特性和較低的計算強度,在各類 GPU 上表現相對均衡,具備更高的并行靈活性。Hetis 正是抓住了這一關鍵差異,開啟了精細化調度的新思路。
核心貢獻
方法創新:模塊級差異化并行架構
圖片
Hetis 的核心是“按需分配”的并行哲學。對于計算密集的 MLP 和預填充階段的 Attention,系統通過一個層次化搜索過程,自動篩選出最優的主工作節點組合,并在此子集內應用數據、流水線與張量并行(DP/PP/TP),力求最小化通信開銷與計算延遲。那些未被選中的低端 GPU 則被劃為注意力工作節點(Attention Workers),專司 Attention 計算任務。
圖片
針對 Attention 模塊,Hetis 創新性地采用頭維度(head-wise)進行分割。相比按請求或序列長度拆分,頭級并行能顯著減少跨設備通信量。實驗表明,在僅卸載 20%負載時,頭級分割的通信開銷比序列級分割降低近2.68 倍;當使用 4 個注意力工作節點時,延遲優勢可達3.55 倍。
實證成果:吞吐與延遲雙重突破
在包含 A100、3090 和 P100 的真實異構集群上,Hetis 展現了卓越性能。測試涵蓋Llama-13B、OPT-30B和Llama-70B等多種模型及真實工作負載(聊天、代碼生成、長文本摘要)。結果顯示:
圖片
- 吞吐量最高提升至基線系統的2.25 倍(對比 Splitwise)和1.33 倍(對比 Hexgen);
- 推理延遲方面,P95 的TTFT(首令牌時間)和TPOT(每令牌處理時間)分別改善最多1.47 倍和1.39 倍;
- KV 緩存空間利用率提升顯著,最大可用緩存空間比基線多出1.87 倍,有效支持更多并發請求。
這些數據充分驗證了 Hetis 在復雜動態環境下的魯棒性與高效性。
圖片
在方法創新的基礎上,團隊進一步驗證了系統的自適應能力。Hetis 內置的在線調度器(Dispatcher)基于對計算與通信成本的顯式建模,實時決策每個請求的注意力頭分配方案。當遇到超長上下文導致負載不均時,系統還能觸發重調度機制(Re-dispatching),動態遷移部分計算任務,避免單點瓶頸。
此外,為支撐頭級并行,Hetis 實現了頭粒度 KV 緩存管理,開發了新的 CUDA 內核以高效索引與傳輸緩存塊。盡管存儲元數據開銷增加13% ,但得益于 CPU 多核加速,緩存獲取時間反而減少了26% ,實現了總體性能凈增益。
行業意義
Hetis 的出現,為異構算力環境下的大模型部署提供了全新的技術范式。它標志著 LLM 服務正從粗放式的資源堆砌,邁向精細化、動態化的智能調度時代。這一思路與國家倡導的綠色計算和算力普惠政策高度契合,有助于盤活存量算力資產,降低 AI 應用門檻。
未來,Hetis 所驗證的模塊感知并行(Module-aware Parallelism)理念有望推動整個分布式推理技術路線的演進。無論是邊緣計算中的混合芯片,還是云平臺上的搶占式實例,此類動態適配機制都將成為提升資源利用效率的關鍵。可以預見,隨著大模型應用場景的不斷下沉,像 Hetis 這樣的智能調度系統,將在構建高效、可持續的 AI 基礎設施中扮演變革性角色。
論文原文:Hetis: Serving LLMs in Heterogeneous GPU Clusters with Fine-grained and Dynamic Parallelism[1]
參考資料
[1] Hetis: Serving LLMs in Heterogeneous GPU Clusters with Fine-grained and Dynamic Parallelism: https://arxiv.org/abs/2509.08309



































