華為CloudMatrix重磅論文披露AI數據中心新范式,推理效率超NV H100
今年,AI大廠采購GPU的投入又雙叒瘋狂加碼——
馬斯克xAI打算把自家的10萬卡超算擴增10倍,Meta也計劃投資100億建設一個130萬卡規模的數據中心……
GPU的數量,已經成為了互聯網企業AI實力的直接代表。

的確,建設AI算力,這種堆卡模式是最簡單粗暴的,但實際上,AI集群卻并非是卡越多就越好用。
GPU雖然計算性能好,但是在集群化的模式下依然有很多挑戰,即便強如英偉達,也面臨通信瓶頸、內存碎片化、資源利用率波動等問題。
簡單說就是,由于通信等原因的限制,GPU的功力沒辦法完全發揮出來。
所以,建設AI時代的云數據中心,不是把卡堆到機柜里就能一勞永逸,現有數據中心的不足,需要用架構的創新才能解決。
最近,華為發布了一篇60頁的重磅論文,提出了他們的下一代AI數據中心架構設計構想——Huawei CloudMatrix,以及該構想的第一代產品化的實現CloudMatrix384。相對于簡單的“堆卡”,華為CloudMatrix給出的架構設計原則是,高帶寬全對等互連和細粒度資源解耦。
這篇論文干貨滿滿,不僅展示了CloudMatrix384的詳細硬件設計,并介紹了基于CloudMatrix384進行DeepSeek推理的最佳實踐方案——CloudMatrix-Infer。

那么,華為提出的CloudMatrix384到底有多強?簡單地說,可以概括成三個方面——
- 夠高效:預填充吞吐量達6688 token/s/NPU,解碼階段1943 token/s/NPU;計算效率方面,預填充達4.45 token/s/TFLOPS,解碼階段1.29 token/s/TFLOPS,均超過業績在NVIDIA H100/H800上實現的性能;
- 夠準確:DeepSeek-R1模型在昇騰NPU上INT8量化的基準測試精度與官方API一致;
- 夠靈活:支持動態調整推理時延SLO,在15ms嚴格延遲約束下仍維持538 token/s解碼吞吐量。

AI數據中心架構,華為云提前邁出了一步
在深入剖析這篇重磅論文之前,我們有必要先來了解一下“Why we need CloudMatrix384”。
若是一句話來概括,就是滿足不了當下AI發展的算力需求。
因為傳統的AI集群,它內部運行的過程更像是“分散的小作坊”,每個服務器(節點)有種各玩各的感覺;算力、內存和網絡資源等等,都是被固定分配的。
在這種傳統模式下,AI集群一旦遇到超大規模的模型,就會出現各種問題,例如算力不夠、內存帶寬卡脖子、節點間通信慢如蝸牛等等。
而華為在這篇論文中要做的事情,就是提出一種新的模式,把這種“小作坊”改成“超級算力工廠”——
以CloudMatrix(首個生產級實現CloudMatrix384)為代表的華為云下一代AI數據中心架構。

它最鮮明的一大特點就是,所有的資源是可以統一調度的:CloudMatrix384把384個NPU、192個CPU以及其它硬件都集成到了一個超級節點當中。
因此在這里,像剛才提到的算力、內存、網絡資源等等,會像工廠里的流水線一樣被統一管理起來,哪里需要就調哪里。
并且數據在CloudMatrix384里,就像是搭乘了工廠里的高速傳送帶,因為所有芯片的連接都是由超高帶寬、低延遲的統一總線(UB)網絡完成,數據在芯片之間是“全對等”直接傳輸,這就避免了傳統網絡“堵車”的問題。
也正因如此,無論CloudMatrix384是遇到多大參數規模的大模型,亦或是需要頻繁訪問緩存的推理任務,都能通過動態分配資源,高效完成計算。
△華為CloudMatrix架構愿景
在了解完下一代AI數據中心的設計愿景之后,我們繼續深扒一下細節創新技術和獨特優勢。
全對等互聯:華為提前邁出的重要的一步
全對等互聯(Peer-to-Peer),可以說是CloudMatrix384在硬件架構設計上的一大創新之處。
因為傳統的AI集群中,CPU相當于扮演一個“領導”的角色,NPU等其它硬件更像是“下屬”,數據傳輸的過程中就需要CPU“審批簽字”,效率自然就會大打折扣。
尤其是在處理大規模模型的時候,通信開銷甚至可以占整體任務時長的40%!
但在CloudMatrix384中,情況就截然不同了。
CPU和NPU等硬件更像是一個“扁平化管理的團隊”,它們之間的地位比較平等,直接通過UB網絡通信,省去了“領導傳話”的時間。
△CloudMatrix384全對等互聯硬件架構設計
而實現如此“扁平化管理團隊”的關鍵,就是我們剛才提到的UB網絡,是一種無阻塞全連接拓撲。
它采用Clos架構設計,16個機架中的L1/L2交換機形成多層級無阻塞網絡,可以確保任意兩個NPU/CPU間通信帶寬恒定。
而在傳統集群中,節點間是通過RoCE網絡來通信,帶寬通常僅為200Gbps(約25GB/s),并且還存在 “南北向帶寬瓶頸”(如數據中心核心交換機負載過高)。
但在UB網絡的加持下,每個NPU可以提供392GB/s的單向帶寬,相當于每秒能傳48部1080P電影,數據傳輸又快又穩。
除此之外,傳統NPU之間通信還依賴SDMA引擎(類似 “快遞中轉站”),它的缺點就是啟動延遲比較高(約10微秒)。
為此,全對等互聯引入了AIV直連(AIV-Direct)的機制,它可以直接通過UB網絡寫入遠程NPU內存,跳過SDMA的中轉,傳輸啟動延遲從10微秒降至1微秒以內。
這個機制就非常適合MoE中token分發等高頻通信的場景,把單次通信耗時縮短70%以上。
但除了硬件上的設計之外,軟件層面的加持對于CloudMatrix384的高效率也是起到了功不可沒的作用。
例如UB網絡通過結合內存池化技術,實現了CloudMatrix384的“全局內存視圖”,即所有NPU/CPU可直接訪問跨節點內存,無需關心數據物理位置。
解碼階段的NPU可直接讀取預填充階段NPU生成的KV緩存,不用再通過CPU中轉或磁盤存儲,數據訪問延遲從毫秒級降至微秒級,緩存命中率提升至56%以上。
再以671B的DeepSeek-R1為例,通過FusedDispatch融合算子與AIV直連,token分發延遲從800微秒降至300微秒。預填充計算效率提升4.45 token/秒/TFLOPS,超越了英偉達H100的3.75 token/秒/TFLOPS。
并且在TPOT<50ms的約束下,解碼吞吐量達到了1943 token/秒/每NPU,即使收緊至TPOT<15ms,仍能維持538 token/秒,這就驗證了全對等互聯在嚴苛延遲場景下的穩定性。

因為云原生:不用關心硬件細節,華為云上開箱即用
除了“全對等互聯”之外,這篇重磅論文的第二個技術關鍵詞,非“云”莫屬了。
簡單來說,這是一套面向云的基礎設施軟件棧,它就像一個“智能管家團隊”,可以把復雜的硬件設備變成人人能用的 “云端算力超市”。
值得一提的是,早在CloudMatrix384問世之前,華為云團隊早早地就敲定下一代AI數據中心要以“面向云”為基礎,這就體現了華為在技術戰略布局上的前瞻性。
并且團隊通過兩年多時間的打磨,已經讓部署CloudMatrix384這事變成“零門檻”,用戶無需關心硬件細節直接可以部署。
△部署CloudMatrix384的華為云基礎設施軟件棧
整體來看,這套面向云的基礎設施軟件棧主要包含以下幾大模塊:MatrixResource、MatrixLink、MatrixCompute、MatrixContainer,以及頂層的ModelArts平臺,它們之間可以說是分工明確且相互協作。
首先我們來看下MatrixResource。
它在軟件棧中起到的是“資源分配管家”的作用,主要負責超級節點內物理資源的供應,包括基于拓撲感知的計算實例分配。
通過運行在每個計算節點擎天卡上的MatrixResource代理,動態管理NPU、CPU等硬件資源的分配,確保資源按拓撲結構高效調度,避免跨節點通信瓶頸。
MatrixLink則是一位“網絡通信管家”。
它為UB和RDMA網絡提供服務化功能,支持QoS保障、動態路由及網絡感知的工作負載放置。可以優化超節點內384個NPU及跨節點間的通信效率,例如在推理場景中通過并行傳輸和多路徑負載均衡技術,輔助提升推理效率20%。
MatrixCompute的角色像是“邏輯超節點管家”。
它的任務是管理超節點的 “生老病死”,從開機啟動到故障修復全負責,包括裸金屬供應、自動擴縮容、故障恢復等。
具體實現的方式是跨物理節點編排資源,將分散的硬件組件構建為緊密耦合的邏輯超級節點實例,實現資源的彈性擴展和高可用性。
MatrixContainer是“容器部署管家”。
它的作用是讓用戶的AI應用能像 “快遞包裹” 一樣輕松部署到超節點上:基于Kubernetes容器技術,把復雜的AI程序打包成標準化容器,用戶只需“點擊部署”,它就會自動安排到合適的硬件上運行。
最后,就是ModelArts這位“AI全流程管家”了。
它位于整個軟件棧的頂層,提供從模型開發、訓練到部署的全流程服務,包括ModelArts Lite(裸金屬/容器化硬件訪問)、ModelArts Standard(完整MLOps流水線)、ModelArts Studio(模型即服務,MaaS)。
新手可以用ModelArts Lite直接調用硬件算力;進階用戶可以用ModelArts Standard管理訓練、優化、部署全流程;企業用戶則可以用ModelArts Studio把模型變成API服務(如聊天機器人),一鍵發布。
由此可見,在CloudMatrix384本身高效的基礎上,面向云的基礎設施軟件棧起到了“如虎添翼”的作用,使得部署這件事變得更加便捷。
軟硬一體:高效、便捷的同時,也夠靈活
除了“全對等互聯”和“云原生”這兩個關鍵詞,論文中也還涉及到了二者“軟硬一體”結合下,在靈活性上體現出來的優勢。
例如剛才我們提到的“用戶無需關注底層硬件細節,只需調用API”這方面,具體而言,是華為云EMS(彈性內存服務)通過內存池化技術,將CPU連接的DRAM聚合為共享內存池,NPU可直接訪問遠程內存,實現KV緩存復用,使首Token時延降低 80%,同時減少NPU購買量約50%。
以及MatrixCompute支持超節點實例的自動擴縮容,例如根據工作負載動態調整預填充/解碼集群的NPU數量,在嚴苛的15ms TPOT約束下仍能維持538 token/秒的解碼吞吐量。
通過確定性運維服務和昇騰云腦技術,還可以實現萬卡集群故障10分鐘內恢復,HBM和網絡鏈路故障場景下恢復時間挑戰30秒,例如光模塊故障影響降低96%,保障訓練/推理任務的連續性。
軟件棧還支持超節點資源的多租戶切分,不同用戶可共享硬件資源但邏輯隔離,例如通過命名空間隔離不同模型的緩存數據,確保數據安全與資源公平分配。
通過智能化調度實現“朝推夜訓”,白天運行推理任務,夜間利用閑置算力進行模型訓練,節點在訓練/推理間切換<5分鐘,提升算力利用率。
據了解,CloudMatrix384已經在華為云烏蘭察布、和林格爾、貴安、蕪湖四大節點上線,用戶可按需開通算力,無需自行搭建硬件環境,10毫秒時延圈覆蓋全國19個城市群,支持低延遲訪問。
并且CloudMatrix384還提供全棧智能運維的能力,例如昇騰云腦的故障知識庫已經覆蓋了95%的常見場景,一鍵診斷的準確率達到了80%、網絡故障診斷<10分鐘,可以說是把運維的門檻也打了下去。
打破“不可能三角”
看到這里,我們可以做個簡單總結了。
華為的CloudMatrix384通過“全對等架構+軟硬協同”的模式,打破了傳統上算力、延遲和成本之間的“不可能三角”。
硬件層面,它的全對等UB總線實現392GB/s卡間帶寬,讓384張NPU能夠高效協同工作,在EP320專家并行模式下,token分發延遲控制在100微秒以內。
軟件層面的CloudMatrix-Infer采用全對等推理架構、大EP并行、昇騰定制融合算子、UB驅動的分離式內存池等,最大化發揮硬件效率。
這種設計讓高算力、低延遲、可控成本同時成為可能,總之有了CloudMatrix384,云端的大模型部署方案變得更香了。
云端可以在數據中心級別進行統一規劃,構建專門的高速網絡拓撲,突破單一企業的物理限制。
更關鍵的是,云端支持彈性擴縮容,企業可以根據業務需求動態調整資源規模,從幾十張卡擴展到數百張卡,而無需對物理設施進行改動。
而且,選擇云也意味著不需要用戶自己找專業團隊去處理模型優化、分布式訓練、故障處理等復雜問題。
CloudMatrix384的運維自動化設計更是將故障影響降低96%,萬卡集群故障恢復時間控制在5分鐘以內,這種專業化運維能力是大部分企業無法自建的。
更重要的,CloudMatrix384代表的云端AI服務模式為中國企業提供了一個更現實的AI落地路徑。
比如DeepSeek-R1從模型遷移到上線僅用72小時,相比傳統方案的2周時間,效率提升顯著。
這種成本和效率優勢讓更多企業能夠嘗試AI應用,而不需要承擔巨額的基礎設施投入風險。
CloudMatrix384證明了國產云端方案不只是“能用”,更是在性能和成本效益上都具備競爭優勢。
AI基礎設施正在重新被定義
CloudMatrix384代表的不只是一臺更強的AI超算,還是對“什么是AI基礎設施”的重新定義。
技術上,它通過UB顛覆了過往以CPU為中心的層級式設計,將整個超級節點變成了一個統一的計算實體。
面向未來,華為論文中也給出了兩條發展路徑——一方面繼續擴大節點規模,另一方面進行更強力的解耦。
擴大規模容易理解,未來LLM參數規模更大,需要更緊密耦合的計算資源。
而解耦,可以分別從資源和應用兩個維度來看。
資源上,CPU和NPU資源物理將分離為專用資源池,從邏輯解耦將走向物理解耦,實現更好的資源利用率。
應用中,大模型的推理過程中內存密集型注意力計算將從解碼路徑解耦,注意力和專家組件也會分離為獨立執行服務。
總之,作者描繪了一個完全解耦、自適應、異構的AI數據中心架構,這種架構將進一步提升可擴展性、靈活性、效率和性能。
未來,計算資源將不再是固定的物理設備,而是可以動態編排的抽象能力。
通過CloudMatrix384和其未來暢想,我們正在見證又一次新的技術迭代,也在見證整個AI數據中心范式的深刻變革。































