英偉達(dá)超級(jí)Rubin細(xì)節(jié)曝光，黃氏法則再升級(jí)！最高1024GB顯存，免費(fèi)H100無人要

作者：新智元 2025-03-21 09:46:50

老黃在GTC 2025大會(huì)上，再次亮出了英偉達(dá)未來GPU路線圖。隨著推理token的暴增，AI計(jì)算需要全新的范式，下一代BlackWell Ultra、Vera Rubin就是最強(qiáng)的回應(yīng)。

黃氏計(jì)算法則，幾乎每年一更。

今年GTC 2025大會(huì)上，黃仁勛兩個(gè)多小時(shí)演講中，又向世界帶來了最新的計(jì)算法則——

現(xiàn)在，GPU數(shù)量按照每個(gè)「封裝」內(nèi)的GPU芯片數(shù)量來計(jì)算，而不是以「封裝」數(shù)量計(jì)算。

這種全新的計(jì)算法則，將從英偉達(dá)下一代GPU Rubin系列開始應(yīng)用。

在SemiAnalysis獨(dú)家報(bào)道中，就英偉達(dá)GPU和系統(tǒng)路線圖、最新Blackwell Ultra 300、26年Vera Rubin、從芯片到系統(tǒng)再到軟件的全新推理優(yōu)化等方面進(jìn)行了詳細(xì)分析。

高級(jí)分析師指出，過去6個(gè)月里，模型的進(jìn)化超過了之前六個(gè)月的總和。

而且，這種趨勢(shì)仍將持續(xù)，因?yàn)槿齻€(gè)Scaling Law正在疊加并協(xié)同作用：預(yù)訓(xùn)練Scaling、后訓(xùn)練Scaling、推理時(shí)Scaling。

恰恰，今年GTC大會(huì)全面聚焦的是全新Scaling范式。

推理Token爆發(fā)增長(zhǎng)

一直以來，Claude模型以其強(qiáng)大的編程能力，得到開發(fā)者青睞，尤其是Claude 3.7在軟件工程方面展現(xiàn)出驚人的性能。

另一方面，Deepseek V3出世表明，上一代模型的能力成本正暴跌，促進(jìn)了更廣泛的應(yīng)用。

OpenAI最新實(shí)驗(yàn)?zāi)Ｐ蚾1、o3用時(shí)證明，更長(zhǎng)的推理時(shí)間和搜索能帶來更好的答案。就像預(yù)訓(xùn)練Scaling的早期階段一樣，為這些模型增加更多后訓(xùn)練計(jì)算能力似乎沒有上限。

面對(duì)這一系列新事物，老黃給出最有力的回答。

他表示，「從GPT開始，到如今的推理AI，它不再是僅僅預(yù)測(cè)下一個(gè)token，而是生成100多倍的token」。

為了支持更多模型訓(xùn)練部署，英偉達(dá)推出了「AI工廠的操作系統(tǒng)」Dynamo，使得Blackwell推理性能相較Hopper暴漲40倍。

不僅如此，他們正致力于將推理成本效率提升35倍，以支持更多模型的訓(xùn)練和部署。

老黃的口頭禪也從以往「買越多，省越多」，變成了「省越多，買越多」。（the more you save, the more you buy.）

英偉達(dá)在硬件和軟件方面的發(fā)展路線圖，著實(shí)帶來了顯著的推理效率提升。

這為L(zhǎng)LM經(jīng)濟(jì)高效部署，以及其他變革性企業(yè)應(yīng)用開啟了全新機(jī)遇——這正是杰文斯悖論（Jevons’ paradox）的典型案例。

用老黃的話來說，「買越多，賺越多」。（the more you buy, the more you make）。

不過，市場(chǎng)對(duì)此卻表示擔(dān)憂。

他們的關(guān)注點(diǎn)在于類DeepSeek這樣的軟件優(yōu)化技術(shù)和英偉達(dá)推動(dòng)的硬件性能提升，正帶來過度的成本節(jié)省，這可能導(dǎo)致AI硬件需求下降，市場(chǎng)將出現(xiàn)token供過于求的現(xiàn)象。

誠(chéng)然，價(jià)格會(huì)影響需求，但隨著智能成本的降低，智能能力的邊界不斷突破，需求也隨之增長(zhǎng)。

目前的AI能力，仍受限于推理成本。而且，AI對(duì)我們生活的實(shí)際影響尚處于萌芽階段。

有趣的是，隨著成本下降，總體使用量反而會(huì)出現(xiàn)悖論性增長(zhǎng)。

人們對(duì)token通縮的擔(dān)憂，就像當(dāng)年討論光纖泡沫時(shí)期只關(guān)注每個(gè)數(shù)據(jù)包的互聯(lián)網(wǎng)連接成本下降，卻忽視了網(wǎng)站和互聯(lián)網(wǎng)應(yīng)用最終將如何改變我們的生活、社會(huì)和經(jīng)濟(jì)。

這里有個(gè)關(guān)鍵區(qū)別：帶寬需求是有限的，而智能需求則會(huì)隨著能力的顯著提升和成本的下降，無限增長(zhǎng)。

英偉達(dá)提供的數(shù)據(jù)印證了Jevons’ paradox。當(dāng)前的模型已經(jīng)需要超100萬億個(gè)token，而推理模型更需要20倍的token用量和150倍的計(jì)算資源。

測(cè)試階段的計(jì)算每次查詢需要數(shù)十萬個(gè)token，且每月查詢量高達(dá)數(shù)億次。

在后訓(xùn)練scaling階段，每個(gè)模型需要處理數(shù)萬億個(gè)token，同時(shí)存在數(shù)十萬個(gè)接受后訓(xùn)練的模型。

更重要的是，Agentic AI的出現(xiàn)意味著多個(gè)模型將協(xié)同合作，共同攻克越來越具有挑戰(zhàn)性的問題。

黃氏計(jì)算法則，每年一更

每年，老黃都會(huì)向業(yè)界引入全新的計(jì)算法則。

黃氏計(jì)算法則一直以其獨(dú)特性聞名，而今年情況更加特別，SemiAnalysis觀察到了第三條新的計(jì)算法則。

第一條黃氏計(jì)算法則涉及浮點(diǎn)運(yùn)算性能（FLOPs）的標(biāo)稱方式。

英偉達(dá)采用2:4稀疏計(jì)算方式（這種方式在實(shí)際應(yīng)用中幾乎未被采用）而非實(shí)際使用的密集計(jì)算來標(biāo)示性能。

比如，H100的FP16實(shí)際計(jì)算能力為989.4 TFLOPs，但官方數(shù)據(jù)卻標(biāo)示為 1979.81 TFLOPs。

第二條計(jì)算法則關(guān)于帶寬的計(jì)算方式。

NVLink5的帶寬被標(biāo)示為1.8TB/s，這是將900GB/s的發(fā)送帶寬和900GB/s的接收帶寬相加得出的結(jié)果。

雖然產(chǎn)品規(guī)格表采用這種計(jì)算方式，但網(wǎng)絡(luò)行業(yè)的通行做法是僅標(biāo)示單向帶寬。

最新出現(xiàn)的第三條計(jì)算法則與GPU數(shù)量有關(guān)。

正如開篇所言，GPU數(shù)量現(xiàn)在按照每個(gè)封裝內(nèi)的GPU芯片數(shù)量來計(jì)數(shù)，而不是按照封裝數(shù)量。

這種新的命名方式將從Rubin產(chǎn)品開始實(shí)施。

比如，第一代Vera Rubin機(jī)架將被命名為NVL144，盡管它在系統(tǒng)架構(gòu)上與使用相同Oberon機(jī)架和72個(gè)GPU封裝的GB200 NVL72十分相似。

這種全新的計(jì)數(shù)方式無疑會(huì)給業(yè)界帶來理解上的困擾，需要不斷解釋說明，但這就是我們必須適應(yīng)的「黃氏世界」。

接下來，一起看看英偉達(dá)的產(chǎn)品路線圖。

Blackwell Ultra B300

Blackwell Ultra 300（簡(jiǎn)稱B300）的預(yù)覽版已經(jīng)發(fā)布，與SemiAnalysis在去年12月分享的詳情保持一致。

主要規(guī)格如下：

GB300不會(huì)以獨(dú)立顯卡形式銷售，而是將作為配備Grace CPU的可插拔SXM模塊中的B300 GPU推出，同時(shí)還提供可插拔BGA封裝版本。

性能方面，B300的FP4浮點(diǎn)運(yùn)算密度，較B200同等產(chǎn)品提升超過50%。內(nèi)存容量提升至每個(gè)封裝288GB（采用8堆疊12層HBM3E高帶寬顯存），帶寬維持在8TB/s。

這一性能提升是通過減少部分（而非全部）FP64 ALU，并替換為FP4和FP6運(yùn)算單元實(shí)現(xiàn)的。

雙精度運(yùn)算主要用于HPC和超級(jí)計(jì)算領(lǐng)域，而非AI工作負(fù)載。盡管這讓HPC界感到失望，但從商業(yè)角度看，英偉達(dá)更注重發(fā)展規(guī)模更大的AI市場(chǎng)。

B300 HGX版本現(xiàn)已更名為B300 NVL16。

該產(chǎn)品將采用此前稱為「B300A」的Blackwell單GPU版本，現(xiàn)已更名為B300。

這相當(dāng)于雙芯片B300的一半配置，由于標(biāo)準(zhǔn)版B300在單個(gè)封裝中缺少連接兩個(gè)GPU芯片的高速D2D接口，可能會(huì)帶來額外的通信開銷。

B300 NVL16將取代現(xiàn)有的B200 HGX架構(gòu)，在主板上配置16個(gè)封裝和GPU芯片。具體實(shí)現(xiàn)方式是，在每個(gè)SXM模塊上安裝2個(gè)單芯片封裝（總共8個(gè)這樣的模塊）。

英偉達(dá)選擇這種方案而非繼續(xù)使用8個(gè)雙芯片B300的原因尚不明確；高級(jí)分析師推測(cè)，采用更小尺寸的CoWoS封裝模塊和基板所帶來的良率提升可能是主要考慮因素。

值得注意的是，封裝技術(shù)將采用CoWoS-L而非CoWoS-S，這一決策意義重大。

此前選擇單芯片B300A是出于CoWoS-S的成熟度和產(chǎn)能考慮。此次轉(zhuǎn)向CoWoS-L表明該技術(shù)已經(jīng)從最初的不穩(wěn)定狀態(tài)快速發(fā)展為成熟可靠的解決方案，良率也已達(dá)到穩(wěn)定水平。

這16個(gè)GPU將通過NVLink協(xié)議進(jìn)行通信，與B200 HGX的設(shè)計(jì)類似，兩組SXM模塊之間將配置兩個(gè)NVSwitch 5.0專用芯片（ASIC）。

另有一個(gè)新的變化是，不同于先前幾代HGX產(chǎn)品，B300 NVL16將不再使用Astera Labs的信號(hào)重定時(shí)器。不過，部分超大規(guī)模云計(jì)算服務(wù)商可能會(huì)選擇改用PCIe交換機(jī)。

B300的另一個(gè)重要特性是，將搭載全新的CX-8 NIC，該接口卡提供4條200Gbps通道，使InfiniBand總吞吐量達(dá)到800Gbps，較當(dāng)前Blackwell采用的CX-7網(wǎng)絡(luò)接口卡的網(wǎng)絡(luò)速度翻了一番。

Vera Rubin：3nm制程，首個(gè)全自研CPU

Rubin將在臺(tái)積電3nm工藝上，采用兩個(gè)掩模尺寸的計(jì)算芯片。

這些計(jì)算芯片兩側(cè)將各配備一個(gè)I/O（輸入/輸出）芯片，整合所有NVLink、PCIe和NVLink C2C IP的SerDes，這樣可以為主計(jì)算芯片釋放更多空間用于核心計(jì)算功能。

Rubin將提供驚人的50 PFLOPs的密集FP4計(jì)算能力，相比B300提升了超過3倍。英偉達(dá)通過以下幾個(gè)關(guān)鍵方向?qū)崿F(xiàn)了這一突破：

首先，如前所述，獨(dú)立的I/O芯片設(shè)計(jì)釋放了大約20-30%的芯片面積，這些空間可用于增加流式多處理器和張量核心的數(shù)量。
其次，Rubin將采用3nm制程工藝，可選用定制的英偉達(dá)3NP或標(biāo)準(zhǔn)N3P工藝。從Blackwell世代的4NP工藝升級(jí)到3NP，邏輯密度獲得顯著提升，但SRAM的尺寸幾乎保持不變。
第三，Rubin的熱設(shè)計(jì)功耗（TDP）將提升至約1800瓦，這可能支持更高的運(yùn)行頻率。
最后是架構(gòu)層面的scaling。英偉達(dá)在每代產(chǎn)品中都采用更大規(guī)模的張量核心脈動(dòng)陣列。

據(jù)分析，這一規(guī)模從Hopper架構(gòu)的32×32，增加到了Blackwell的64×64，在Rubin中可能會(huì)進(jìn)一步擴(kuò)大到128×128。

更大的脈動(dòng)陣列能夠提供更好的數(shù)據(jù)復(fù)用效率和更低的控制復(fù)雜度，在面積利用率和功耗效率方面都具有優(yōu)勢(shì)。

雖然編程難度隨之增加，這也是英偉達(dá)沒有像谷歌TPU那樣采用256×256規(guī)模的原因之一。

同時(shí)，這種設(shè)計(jì)對(duì)制造良率也會(huì)產(chǎn)生影響。值得注意的是，英偉達(dá)的掩模尺寸單片芯片具有很高的參數(shù)良率，這得益于其架構(gòu)中內(nèi)置的冗余設(shè)計(jì)和可修復(fù)機(jī)制，包含眾多小型計(jì)算單元。

當(dāng)發(fā)現(xiàn)缺陷的計(jì)算單元時(shí)，可以將其禁用，從而保證產(chǎn)品良率。

這與谷歌TPU采用的設(shè)計(jì)策略不同，后者使用數(shù)量較少但規(guī)模更大的張量核心，因此無法像英偉達(dá)的設(shè)計(jì)那樣靈活處理邏輯單元缺陷。

Rubin將延續(xù)GB200/300 NVL72所采用的Oberon機(jī)架架構(gòu)。它將搭配Vera CPU，采用3nm制程的Grace 繼任者。

值得注意的是，Vera是由英偉達(dá)自主設(shè)計(jì)，采用全定制Arm核心。

此外，英偉達(dá)還開發(fā)了獨(dú)特的互聯(lián)架構(gòu)，使單個(gè)CPU核心能夠根據(jù)需要訪問更大的內(nèi)存帶寬，這一點(diǎn)是AMD和英特爾CPU目前面臨的重大技術(shù)挑戰(zhàn)。

這就引出了新的命名方式。盡管新機(jī)架實(shí)際只配備72個(gè)GPU封裝，包含144個(gè)計(jì)算芯片，即72個(gè)封裝×每封裝2個(gè)計(jì)算芯片，但將被命名為VR200 NVL144。

不得不說，英偉達(dá)是如此富有創(chuàng)新精神，連GPU的計(jì)數(shù)方式都在改變！

在內(nèi)存方面，英偉達(dá)HBM容量將維持在288GB，但升級(jí)到了HBM4技術(shù)：采用8堆12層設(shè)計(jì)，保持每層24GB的密度。

升級(jí)到HBM4帶來了顯著的帶寬提升，總帶寬達(dá)到13TB/s，這主要得益于總線寬度翻倍至2048位，以及達(dá)到當(dāng)前JEDEC標(biāo)準(zhǔn)上限的6.5Gbps引腳速度。

互聯(lián)技術(shù)方面，新產(chǎn)品將采用第六代NVLink，通過翻倍通道數(shù)實(shí)現(xiàn)速度翻倍，達(dá)到3.6TB/s（雙向）。英偉達(dá)將繼續(xù)使用 224G 串并轉(zhuǎn)換器（SerDes）技術(shù)。

關(guān)于Oberon機(jī)架，它將繼續(xù)使用銅質(zhì)背板，但分析師預(yù)計(jì)隨著每個(gè)GPU通道數(shù)的翻倍，連接電纜的數(shù)量也會(huì)相應(yīng)翻倍。

在交換技術(shù)方面，NVSwitch專用芯片的總帶寬也將實(shí)現(xiàn)翻倍，同樣是通過增加通道數(shù)來實(shí)現(xiàn)的。

Rubin Ultra性能驚人，HBM達(dá)1024GB

Rubin Ultra將帶來革命性的性能提升。

英偉達(dá)在這款產(chǎn)品中將單個(gè)封裝HBM堆疊數(shù)量直接從8個(gè)提升至16個(gè)。其架構(gòu)采用4個(gè)掩模尺寸的GPU芯片呈線性排列，兩端各配備一個(gè)I/O芯片。

得益于計(jì)算面積的翻倍，密集FP4浮點(diǎn)運(yùn)算性能提升至100 PFLOPs。HBM容量達(dá)到驚人的1024GB，超過標(biāo)準(zhǔn)版Rubin的3.5倍。

這不僅體現(xiàn)在堆疊數(shù)量的翻倍，還包括密度和層數(shù)的提升。為實(shí)現(xiàn)單封裝1TB內(nèi)存容量，產(chǎn)品將采用16個(gè)HBM4E堆疊，每個(gè)堆疊包含16層、每層32Gb的DRAM核心芯片。

根據(jù)SemiAnalysis分析，這種封裝設(shè)計(jì)將在基板上采用雙中介層方案，以避免使用單個(gè)超大尺寸中介層（接近8個(gè)掩模尺寸）。

中間的兩個(gè)GPU芯片將通過D2D接口的超薄I/O芯片實(shí)現(xiàn)通信，信號(hào)傳輸通過基板完成。

這種設(shè)計(jì)需要使用超大型ABF基板，其尺寸將突破當(dāng)前JEDEC封裝標(biāo)準(zhǔn)的限制（長(zhǎng)寬均為120毫米）。

在內(nèi)存系統(tǒng)方面，整體配備365TB快速內(nèi)存/二級(jí)LPDDR內(nèi)存。其中，每個(gè)Vera CPU配備1.2TB LPDDR，72個(gè)CPU總計(jì)提供86TB容量，剩余容量由每個(gè)GPU封裝配備的2TB LPDDR來實(shí)現(xiàn)。

這體現(xiàn)了自主研發(fā)的HBM基礎(chǔ)芯片功能：通過在基礎(chǔ)芯片上集成LPDDR內(nèi)存控制器來支持額外的二級(jí)內(nèi)存，這些內(nèi)存以LPCAMM模塊形式布置在電路板上的封裝周邊。這是對(duì)Vera CPU自帶二級(jí)內(nèi)存的重要補(bǔ)充。

同時(shí)，這也標(biāo)志著創(chuàng)新的Kyber機(jī)架架構(gòu)的首次亮相。

全新Kyber機(jī)架：4個(gè)機(jī)柜，144塊GPU

Kyber機(jī)架架構(gòu)是此次發(fā)布的重要?jiǎng)?chuàng)新之一。

英偉達(dá)通過創(chuàng)新性地將機(jī)架旋轉(zhuǎn)90度來提升部署密度。考慮到NVL576配置（144個(gè)GPU封裝），這一設(shè)計(jì)在大規(guī)模集群部署方面實(shí)現(xiàn)了顯著的密度提升。

接下來，詳細(xì)對(duì)比Oberon和Kyber兩種機(jī)架架構(gòu)的主要區(qū)別。

1. 計(jì)算單元設(shè)計(jì)：計(jì)算托盤采用90度旋轉(zhuǎn)設(shè)計(jì)，以卡匣形式安裝，顯著提升機(jī)架密度。

2. 機(jī)架結(jié)構(gòu)：每個(gè)機(jī)架配備4個(gè)機(jī)柜，每個(gè)機(jī)柜包含兩層共18個(gè)計(jì)算卡匣。

3. NVL576配置：

每個(gè)計(jì)算卡匣裝配一個(gè)R300 GPU 和一個(gè)Vera CPU
每個(gè)機(jī)柜總計(jì)36個(gè)R300 GPU和36個(gè)Vera CPU
整體NVLink網(wǎng)絡(luò)規(guī)模達(dá)到144個(gè)GPU（合計(jì)576個(gè)計(jì)算芯片）

4. 互聯(lián)方案：采用PCB板背板替代傳統(tǒng)的銅纜背板，用于實(shí)現(xiàn)機(jī)架內(nèi)GPU與NVSwitch間的互聯(lián)。這一改變主要是為了解決在更緊湊空間內(nèi)布線的挑戰(zhàn)。

有趣的是，供應(yīng)鏈情報(bào)顯示，可能存在VR300 NVL 152版本（配備288個(gè)GPU封裝）的Kyber機(jī)架變體。

這一數(shù)字可以從GTC主題演講中展示的晶圓圖片得到證實(shí)，其中標(biāo)紅顯示了288個(gè)GPU封裝。

SemiAnalysis推測(cè)這可能是一款正在開發(fā)中的產(chǎn)品型號(hào)，旨在將機(jī)架密度NVLink網(wǎng)絡(luò)規(guī)模從GTC 2025展示的NVL576（144個(gè)GPU封裝）提升一倍，達(dá)到NVL 1152（288個(gè)封裝）的規(guī)模。

另一個(gè)重要進(jìn)展是第七代NVSwitch的推出。這是NVSwitch首次在平臺(tái)周期中期進(jìn)行升級(jí)。

新款交換芯片提供更高的聚合帶寬和端口數(shù)，支持單個(gè)網(wǎng)絡(luò)域內(nèi)擴(kuò)展至576個(gè)GPU芯片（144個(gè)封裝）。

不過，網(wǎng)絡(luò)拓?fù)淇赡懿辉俨捎萌B接無阻塞的單層多平面優(yōu)化架構(gòu)，而是改用具有一定超額認(rèn)購(gòu)比的多平面優(yōu)化雙層網(wǎng)絡(luò)拓?fù)洌踔量赡懿捎梅荂los架構(gòu)的創(chuàng)新拓?fù)湓O(shè)計(jì)。

Blackwell Ultra重疊計(jì)算，降低延遲

各種注意力機(jī)制變體（包括flash-attention、MLA、MQA和GQA）都需要進(jìn)行矩陣乘法（matmuls）和 softmax函數(shù)計(jì)算（包括行方向歸約和逐元素指數(shù)函數(shù)）。

其中矩陣乘法又稱為GEMM，或通用矩陣乘法，專門用于處理神經(jīng)網(wǎng)絡(luò)計(jì)算中的矩陣乘法運(yùn)算。

在GPU架構(gòu)中，GEMM運(yùn)算由張量核心執(zhí)行。雖然張量核心的性能在每代產(chǎn)品中都有顯著提升，但負(fù)責(zé)逐元素指數(shù)計(jì)算（如softmax）的多功能單元（MUFU）的性能提升相對(duì)較小。

在采用bf16（bfloat16）格式的Hopper架構(gòu)中，注意力層的softmax計(jì)算需要消耗GEMM運(yùn)算50%的計(jì)算周期。

這迫使內(nèi)核工程師必須通過重疊計(jì)算來「掩蓋」softmax 的延遲，這大大增加了內(nèi)核編程的難度。

在采用FP8格式的Hopper架構(gòu)中，注意力層的softmax計(jì)算與GEMM運(yùn)算消耗相同的計(jì)算周期。

這意味著，如果不進(jìn)行任何重疊計(jì)算，注意力層的計(jì)算時(shí)間將翻倍：需要1536個(gè)周期用于矩陣乘法計(jì)算，再需要1536個(gè)周期進(jìn)行softmax計(jì)算。

這就是重疊計(jì)算發(fā)揮作用的地方。由于softmax和GEMM運(yùn)算需要相同的周期數(shù)，內(nèi)核工程師需要優(yōu)化實(shí)現(xiàn)完美的重疊計(jì)算。

然而，完美的重疊在實(shí)際中是不可能實(shí)現(xiàn)的，根據(jù)Amdahl定律，這將導(dǎo)致硬件性能損失。

以上描述的挑戰(zhàn)主要存在于Hopper GPU架構(gòu)中，并且這個(gè)問題在第一代Blackwell中仍然存在。英偉達(dá)通過推出Blackwell Ultra來解決這個(gè)問題，他們重新設(shè)計(jì)了SM并增加了新的指令集來改進(jìn)性能。

在Blackwell Ultra中，用于計(jì)算注意力機(jī)制softmax部分的MUFU單元性能較標(biāo)準(zhǔn)Blackwell提升了2.5 倍。這大大降低了對(duì)完美重疊softma和 GEMM計(jì)算的要求。

借助MUFU的2.5倍性能提升，CUDA開發(fā)人員在實(shí)現(xiàn)重疊計(jì)算時(shí)有了更大的靈活性，同時(shí)不會(huì)影響注意力內(nèi)核的性能。

在這種情況下，英偉達(dá)全新的推理?xiàng)：虳ynamo優(yōu)化引擎就能派上用場(chǎng)。

推理?xiàng)ＥcDynamo優(yōu)化引擎

在2023 GTC大會(huì)上，英偉達(dá)展示了GB200 NVL72憑借其72個(gè)GPU的大規(guī)模scaling能力，在FP8精度下實(shí)現(xiàn)了比H200高15倍的推理吞吐量。

而今年，英偉達(dá)的創(chuàng)新步伐不減。他們正通過硬件和軟件雙重突破，在多個(gè)維度推動(dòng)推理性能的提升。

新推出的Blackwell Ultra GB300 NVL72較GB200 NVL72在FP4密集計(jì)算方面提供了50%的性能提升，同時(shí)HBM容量也提升了50%。

這兩項(xiàng)提升都將直接促進(jìn)推理吞吐量的增長(zhǎng)。

此外，產(chǎn)品路線圖中還包括Rubin世代多項(xiàng)網(wǎng)絡(luò)速度的升級(jí)，這些改進(jìn)也將為推理吞吐量帶來實(shí)質(zhì)性提升。

在硬件層面，下一個(gè)重大突破將來自scaling網(wǎng)絡(luò)規(guī)模的提升：從Rubin的144個(gè)GPU芯片scaling到Rubin Ultra的576個(gè)GPU芯片。但這僅是硬件創(chuàng)新的一部分。

在軟件方面，英偉達(dá)發(fā)布了Nvidia Dynamo——這是一個(gè)致力于簡(jiǎn)化推理部署和擴(kuò)展的開放式AI引擎技術(shù)棧。

它有望超越現(xiàn)有的VLLM和SGLang解決方案，不僅提供了VLLM所不具備的多項(xiàng)功能，還實(shí)現(xiàn)了更高的性能。

結(jié)合硬件層面的創(chuàng)新，Dynamo將進(jìn)一步推動(dòng)吞吐量與交互性能力的提升，尤其在高交互性應(yīng)用場(chǎng)景中可以實(shí)現(xiàn)更高的吞吐量。

Dynamo為現(xiàn)有推理加速技術(shù)棧引入了以下幾項(xiàng)關(guān)鍵創(chuàng)新功能：

1. 智能路由（Smart Router）

2. GPU任務(wù)規(guī)劃器（GPU Planner）

3. 增強(qiáng)型NCCL集合通信框架（Improved NCCL Collective）

4. NIXL（NVIDIA Inference Transfer Engine）

5. NVMe KV-Cach智能卸載系統(tǒng)

智能路由

智能路由管理系統(tǒng)在多GPU推理部署環(huán)境中，可以智能地將輸入序列中的每個(gè)token精確分配至負(fù)責(zé)預(yù)填充和解碼任務(wù)的GPU。

在預(yù)填充階段，系統(tǒng)確保輸入token均勻分布到執(zhí)行預(yù)填充任務(wù)的各個(gè) GPU，從而避免在專家模塊上出現(xiàn)性能瓶頸。

同樣，在解碼階段，系統(tǒng)著重確保序列長(zhǎng)度和請(qǐng)求在執(zhí)行解碼的各個(gè)GPU之間實(shí)現(xiàn)最優(yōu)分配和負(fù)載均衡。

對(duì)于那些訪問頻率較高的專家模塊，GPU任務(wù)規(guī)劃器還可以創(chuàng)建額外的副本以維持整體負(fù)載平衡。

此外，該路由系統(tǒng)還能在服務(wù)于同一模型的多個(gè)副本之間實(shí)現(xiàn)負(fù)載均衡，這是當(dāng)前主流推理引擎（如vLLM等）所不具備的重要特性。

GPU任務(wù)規(guī)劃器

GPU任務(wù)規(guī)劃器是一個(gè)智能化的資源調(diào)度系統(tǒng)，可以自動(dòng)管理預(yù)填充和解碼節(jié)點(diǎn)的動(dòng)態(tài)擴(kuò)縮。

該系統(tǒng)能夠根據(jù)全天負(fù)載的自然波動(dòng)情況，靈活調(diào)整計(jì)算節(jié)點(diǎn)數(shù)量。在MoE中，規(guī)劃器可以在預(yù)填充和解碼兩類節(jié)點(diǎn)上實(shí)現(xiàn)多個(gè)專家模塊之間的負(fù)載均衡。

當(dāng)某些專家模塊負(fù)載較高時(shí)，規(guī)劃器會(huì)自動(dòng)配置額外的GPU資源提供計(jì)算支持。

此外，系統(tǒng)還能根據(jù)實(shí)時(shí)需求在預(yù)填充和解碼節(jié)點(diǎn)之間進(jìn)行動(dòng)態(tài)資源重分配，從而最大化資源利用效率。

該系統(tǒng)的一個(gè)重要特性是支持動(dòng)態(tài)調(diào)整解碼和預(yù)填充任務(wù)的GPU分配比例。

這項(xiàng)功能在深度研究等特定場(chǎng)景中特別有價(jià)值：由于這類應(yīng)用需要處理海量上下文信息，但實(shí)際生成的內(nèi)容相對(duì)較少，因此需要分配更多資源用于預(yù)填充處理而非解碼任務(wù)。

增強(qiáng)型NCCL集合通信框架

英偉達(dá)在其集合通信庫(kù)（NCCL）中引入了一組全新的低延遲通信算法。這些算法可以將小規(guī)模消息傳輸?shù)难舆t降低至原來的1/4，從而顯著提升整體推理性能和吞吐量。

在今年的GTC大會(huì)上，Sylvain的技術(shù)演講深入介紹了這些創(chuàng)新特性，重點(diǎn)闡述了新開發(fā)的one-shot和two-shot全規(guī)約算法，這些算法是性能提升的核心所在。

值得注意的是，AMD的RCCL庫(kù)本質(zhì)上是NVIDIA NCCL的一個(gè)分支復(fù)制版本。

因此，Sylvain主導(dǎo)的NCCL架構(gòu)重構(gòu)不僅進(jìn)一步鞏固了CUDA生態(tài)系統(tǒng)的技術(shù)優(yōu)勢(shì)，還迫使AMD團(tuán)隊(duì)不得不投入數(shù)千工程師小時(shí)來將英偉達(dá)的重構(gòu)更新同步到RCCL。在AMD忙于同步代碼變更的同時(shí)，英偉達(dá)則可以繼續(xù)專注于推進(jìn)集合通信軟件棧和算法的創(chuàng)新發(fā)展。

NIXL

為了實(shí)現(xiàn)預(yù)填充節(jié)點(diǎn)和解碼節(jié)點(diǎn)之間的高效數(shù)據(jù)傳輸，需要采用低延遲、高帶寬的通信傳輸庫(kù)。

NIXL采用了創(chuàng)新的InfiniBand GPU異步初始化（IBGDA）技術(shù)。在當(dāng)前的NCCL架構(gòu)中，控制流需要通過CPU代理線程進(jìn)行處理，而數(shù)據(jù)流可以直接傳輸?shù)絅IC，無需經(jīng)過CPU緩沖區(qū)。

而采用IBGDA技術(shù)后，控制流和數(shù)據(jù)流都能夠繞過CPU，實(shí)現(xiàn)從GPU到網(wǎng)絡(luò)接口卡的直接傳輸。

此外，NIXL還通過抽象化簡(jiǎn)化了各種存儲(chǔ)和內(nèi)存設(shè)備之間的數(shù)據(jù)傳輸復(fù)雜度，包括簡(jiǎn)化CXL、本地NVMe 、遠(yuǎn)程N(yùn)VMe 、CPU內(nèi)存、遠(yuǎn)程 GPU內(nèi)存和本地GPU內(nèi)存。

NVMe KV-Cache智能卸載系統(tǒng)

KV緩存智能卸載管理系統(tǒng)采用創(chuàng)新方式，將用戶歷史對(duì)話產(chǎn)生的鍵值緩存保存在NVMe存儲(chǔ)設(shè)備中，而不是直接廢棄，從而顯著提升了整體預(yù)填充效率。

在用戶與LLM進(jìn)行多輪對(duì)話時(shí)，模型需要將對(duì)話歷史中的問題和回答作為上下文輸入進(jìn)行處理。

在傳統(tǒng)實(shí)現(xiàn)中，推理系統(tǒng)會(huì)丟棄用于生成早期對(duì)話的鍵值緩存，這導(dǎo)致系統(tǒng)在處理后續(xù)對(duì)話時(shí)需要重新計(jì)算這些緩存內(nèi)容，造成重復(fù)計(jì)算。

而采用NVMe KV緩存卸載技術(shù)后，當(dāng)用戶暫時(shí)離開對(duì)話時(shí)，系統(tǒng)會(huì)將鍵值緩存臨時(shí)保存到NVMe存儲(chǔ)系統(tǒng)中。

當(dāng)用戶返回并繼續(xù)對(duì)話時(shí)，系統(tǒng)可以快速?gòu)腘VMe存儲(chǔ)中恢復(fù)這些緩存數(shù)據(jù)，避免了重復(fù)計(jì)算的開銷。

這項(xiàng)創(chuàng)新帶來兩個(gè)重要優(yōu)勢(shì)：

提升資源利用效率：釋放預(yù)填充節(jié)點(diǎn)的處理能力，支持更高的并發(fā)量，或降低所需的預(yù)填充部署規(guī)模
優(yōu)化用戶體驗(yàn)：由于直接檢索緩存比重新計(jì)算更快，顯著減少了首個(gè)token的生成延遲

根據(jù)DeepSeek在GitHub上發(fā)布的第六天研發(fā)記錄顯示，其磁盤KV緩存的命中率達(dá)到了56.3%，這一數(shù)據(jù)表明其預(yù)填充部署效率獲得了顯著提升。

實(shí)踐表明，在用戶進(jìn)行多輪對(duì)話場(chǎng)景中，此類部署的典型KV緩存命中率通常在50-60%之間。

雖然部署NVMe存儲(chǔ)解決方案需要一定成本投入，存在一個(gè)效益平衡點(diǎn)：對(duì)于較短的對(duì)話，直接重新計(jì)算比重新加載更經(jīng)濟(jì)高效；但在長(zhǎng)對(duì)話場(chǎng)景下，該方案可以帶來巨大的性能收益。

對(duì)于持續(xù)關(guān)注DeepSeek開源周的開發(fā)者來說，上述技術(shù)都不會(huì)陌生。

在英偉達(dá)完善Dynamo技術(shù)文檔的同時(shí)，上述內(nèi)容為開發(fā)者提供了快速了解這些技術(shù)的絕佳渠道。

這些創(chuàng)新功能的集成帶來了全方位的推理性能提升。英偉達(dá)還特別介紹了Dynamo在現(xiàn)有H100節(jié)點(diǎn)上部署后帶來的性能改進(jìn)。

從本質(zhì)上說，Dynamo實(shí)現(xiàn)了對(duì)DeepSeek創(chuàng)新技術(shù)的民主化，讓整個(gè)開發(fā)社區(qū)都能夠共享開源模型技術(shù)的最新成果。這意味著不僅是那些擁有強(qiáng)大推理部署工程團(tuán)隊(duì)的頂級(jí)AI實(shí)驗(yàn)室，所有開發(fā)者都能夠部署高效的推理系統(tǒng)。

最后，由于Dynamo在分布式推理和專家并行計(jì)算方面具有廣泛的適用性，它在獨(dú)立復(fù)制和高交互性部署場(chǎng)景中表現(xiàn)尤為出色。

當(dāng)然，要充分發(fā)揮Dynamo的性能優(yōu)勢(shì)并實(shí)現(xiàn)顯著改進(jìn)，必須具備多節(jié)點(diǎn)的硬件基礎(chǔ)設(shè)施。

AI總擁有成本暴降99.97%

在結(jié)束Blackwell介紹后，老黃通過一個(gè)引人注目的說法強(qiáng)調(diào)了技術(shù)創(chuàng)新的影響力——這些創(chuàng)新使他成為了「降價(jià)推動(dòng)者」。

具體而言，Blackwell相較于上一代Hopper架構(gòu)，實(shí)現(xiàn)了高達(dá)68倍的性能提升，使總成本降低了87%。

而下一代Rubin架構(gòu)的性能預(yù)計(jì)將比Hopper提升900倍，預(yù)計(jì)可使成本降低99.97%。

顯然，英偉達(dá)正在保持高速的技術(shù)創(chuàng)新步伐。正如老黃所說，「一旦Blackwell開始規(guī)模化出貨，Hopper即使免費(fèi)提供也將無人問津」。

長(zhǎng)期以來，SemiAnalysis持續(xù)建議生態(tài)系統(tǒng)合作伙伴優(yōu)先考慮部署B(yǎng)200和GB200 NVL72等新一代系統(tǒng)，而非采購(gòu)H100或H200。

事實(shí)上，H100租賃價(jià)格預(yù)測(cè)模型正是基于老黃所闡述的這一原理。

高級(jí)分析師綜合考慮了未來市場(chǎng)裝機(jī)量預(yù)測(cè)、集群總擁有成本以及下一代芯片性能等因素，構(gòu)建了完整的價(jià)格預(yù)測(cè)曲線。

該預(yù)測(cè)框架迄今表現(xiàn)出色：他們于2024年4月首次向客戶發(fā)布的H100租賃價(jià)格預(yù)測(cè)模型，從2024年初至今的預(yù)測(cè)準(zhǔn)確率高達(dá)98%。

首個(gè)光學(xué)封裝CPO，功耗節(jié)省12%

在主題演講中，英偉達(dá)發(fā)布了其首個(gè)用于擴(kuò)展型交換機(jī)的同封裝光學(xué)解決方案。

這項(xiàng)技術(shù)將傳統(tǒng)的光學(xué)收發(fā)器替換為外部激光源（ELS），并將光學(xué)引擎（OE）直接集成在芯片硅片旁邊，實(shí)現(xiàn)數(shù)據(jù)通信。

在新架構(gòu)中，光纖電纜不再連接傳統(tǒng)收發(fā)器端口，而是直接插入交換機(jī)上與光學(xué)引擎相連的專用端口。

CPO技術(shù)帶來的主要優(yōu)勢(shì)是顯著降低功耗，這源于多個(gè)方面：

交換機(jī)本身不再需要數(shù)字信號(hào)處理器（DSP）
可以使用更低功率的激光光源
雖然使用線性可插拔光學(xué)（LPO）收發(fā)器也能實(shí)現(xiàn)部分節(jié)能，但CPO獨(dú)特的優(yōu)勢(shì)在于支持更大的交換機(jī)基數(shù)，使網(wǎng)絡(luò)層級(jí)從三層簡(jiǎn)化為兩層
減少網(wǎng)絡(luò)層級(jí)不僅消除了一整層交換設(shè)備，還帶來了可觀的成本和能耗節(jié)省

根據(jù)SemiAnalysis分析，在部署400,000個(gè)GB200 NVL72設(shè)備的場(chǎng)景中，從傳統(tǒng)的基于DSP收發(fā)器的三層網(wǎng)絡(luò)遷移到基于CPO的兩層網(wǎng)絡(luò)，可以實(shí)現(xiàn)高達(dá)12%的集群總功耗節(jié)省，將收發(fā)器功耗占比從計(jì)算資源的10%降低到僅1%。

英偉達(dá)本次發(fā)布了多款采用CPO技術(shù)的交換機(jī)產(chǎn)品：

Quantum X-800 3400 CPO版本（原型于2024年GTC發(fā)布）

a.144個(gè)800 Gbps端口

b.總吞吐量：115Tbps

c.配置：144個(gè)MPO端口 + 18個(gè)ELS

d.預(yù)計(jì)2025年下半年推出

Spectrum-X以太網(wǎng)CPO交換機(jī)
512個(gè)800 Gbps端口
支持高速大基數(shù)配置，實(shí)現(xiàn)快速扁平化網(wǎng)絡(luò)拓?fù)?/span>
預(yù)計(jì)2026年下半年推出

雖然此次發(fā)布已經(jīng)展現(xiàn)出突破性的技術(shù)創(chuàng)新，但高級(jí)分析師認(rèn)為這僅是英偉達(dá)在CPO領(lǐng)域的起步。

從長(zhǎng)遠(yuǎn)來看，CPO 技術(shù)在擴(kuò)展網(wǎng)絡(luò)中可能帶來更大的價(jià)值：它有潛力大幅提升GPU的網(wǎng)絡(luò)基數(shù)和總帶寬，實(shí)現(xiàn)更高效的扁平化擴(kuò)展網(wǎng)絡(luò)架構(gòu)，突破當(dāng)前576個(gè)GPU的規(guī)模限制。

英偉達(dá)穩(wěn)坐王座，正重塑計(jì)算成本格局

The Information一篇文章稱，亞馬遜將Trainium芯片的價(jià)格定在H100的25%。

與此同時(shí)，老黃會(huì)上表示「當(dāng) Blackwell大規(guī)模量產(chǎn)后，就算免費(fèi)送H100也沒人要」。

高級(jí)分析師認(rèn)為，后一種說法極具深意。

技術(shù)繼續(xù)驅(qū)動(dòng)著總擁有成本，在我們所見的各個(gè)領(lǐng)域（可能除了TPU），都能看到競(jìng)爭(zhēng)對(duì)手在復(fù)制英偉達(dá)的技術(shù)路線圖。與此同時(shí)，老黃正在推動(dòng)技術(shù)發(fā)展的邊界。

新架構(gòu)、機(jī)架結(jié)構(gòu)、算法改進(jìn)和CPO技術(shù)，每一項(xiàng)都體現(xiàn)了英偉達(dá)與競(jìng)爭(zhēng)對(duì)手的技術(shù)差異。

英偉達(dá)目前在幾乎所有領(lǐng)域都處于領(lǐng)先地位，當(dāng)競(jìng)爭(zhēng)對(duì)手追趕上來時(shí)，他們就會(huì)在另一個(gè)進(jìn)步方向上推進(jìn)。

隨著英偉達(dá)保持年度更新節(jié)奏，SemiAnalysis預(yù)計(jì)這種趨勢(shì)將會(huì)持續(xù)。

雖然有人說ASIC是計(jì)算的未來，但從CPU時(shí)代就看到，一個(gè)快速改進(jìn)的通用平臺(tái)是很難被超越的。

英偉達(dá)正在用GPU重新創(chuàng)造這個(gè)平臺(tái)，高級(jí)分析師預(yù)計(jì)他們將繼續(xù)引領(lǐng)行業(yè)發(fā)展。

想要追趕這位「營(yíng)收終結(jié)者」可不容易。

責(zé)任編輯：張燕妮來源：新智元