精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

英偉達(dá)超級(jí)Rubin細(xì)節(jié)曝光,黃氏法則再升級(jí)!最高1024GB顯存,免費(fèi)H100無人要

人工智能 新聞
老黃在GTC 2025大會(huì)上,再次亮出了英偉達(dá)未來GPU路線圖。隨著推理token的暴增,AI計(jì)算需要全新的范式,下一代BlackWell Ultra、Vera Rubin就是最強(qiáng)的回應(yīng)。

黃氏計(jì)算法則,幾乎每年一更。

今年GTC 2025大會(huì)上,黃仁勛兩個(gè)多小時(shí)演講中,又向世界帶來了最新的計(jì)算法則——

現(xiàn)在,GPU數(shù)量按照每個(gè)「封裝」內(nèi)的GPU芯片數(shù)量來計(jì)算,而不是以「封裝」數(shù)量計(jì)算。

這種全新的計(jì)算法則,將從英偉達(dá)下一代GPU Rubin系列開始應(yīng)用。

在SemiAnalysis獨(dú)家報(bào)道中,就英偉達(dá)GPU和系統(tǒng)路線圖、最新Blackwell Ultra 300、26年Vera Rubin、從芯片到系統(tǒng)再到軟件的全新推理優(yōu)化等方面進(jìn)行了詳細(xì)分析。

圖片

高級(jí)分析師指出,過去6個(gè)月里,模型的進(jìn)化超過了之前六個(gè)月的總和。

而且,這種趨勢(shì)仍將持續(xù),因?yàn)槿齻€(gè)Scaling Law正在疊加并協(xié)同作用:預(yù)訓(xùn)練Scaling、后訓(xùn)練Scaling、推理時(shí)Scaling。

恰恰,今年GTC大會(huì)全面聚焦的是全新Scaling范式。

圖片

推理Token爆發(fā)增長(zhǎng)

一直以來,Claude模型以其強(qiáng)大的編程能力,得到開發(fā)者青睞,尤其是Claude 3.7在軟件工程方面展現(xiàn)出驚人的性能。

另一方面,Deepseek V3出世表明,上一代模型的能力成本正暴跌,促進(jìn)了更廣泛的應(yīng)用。

OpenAI最新實(shí)驗(yàn)?zāi)P蚾1、o3用時(shí)證明,更長(zhǎng)的推理時(shí)間和搜索能帶來更好的答案。就像預(yù)訓(xùn)練Scaling的早期階段一樣,為這些模型增加更多后訓(xùn)練計(jì)算能力似乎沒有上限。

面對(duì)這一系列新事物,老黃給出最有力的回答。

他表示,「從GPT開始,到如今的推理AI,它不再是僅僅預(yù)測(cè)下一個(gè)token,而是生成100多倍的token」。

為了支持更多模型訓(xùn)練部署,英偉達(dá)推出了「AI工廠的操作系統(tǒng)」Dynamo,使得Blackwell推理性能相較Hopper暴漲40倍。

不僅如此,他們正致力于將推理成本效率提升35倍,以支持更多模型的訓(xùn)練和部署。

老黃的口頭禪也從以往「買越多,省越多」,變成了「省越多,買越多」。(the more you save, the more you buy.

圖片

英偉達(dá)在硬件和軟件方面的發(fā)展路線圖,著實(shí)帶來了顯著的推理效率提升。

這為L(zhǎng)LM經(jīng)濟(jì)高效部署,以及其他變革性企業(yè)應(yīng)用開啟了全新機(jī)遇——這正是杰文斯悖論(Jevons’ paradox)的典型案例。

用老黃的話來說,「買越多,賺越多」。(the more you buy, the more you make)。

不過,市場(chǎng)對(duì)此卻表示擔(dān)憂。

他們的關(guān)注點(diǎn)在于類DeepSeek這樣的軟件優(yōu)化技術(shù)和英偉達(dá)推動(dòng)的硬件性能提升,正帶來過度的成本節(jié)省,這可能導(dǎo)致AI硬件需求下降,市場(chǎng)將出現(xiàn)token供過于求的現(xiàn)象。

誠(chéng)然,價(jià)格會(huì)影響需求,但隨著智能成本的降低,智能能力的邊界不斷突破,需求也隨之增長(zhǎng)。

目前的AI能力,仍受限于推理成本。而且,AI對(duì)我們生活的實(shí)際影響尚處于萌芽階段。

有趣的是,隨著成本下降,總體使用量反而會(huì)出現(xiàn)悖論性增長(zhǎng)。

人們對(duì)token通縮的擔(dān)憂,就像當(dāng)年討論光纖泡沫時(shí)期只關(guān)注每個(gè)數(shù)據(jù)包的互聯(lián)網(wǎng)連接成本下降,卻忽視了網(wǎng)站和互聯(lián)網(wǎng)應(yīng)用最終將如何改變我們的生活、社會(huì)和經(jīng)濟(jì)。

這里有個(gè)關(guān)鍵區(qū)別:帶寬需求是有限的,而智能需求則會(huì)隨著能力的顯著提升和成本的下降,無限增長(zhǎng)。

英偉達(dá)提供的數(shù)據(jù)印證了Jevons’ paradox。當(dāng)前的模型已經(jīng)需要超100萬億個(gè)token,而推理模型更需要20倍的token用量和150倍的計(jì)算資源。

測(cè)試階段的計(jì)算每次查詢需要數(shù)十萬個(gè)token,且每月查詢量高達(dá)數(shù)億次。

在后訓(xùn)練scaling階段,每個(gè)模型需要處理數(shù)萬億個(gè)token,同時(shí)存在數(shù)十萬個(gè)接受后訓(xùn)練的模型。

更重要的是,Agentic AI的出現(xiàn)意味著多個(gè)模型將協(xié)同合作,共同攻克越來越具有挑戰(zhàn)性的問題。

黃氏計(jì)算法則,每年一更

每年,老黃都會(huì)向業(yè)界引入全新的計(jì)算法則。

黃氏計(jì)算法則一直以其獨(dú)特性聞名,而今年情況更加特別,SemiAnalysis觀察到了第三條新的計(jì)算法則。

第一條黃氏計(jì)算法則涉及浮點(diǎn)運(yùn)算性能(FLOPs)的標(biāo)稱方式。

英偉達(dá)采用2:4稀疏計(jì)算方式(這種方式在實(shí)際應(yīng)用中幾乎未被采用)而非實(shí)際使用的密集計(jì)算來標(biāo)示性能。

比如,H100的FP16實(shí)際計(jì)算能力為989.4 TFLOPs,但官方數(shù)據(jù)卻標(biāo)示為 1979.81 TFLOPs。

第二條計(jì)算法則關(guān)于帶寬的計(jì)算方式。

NVLink5的帶寬被標(biāo)示為1.8TB/s,這是將900GB/s的發(fā)送帶寬和900GB/s的接收帶寬相加得出的結(jié)果。

雖然產(chǎn)品規(guī)格表采用這種計(jì)算方式,但網(wǎng)絡(luò)行業(yè)的通行做法是僅標(biāo)示單向帶寬。

最新出現(xiàn)的第三條計(jì)算法則與GPU數(shù)量有關(guān)。

正如開篇所言,GPU數(shù)量現(xiàn)在按照每個(gè)封裝內(nèi)的GPU芯片數(shù)量來計(jì)數(shù),而不是按照封裝數(shù)量。

這種新的命名方式將從Rubin產(chǎn)品開始實(shí)施。

比如,第一代Vera Rubin機(jī)架將被命名為NVL144,盡管它在系統(tǒng)架構(gòu)上與使用相同Oberon機(jī)架和72個(gè)GPU封裝的GB200 NVL72十分相似。

圖片

這種全新的計(jì)數(shù)方式無疑會(huì)給業(yè)界帶來理解上的困擾,需要不斷解釋說明,但這就是我們必須適應(yīng)的「黃氏世界」。

接下來,一起看看英偉達(dá)的產(chǎn)品路線圖。

圖片

Blackwell Ultra B300

Blackwell Ultra 300(簡(jiǎn)稱B300)的預(yù)覽版已經(jīng)發(fā)布,與SemiAnalysis在去年12月分享的詳情保持一致。

主要規(guī)格如下:

GB300不會(huì)以獨(dú)立顯卡形式銷售,而是將作為配備Grace CPU的可插拔SXM模塊中的B300 GPU推出,同時(shí)還提供可插拔BGA封裝版本。

性能方面,B300的FP4浮點(diǎn)運(yùn)算密度,較B200同等產(chǎn)品提升超過50%。內(nèi)存容量提升至每個(gè)封裝288GB(采用8堆疊12層HBM3E高帶寬顯存),帶寬維持在8TB/s。

這一性能提升是通過減少部分(而非全部)FP64 ALU,并替換為FP4和FP6運(yùn)算單元實(shí)現(xiàn)的。

雙精度運(yùn)算主要用于HPC和超級(jí)計(jì)算領(lǐng)域,而非AI工作負(fù)載。盡管這讓HPC界感到失望,但從商業(yè)角度看,英偉達(dá)更注重發(fā)展規(guī)模更大的AI市場(chǎng)。

B300 HGX版本現(xiàn)已更名為B300 NVL16。

該產(chǎn)品將采用此前稱為「B300A」的Blackwell單GPU版本,現(xiàn)已更名為B300。

這相當(dāng)于雙芯片B300的一半配置,由于標(biāo)準(zhǔn)版B300在單個(gè)封裝中缺少連接兩個(gè)GPU芯片的高速D2D接口,可能會(huì)帶來額外的通信開銷。

B300 NVL16將取代現(xiàn)有的B200 HGX架構(gòu),在主板上配置16個(gè)封裝和GPU芯片。具體實(shí)現(xiàn)方式是,在每個(gè)SXM模塊上安裝2個(gè)單芯片封裝(總共8個(gè)這樣的模塊)。

英偉達(dá)選擇這種方案而非繼續(xù)使用8個(gè)雙芯片B300的原因尚不明確;高級(jí)分析師推測(cè),采用更小尺寸的CoWoS封裝模塊和基板所帶來的良率提升可能是主要考慮因素。

值得注意的是,封裝技術(shù)將采用CoWoS-L而非CoWoS-S,這一決策意義重大。

此前選擇單芯片B300A是出于CoWoS-S的成熟度和產(chǎn)能考慮。此次轉(zhuǎn)向CoWoS-L表明該技術(shù)已經(jīng)從最初的不穩(wěn)定狀態(tài)快速發(fā)展為成熟可靠的解決方案,良率也已達(dá)到穩(wěn)定水平。

這16個(gè)GPU將通過NVLink協(xié)議進(jìn)行通信,與B200 HGX的設(shè)計(jì)類似,兩組SXM模塊之間將配置兩個(gè)NVSwitch 5.0專用芯片(ASIC)。

另有一個(gè)新的變化是,不同于先前幾代HGX產(chǎn)品,B300 NVL16將不再使用Astera Labs的信號(hào)重定時(shí)器。不過,部分超大規(guī)模云計(jì)算服務(wù)商可能會(huì)選擇改用PCIe交換機(jī)。

B300的另一個(gè)重要特性是,將搭載全新的CX-8 NIC,該接口卡提供4條200Gbps通道,使InfiniBand總吞吐量達(dá)到800Gbps,較當(dāng)前Blackwell采用的CX-7網(wǎng)絡(luò)接口卡的網(wǎng)絡(luò)速度翻了一番。

Vera Rubin:3nm制程,首個(gè)全自研CPU

Rubin將在臺(tái)積電3nm工藝上,采用兩個(gè)掩模尺寸的計(jì)算芯片。

這些計(jì)算芯片兩側(cè)將各配備一個(gè)I/O(輸入/輸出)芯片,整合所有NVLink、PCIe和NVLink C2C IP的SerDes,這樣可以為主計(jì)算芯片釋放更多空間用于核心計(jì)算功能。

Rubin將提供驚人的50 PFLOPs的密集FP4計(jì)算能力,相比B300提升了超過3倍。英偉達(dá)通過以下幾個(gè)關(guān)鍵方向?qū)崿F(xiàn)了這一突破:

  1. 首先,如前所述,獨(dú)立的I/O芯片設(shè)計(jì)釋放了大約20-30%的芯片面積,這些空間可用于增加流式多處理器和張量核心的數(shù)量。
  2. 其次,Rubin將采用3nm制程工藝,可選用定制的英偉達(dá)3NP或標(biāo)準(zhǔn)N3P工藝。從Blackwell世代的4NP工藝升級(jí)到3NP,邏輯密度獲得顯著提升,但SRAM的尺寸幾乎保持不變。
  3. 第三,Rubin的熱設(shè)計(jì)功耗(TDP)將提升至約1800瓦,這可能支持更高的運(yùn)行頻率。
  4. 最后是架構(gòu)層面的scaling。英偉達(dá)在每代產(chǎn)品中都采用更大規(guī)模的張量核心脈動(dòng)陣列。

據(jù)分析,這一規(guī)模從Hopper架構(gòu)的32×32,增加到了Blackwell的64×64,在Rubin中可能會(huì)進(jìn)一步擴(kuò)大到128×128。

更大的脈動(dòng)陣列能夠提供更好的數(shù)據(jù)復(fù)用效率和更低的控制復(fù)雜度,在面積利用率和功耗效率方面都具有優(yōu)勢(shì)。

雖然編程難度隨之增加,這也是英偉達(dá)沒有像谷歌TPU那樣采用256×256規(guī)模的原因之一。

同時(shí),這種設(shè)計(jì)對(duì)制造良率也會(huì)產(chǎn)生影響。值得注意的是,英偉達(dá)的掩模尺寸單片芯片具有很高的參數(shù)良率,這得益于其架構(gòu)中內(nèi)置的冗余設(shè)計(jì)和可修復(fù)機(jī)制,包含眾多小型計(jì)算單元。

當(dāng)發(fā)現(xiàn)缺陷的計(jì)算單元時(shí),可以將其禁用,從而保證產(chǎn)品良率。

圖片

這與谷歌TPU采用的設(shè)計(jì)策略不同,后者使用數(shù)量較少但規(guī)模更大的張量核心,因此無法像英偉達(dá)的設(shè)計(jì)那樣靈活處理邏輯單元缺陷。

Rubin將延續(xù)GB200/300 NVL72所采用的Oberon機(jī)架架構(gòu)。它將搭配Vera CPU,采用3nm制程的Grace 繼任者。

值得注意的是,Vera是由英偉達(dá)自主設(shè)計(jì),采用全定制Arm核心。

此外,英偉達(dá)還開發(fā)了獨(dú)特的互聯(lián)架構(gòu),使單個(gè)CPU核心能夠根據(jù)需要訪問更大的內(nèi)存帶寬,這一點(diǎn)是AMD和英特爾CPU目前面臨的重大技術(shù)挑戰(zhàn)。

這就引出了新的命名方式。盡管新機(jī)架實(shí)際只配備72個(gè)GPU封裝,包含144個(gè)計(jì)算芯片,即72個(gè)封裝×每封裝2個(gè)計(jì)算芯片,但將被命名為VR200 NVL144。

不得不說,英偉達(dá)是如此富有創(chuàng)新精神,連GPU的計(jì)數(shù)方式都在改變!

在內(nèi)存方面,英偉達(dá)HBM容量將維持在288GB,但升級(jí)到了HBM4技術(shù):采用8堆12層設(shè)計(jì),保持每層24GB的密度。

升級(jí)到HBM4帶來了顯著的帶寬提升,總帶寬達(dá)到13TB/s,這主要得益于總線寬度翻倍至2048位,以及達(dá)到當(dāng)前JEDEC標(biāo)準(zhǔn)上限的6.5Gbps引腳速度。

互聯(lián)技術(shù)方面,新產(chǎn)品將采用第六代NVLink,通過翻倍通道數(shù)實(shí)現(xiàn)速度翻倍,達(dá)到3.6TB/s(雙向)。英偉達(dá)將繼續(xù)使用 224G 串并轉(zhuǎn)換器(SerDes)技術(shù)。

關(guān)于Oberon機(jī)架,它將繼續(xù)使用銅質(zhì)背板,但分析師預(yù)計(jì)隨著每個(gè)GPU通道數(shù)的翻倍,連接電纜的數(shù)量也會(huì)相應(yīng)翻倍。

在交換技術(shù)方面,NVSwitch專用芯片的總帶寬也將實(shí)現(xiàn)翻倍,同樣是通過增加通道數(shù)來實(shí)現(xiàn)的。

圖片

Rubin Ultra性能驚人,HBM達(dá)1024GB

Rubin Ultra將帶來革命性的性能提升。

英偉達(dá)在這款產(chǎn)品中將單個(gè)封裝HBM堆疊數(shù)量直接從8個(gè)提升至16個(gè)。其架構(gòu)采用4個(gè)掩模尺寸的GPU芯片呈線性排列,兩端各配備一個(gè)I/O芯片。

得益于計(jì)算面積的翻倍,密集FP4浮點(diǎn)運(yùn)算性能提升至100 PFLOPs。HBM容量達(dá)到驚人的1024GB,超過標(biāo)準(zhǔn)版Rubin的3.5倍。

這不僅體現(xiàn)在堆疊數(shù)量的翻倍,還包括密度和層數(shù)的提升。為實(shí)現(xiàn)單封裝1TB內(nèi)存容量,產(chǎn)品將采用16個(gè)HBM4E堆疊,每個(gè)堆疊包含16層、每層32Gb的DRAM核心芯片。

根據(jù)SemiAnalysis分析,這種封裝設(shè)計(jì)將在基板上采用雙中介層方案,以避免使用單個(gè)超大尺寸中介層(接近8個(gè)掩模尺寸)。

中間的兩個(gè)GPU芯片將通過D2D接口的超薄I/O芯片實(shí)現(xiàn)通信,信號(hào)傳輸通過基板完成。

這種設(shè)計(jì)需要使用超大型ABF基板,其尺寸將突破當(dāng)前JEDEC封裝標(biāo)準(zhǔn)的限制(長(zhǎng)寬均為120毫米)。

在內(nèi)存系統(tǒng)方面,整體配備365TB快速內(nèi)存/二級(jí)LPDDR內(nèi)存。其中,每個(gè)Vera CPU配備1.2TB LPDDR,72個(gè)CPU總計(jì)提供86TB容量,剩余容量由每個(gè)GPU封裝配備的2TB LPDDR來實(shí)現(xiàn)。

這體現(xiàn)了自主研發(fā)的HBM基礎(chǔ)芯片功能:通過在基礎(chǔ)芯片上集成LPDDR內(nèi)存控制器來支持額外的二級(jí)內(nèi)存,這些內(nèi)存以LPCAMM模塊形式布置在電路板上的封裝周邊。這是對(duì)Vera CPU自帶二級(jí)內(nèi)存的重要補(bǔ)充。

同時(shí),這也標(biāo)志著創(chuàng)新的Kyber機(jī)架架構(gòu)的首次亮相。

圖片

全新Kyber機(jī)架:4個(gè)機(jī)柜,144塊GPU

Kyber機(jī)架架構(gòu)是此次發(fā)布的重要?jiǎng)?chuàng)新之一。

英偉達(dá)通過創(chuàng)新性地將機(jī)架旋轉(zhuǎn)90度來提升部署密度。考慮到NVL576配置(144個(gè)GPU封裝),這一設(shè)計(jì)在大規(guī)模集群部署方面實(shí)現(xiàn)了顯著的密度提升。

圖片

接下來,詳細(xì)對(duì)比Oberon和Kyber兩種機(jī)架架構(gòu)的主要區(qū)別。

1. 計(jì)算單元設(shè)計(jì):計(jì)算托盤采用90度旋轉(zhuǎn)設(shè)計(jì),以卡匣形式安裝,顯著提升機(jī)架密度。

2. 機(jī)架結(jié)構(gòu):每個(gè)機(jī)架配備4個(gè)機(jī)柜,每個(gè)機(jī)柜包含兩層共18個(gè)計(jì)算卡匣。

3. NVL576配置:

  • 每個(gè)計(jì)算卡匣裝配一個(gè)R300 GPU 和一個(gè)Vera CPU
  • 每個(gè)機(jī)柜總計(jì)36個(gè)R300 GPU和36個(gè)Vera CPU
  • 整體NVLink網(wǎng)絡(luò)規(guī)模達(dá)到144個(gè)GPU(合計(jì)576個(gè)計(jì)算芯片)

4. 互聯(lián)方案:采用PCB板背板替代傳統(tǒng)的銅纜背板,用于實(shí)現(xiàn)機(jī)架內(nèi)GPU與NVSwitch間的互聯(lián)。這一改變主要是為了解決在更緊湊空間內(nèi)布線的挑戰(zhàn)。

圖片

有趣的是,供應(yīng)鏈情報(bào)顯示,可能存在VR300 NVL 152版本(配備288個(gè)GPU封裝)的Kyber機(jī)架變體。

這一數(shù)字可以從GTC主題演講中展示的晶圓圖片得到證實(shí),其中標(biāo)紅顯示了288個(gè)GPU封裝。

SemiAnalysis推測(cè)這可能是一款正在開發(fā)中的產(chǎn)品型號(hào),旨在將機(jī)架密度NVLink網(wǎng)絡(luò)規(guī)模從GTC 2025展示的NVL576(144個(gè)GPU封裝)提升一倍,達(dá)到NVL 1152(288個(gè)封裝)的規(guī)模。

圖片

另一個(gè)重要進(jìn)展是第七代NVSwitch的推出。這是NVSwitch首次在平臺(tái)周期中期進(jìn)行升級(jí)。

新款交換芯片提供更高的聚合帶寬和端口數(shù),支持單個(gè)網(wǎng)絡(luò)域內(nèi)擴(kuò)展至576個(gè)GPU芯片(144個(gè)封裝)。

不過,網(wǎng)絡(luò)拓?fù)淇赡懿辉俨捎萌B接無阻塞的單層多平面優(yōu)化架構(gòu),而是改用具有一定超額認(rèn)購(gòu)比的多平面優(yōu)化雙層網(wǎng)絡(luò)拓?fù)洌踔量赡懿捎梅荂los架構(gòu)的創(chuàng)新拓?fù)湓O(shè)計(jì)。

Blackwell Ultra重疊計(jì)算,降低延遲

各種注意力機(jī)制變體(包括flash-attention、MLA、MQA和GQA)都需要進(jìn)行矩陣乘法(matmuls)和 softmax函數(shù)計(jì)算(包括行方向歸約和逐元素指數(shù)函數(shù))。

其中矩陣乘法又稱為GEMM,或通用矩陣乘法,專門用于處理神經(jīng)網(wǎng)絡(luò)計(jì)算中的矩陣乘法運(yùn)算。

在GPU架構(gòu)中,GEMM運(yùn)算由張量核心執(zhí)行。雖然張量核心的性能在每代產(chǎn)品中都有顯著提升,但負(fù)責(zé)逐元素指數(shù)計(jì)算(如softmax)的多功能單元(MUFU)的性能提升相對(duì)較小。

在采用bf16(bfloat16)格式的Hopper架構(gòu)中,注意力層的softmax計(jì)算需要消耗GEMM運(yùn)算50%的計(jì)算周期。

這迫使內(nèi)核工程師必須通過重疊計(jì)算來「掩蓋」softmax 的延遲,這大大增加了內(nèi)核編程的難度。

圖片

在采用FP8格式的Hopper架構(gòu)中,注意力層的softmax計(jì)算與GEMM運(yùn)算消耗相同的計(jì)算周期。

這意味著,如果不進(jìn)行任何重疊計(jì)算,注意力層的計(jì)算時(shí)間將翻倍:需要1536個(gè)周期用于矩陣乘法計(jì)算,再需要1536個(gè)周期進(jìn)行softmax計(jì)算。

這就是重疊計(jì)算發(fā)揮作用的地方。由于softmax和GEMM運(yùn)算需要相同的周期數(shù),內(nèi)核工程師需要優(yōu)化實(shí)現(xiàn)完美的重疊計(jì)算。

然而,完美的重疊在實(shí)際中是不可能實(shí)現(xiàn)的,根據(jù)Amdahl定律,這將導(dǎo)致硬件性能損失。

以上描述的挑戰(zhàn)主要存在于Hopper GPU架構(gòu)中,并且這個(gè)問題在第一代Blackwell中仍然存在。英偉達(dá)通過推出Blackwell Ultra來解決這個(gè)問題,他們重新設(shè)計(jì)了SM并增加了新的指令集來改進(jìn)性能。

在Blackwell Ultra中,用于計(jì)算注意力機(jī)制softmax部分的MUFU單元性能較標(biāo)準(zhǔn)Blackwell提升了2.5 倍。這大大降低了對(duì)完美重疊softma和 GEMM計(jì)算的要求。

借助MUFU的2.5倍性能提升,CUDA開發(fā)人員在實(shí)現(xiàn)重疊計(jì)算時(shí)有了更大的靈活性,同時(shí)不會(huì)影響注意力內(nèi)核的性能。

在這種情況下,英偉達(dá)全新的推理?xiàng):虳ynamo優(yōu)化引擎就能派上用場(chǎng)。

圖片

推理?xiàng)EcDynamo優(yōu)化引擎

在2023 GTC大會(huì)上,英偉達(dá)展示了GB200 NVL72憑借其72個(gè)GPU的大規(guī)模scaling能力,在FP8精度下實(shí)現(xiàn)了比H200高15倍的推理吞吐量。

而今年,英偉達(dá)的創(chuàng)新步伐不減。他們正通過硬件和軟件雙重突破,在多個(gè)維度推動(dòng)推理性能的提升。

新推出的Blackwell Ultra GB300 NVL72較GB200 NVL72在FP4密集計(jì)算方面提供了50%的性能提升,同時(shí)HBM容量也提升了50%。

這兩項(xiàng)提升都將直接促進(jìn)推理吞吐量的增長(zhǎng)。

此外,產(chǎn)品路線圖中還包括Rubin世代多項(xiàng)網(wǎng)絡(luò)速度的升級(jí),這些改進(jìn)也將為推理吞吐量帶來實(shí)質(zhì)性提升。

在硬件層面,下一個(gè)重大突破將來自scaling網(wǎng)絡(luò)規(guī)模的提升:從Rubin的144個(gè)GPU芯片scaling到Rubin Ultra的576個(gè)GPU芯片。但這僅是硬件創(chuàng)新的一部分。

在軟件方面,英偉達(dá)發(fā)布了Nvidia Dynamo——這是一個(gè)致力于簡(jiǎn)化推理部署和擴(kuò)展的開放式AI引擎技術(shù)棧。

它有望超越現(xiàn)有的VLLM和SGLang解決方案,不僅提供了VLLM所不具備的多項(xiàng)功能,還實(shí)現(xiàn)了更高的性能。

結(jié)合硬件層面的創(chuàng)新,Dynamo將進(jìn)一步推動(dòng)吞吐量與交互性能力的提升,尤其在高交互性應(yīng)用場(chǎng)景中可以實(shí)現(xiàn)更高的吞吐量。

圖片

Dynamo為現(xiàn)有推理加速技術(shù)棧引入了以下幾項(xiàng)關(guān)鍵創(chuàng)新功能:

1. 智能路由(Smart Router)

2. GPU任務(wù)規(guī)劃器(GPU Planner)

3. 增強(qiáng)型NCCL集合通信框架(Improved NCCL Collective)

4. NIXL(NVIDIA Inference Transfer Engine)

5. NVMe KV-Cach智能卸載系統(tǒng)

智能路由

智能路由管理系統(tǒng)在多GPU推理部署環(huán)境中,可以智能地將輸入序列中的每個(gè)token精確分配至負(fù)責(zé)預(yù)填充和解碼任務(wù)的GPU。

在預(yù)填充階段,系統(tǒng)確保輸入token均勻分布到執(zhí)行預(yù)填充任務(wù)的各個(gè) GPU,從而避免在專家模塊上出現(xiàn)性能瓶頸。

同樣,在解碼階段,系統(tǒng)著重確保序列長(zhǎng)度和請(qǐng)求在執(zhí)行解碼的各個(gè)GPU之間實(shí)現(xiàn)最優(yōu)分配和負(fù)載均衡。

對(duì)于那些訪問頻率較高的專家模塊,GPU任務(wù)規(guī)劃器還可以創(chuàng)建額外的副本以維持整體負(fù)載平衡。

此外,該路由系統(tǒng)還能在服務(wù)于同一模型的多個(gè)副本之間實(shí)現(xiàn)負(fù)載均衡,這是當(dāng)前主流推理引擎(如vLLM等)所不具備的重要特性。

圖片

GPU任務(wù)規(guī)劃器

GPU任務(wù)規(guī)劃器是一個(gè)智能化的資源調(diào)度系統(tǒng),可以自動(dòng)管理預(yù)填充和解碼節(jié)點(diǎn)的動(dòng)態(tài)擴(kuò)縮。

該系統(tǒng)能夠根據(jù)全天負(fù)載的自然波動(dòng)情況,靈活調(diào)整計(jì)算節(jié)點(diǎn)數(shù)量。在MoE中,規(guī)劃器可以在預(yù)填充和解碼兩類節(jié)點(diǎn)上實(shí)現(xiàn)多個(gè)專家模塊之間的負(fù)載均衡。

當(dāng)某些專家模塊負(fù)載較高時(shí),規(guī)劃器會(huì)自動(dòng)配置額外的GPU資源提供計(jì)算支持。

此外,系統(tǒng)還能根據(jù)實(shí)時(shí)需求在預(yù)填充和解碼節(jié)點(diǎn)之間進(jìn)行動(dòng)態(tài)資源重分配,從而最大化資源利用效率。

該系統(tǒng)的一個(gè)重要特性是支持動(dòng)態(tài)調(diào)整解碼和預(yù)填充任務(wù)的GPU分配比例。

這項(xiàng)功能在深度研究等特定場(chǎng)景中特別有價(jià)值:由于這類應(yīng)用需要處理海量上下文信息,但實(shí)際生成的內(nèi)容相對(duì)較少,因此需要分配更多資源用于預(yù)填充處理而非解碼任務(wù)。

圖片

增強(qiáng)型NCCL集合通信框架

英偉達(dá)在其集合通信庫(kù)(NCCL)中引入了一組全新的低延遲通信算法。這些算法可以將小規(guī)模消息傳輸?shù)难舆t降低至原來的1/4,從而顯著提升整體推理性能和吞吐量。

在今年的GTC大會(huì)上,Sylvain的技術(shù)演講深入介紹了這些創(chuàng)新特性,重點(diǎn)闡述了新開發(fā)的one-shot和two-shot全規(guī)約算法,這些算法是性能提升的核心所在。

值得注意的是,AMD的RCCL庫(kù)本質(zhì)上是NVIDIA NCCL的一個(gè)分支復(fù)制版本。

因此,Sylvain主導(dǎo)的NCCL架構(gòu)重構(gòu)不僅進(jìn)一步鞏固了CUDA生態(tài)系統(tǒng)的技術(shù)優(yōu)勢(shì),還迫使AMD團(tuán)隊(duì)不得不投入數(shù)千工程師小時(shí)來將英偉達(dá)的重構(gòu)更新同步到RCCL。在AMD忙于同步代碼變更的同時(shí),英偉達(dá)則可以繼續(xù)專注于推進(jìn)集合通信軟件棧和算法的創(chuàng)新發(fā)展。

圖片

NIXL

為了實(shí)現(xiàn)預(yù)填充節(jié)點(diǎn)和解碼節(jié)點(diǎn)之間的高效數(shù)據(jù)傳輸,需要采用低延遲、高帶寬的通信傳輸庫(kù)。

NIXL采用了創(chuàng)新的InfiniBand GPU異步初始化(IBGDA)技術(shù)。在當(dāng)前的NCCL架構(gòu)中,控制流需要通過CPU代理線程進(jìn)行處理,而數(shù)據(jù)流可以直接傳輸?shù)絅IC,無需經(jīng)過CPU緩沖區(qū)。

而采用IBGDA技術(shù)后,控制流和數(shù)據(jù)流都能夠繞過CPU,實(shí)現(xiàn)從GPU到網(wǎng)絡(luò)接口卡的直接傳輸。

此外,NIXL還通過抽象化簡(jiǎn)化了各種存儲(chǔ)和內(nèi)存設(shè)備之間的數(shù)據(jù)傳輸復(fù)雜度,包括簡(jiǎn)化CXL、本地NVMe 、遠(yuǎn)程N(yùn)VMe 、CPU內(nèi)存、遠(yuǎn)程 GPU內(nèi)存和本地GPU內(nèi)存。

圖片

NVMe KV-Cache智能卸載系統(tǒng)

KV緩存智能卸載管理系統(tǒng)采用創(chuàng)新方式,將用戶歷史對(duì)話產(chǎn)生的鍵值緩存保存在NVMe存儲(chǔ)設(shè)備中,而不是直接廢棄,從而顯著提升了整體預(yù)填充效率。

圖片

在用戶與LLM進(jìn)行多輪對(duì)話時(shí),模型需要將對(duì)話歷史中的問題和回答作為上下文輸入進(jìn)行處理。

在傳統(tǒng)實(shí)現(xiàn)中,推理系統(tǒng)會(huì)丟棄用于生成早期對(duì)話的鍵值緩存,這導(dǎo)致系統(tǒng)在處理后續(xù)對(duì)話時(shí)需要重新計(jì)算這些緩存內(nèi)容,造成重復(fù)計(jì)算。

而采用NVMe KV緩存卸載技術(shù)后,當(dāng)用戶暫時(shí)離開對(duì)話時(shí),系統(tǒng)會(huì)將鍵值緩存臨時(shí)保存到NVMe存儲(chǔ)系統(tǒng)中。

當(dāng)用戶返回并繼續(xù)對(duì)話時(shí),系統(tǒng)可以快速?gòu)腘VMe存儲(chǔ)中恢復(fù)這些緩存數(shù)據(jù),避免了重復(fù)計(jì)算的開銷。

這項(xiàng)創(chuàng)新帶來兩個(gè)重要優(yōu)勢(shì):

  1. 提升資源利用效率:釋放預(yù)填充節(jié)點(diǎn)的處理能力,支持更高的并發(fā)量,或降低所需的預(yù)填充部署規(guī)模
  2. 優(yōu)化用戶體驗(yàn):由于直接檢索緩存比重新計(jì)算更快,顯著減少了首個(gè)token的生成延遲

圖片

根據(jù)DeepSeek在GitHub上發(fā)布的第六天研發(fā)記錄顯示,其磁盤KV緩存的命中率達(dá)到了56.3%,這一數(shù)據(jù)表明其預(yù)填充部署效率獲得了顯著提升。

實(shí)踐表明,在用戶進(jìn)行多輪對(duì)話場(chǎng)景中,此類部署的典型KV緩存命中率通常在50-60%之間。

雖然部署NVMe存儲(chǔ)解決方案需要一定成本投入,存在一個(gè)效益平衡點(diǎn):對(duì)于較短的對(duì)話,直接重新計(jì)算比重新加載更經(jīng)濟(jì)高效;但在長(zhǎng)對(duì)話場(chǎng)景下,該方案可以帶來巨大的性能收益。

對(duì)于持續(xù)關(guān)注DeepSeek開源周的開發(fā)者來說,上述技術(shù)都不會(huì)陌生。

在英偉達(dá)完善Dynamo技術(shù)文檔的同時(shí),上述內(nèi)容為開發(fā)者提供了快速了解這些技術(shù)的絕佳渠道。

這些創(chuàng)新功能的集成帶來了全方位的推理性能提升。英偉達(dá)還特別介紹了Dynamo在現(xiàn)有H100節(jié)點(diǎn)上部署后帶來的性能改進(jìn)。

從本質(zhì)上說,Dynamo實(shí)現(xiàn)了對(duì)DeepSeek創(chuàng)新技術(shù)的民主化,讓整個(gè)開發(fā)社區(qū)都能夠共享開源模型技術(shù)的最新成果。這意味著不僅是那些擁有強(qiáng)大推理部署工程團(tuán)隊(duì)的頂級(jí)AI實(shí)驗(yàn)室,所有開發(fā)者都能夠部署高效的推理系統(tǒng)。

最后,由于Dynamo在分布式推理和專家并行計(jì)算方面具有廣泛的適用性,它在獨(dú)立復(fù)制和高交互性部署場(chǎng)景中表現(xiàn)尤為出色。

當(dāng)然,要充分發(fā)揮Dynamo的性能優(yōu)勢(shì)并實(shí)現(xiàn)顯著改進(jìn),必須具備多節(jié)點(diǎn)的硬件基礎(chǔ)設(shè)施。

圖片

AI總擁有成本暴降99.97%

在結(jié)束Blackwell介紹后,老黃通過一個(gè)引人注目的說法強(qiáng)調(diào)了技術(shù)創(chuàng)新的影響力——這些創(chuàng)新使他成為了「降價(jià)推動(dòng)者」。

具體而言,Blackwell相較于上一代Hopper架構(gòu),實(shí)現(xiàn)了高達(dá)68倍的性能提升,使總成本降低了87%。

而下一代Rubin架構(gòu)的性能預(yù)計(jì)將比Hopper提升900倍,預(yù)計(jì)可使成本降低99.97%。

顯然,英偉達(dá)正在保持高速的技術(shù)創(chuàng)新步伐。正如老黃所說,「一旦Blackwell開始規(guī)模化出貨,Hopper即使免費(fèi)提供也將無人問津」。

長(zhǎng)期以來,SemiAnalysis持續(xù)建議生態(tài)系統(tǒng)合作伙伴優(yōu)先考慮部署B(yǎng)200和GB200 NVL72等新一代系統(tǒng),而非采購(gòu)H100或H200。

事實(shí)上,H100租賃價(jià)格預(yù)測(cè)模型正是基于老黃所闡述的這一原理。

高級(jí)分析師綜合考慮了未來市場(chǎng)裝機(jī)量預(yù)測(cè)、集群總擁有成本以及下一代芯片性能等因素,構(gòu)建了完整的價(jià)格預(yù)測(cè)曲線。

該預(yù)測(cè)框架迄今表現(xiàn)出色:他們于2024年4月首次向客戶發(fā)布的H100租賃價(jià)格預(yù)測(cè)模型,從2024年初至今的預(yù)測(cè)準(zhǔn)確率高達(dá)98%。

圖片

首個(gè)光學(xué)封裝CPO,功耗節(jié)省12%

在主題演講中,英偉達(dá)發(fā)布了其首個(gè)用于擴(kuò)展型交換機(jī)的同封裝光學(xué)解決方案。

這項(xiàng)技術(shù)將傳統(tǒng)的光學(xué)收發(fā)器替換為外部激光源(ELS),并將光學(xué)引擎(OE)直接集成在芯片硅片旁邊,實(shí)現(xiàn)數(shù)據(jù)通信。

在新架構(gòu)中,光纖電纜不再連接傳統(tǒng)收發(fā)器端口,而是直接插入交換機(jī)上與光學(xué)引擎相連的專用端口。

CPO技術(shù)帶來的主要優(yōu)勢(shì)是顯著降低功耗,這源于多個(gè)方面:

  1. 交換機(jī)本身不再需要數(shù)字信號(hào)處理器(DSP)
  2. 可以使用更低功率的激光光源
  3. 雖然使用線性可插拔光學(xué)(LPO)收發(fā)器也能實(shí)現(xiàn)部分節(jié)能,但CPO獨(dú)特的優(yōu)勢(shì)在于支持更大的交換機(jī)基數(shù),使網(wǎng)絡(luò)層級(jí)從三層簡(jiǎn)化為兩層
  4. 減少網(wǎng)絡(luò)層級(jí)不僅消除了一整層交換設(shè)備,還帶來了可觀的成本和能耗節(jié)省

根據(jù)SemiAnalysis分析,在部署400,000個(gè)GB200 NVL72設(shè)備的場(chǎng)景中,從傳統(tǒng)的基于DSP收發(fā)器的三層網(wǎng)絡(luò)遷移到基于CPO的兩層網(wǎng)絡(luò),可以實(shí)現(xiàn)高達(dá)12%的集群總功耗節(jié)省,將收發(fā)器功耗占比從計(jì)算資源的10%降低到僅1%。

圖片

英偉達(dá)本次發(fā)布了多款采用CPO技術(shù)的交換機(jī)產(chǎn)品:

  • Quantum X-800 3400 CPO版本(原型于2024年GTC發(fā)布)

a.144個(gè)800 Gbps端口

b.總吞吐量:115Tbps

c.配置:144個(gè)MPO端口 + 18個(gè)ELS

d.預(yù)計(jì)2025年下半年推出

  • Spectrum-X以太網(wǎng)CPO交換機(jī)
  • 512個(gè)800 Gbps端口
  • 支持高速大基數(shù)配置,實(shí)現(xiàn)快速扁平化網(wǎng)絡(luò)拓?fù)?/span>
  • 預(yù)計(jì)2026年下半年推出

雖然此次發(fā)布已經(jīng)展現(xiàn)出突破性的技術(shù)創(chuàng)新,但高級(jí)分析師認(rèn)為這僅是英偉達(dá)在CPO領(lǐng)域的起步。

從長(zhǎng)遠(yuǎn)來看,CPO 技術(shù)在擴(kuò)展網(wǎng)絡(luò)中可能帶來更大的價(jià)值:它有潛力大幅提升GPU的網(wǎng)絡(luò)基數(shù)和總帶寬,實(shí)現(xiàn)更高效的扁平化擴(kuò)展網(wǎng)絡(luò)架構(gòu),突破當(dāng)前576個(gè)GPU的規(guī)模限制。

英偉達(dá)穩(wěn)坐王座,正重塑計(jì)算成本格局

The Information一篇文章稱,亞馬遜將Trainium芯片的價(jià)格定在H100的25%。

圖片

與此同時(shí),老黃會(huì)上表示「當(dāng) Blackwell大規(guī)模量產(chǎn)后,就算免費(fèi)送H100也沒人要」。

高級(jí)分析師認(rèn)為,后一種說法極具深意。

技術(shù)繼續(xù)驅(qū)動(dòng)著總擁有成本,在我們所見的各個(gè)領(lǐng)域(可能除了TPU),都能看到競(jìng)爭(zhēng)對(duì)手在復(fù)制英偉達(dá)的技術(shù)路線圖。與此同時(shí),老黃正在推動(dòng)技術(shù)發(fā)展的邊界。

新架構(gòu)、機(jī)架結(jié)構(gòu)、算法改進(jìn)和CPO技術(shù),每一項(xiàng)都體現(xiàn)了英偉達(dá)與競(jìng)爭(zhēng)對(duì)手的技術(shù)差異。

英偉達(dá)目前在幾乎所有領(lǐng)域都處于領(lǐng)先地位,當(dāng)競(jìng)爭(zhēng)對(duì)手追趕上來時(shí),他們就會(huì)在另一個(gè)進(jìn)步方向上推進(jìn)。

隨著英偉達(dá)保持年度更新節(jié)奏,SemiAnalysis預(yù)計(jì)這種趨勢(shì)將會(huì)持續(xù)。

雖然有人說ASIC是計(jì)算的未來,但從CPU時(shí)代就看到,一個(gè)快速改進(jìn)的通用平臺(tái)是很難被超越的。

英偉達(dá)正在用GPU重新創(chuàng)造這個(gè)平臺(tái),高級(jí)分析師預(yù)計(jì)他們將繼續(xù)引領(lǐng)行業(yè)發(fā)展。

想要追趕這位「營(yíng)收終結(jié)者」可不容易。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-05-06 15:39:53

DeepSeek-R英偉達(dá)開源

2024-05-27 00:50:00

2023-11-21 09:14:33

微軟Azure AI

2023-09-14 13:23:00

AI芯片

2023-03-22 10:09:26

AIChatGPT

2025-04-22 09:47:07

2025-11-04 16:01:03

英偉達(dá)AI服務(wù)器

2023-09-11 12:58:00

AI訓(xùn)練

2023-08-14 08:07:46

ChatGPTAI

2023-05-11 08:48:58

谷歌超級(jí)計(jì)算機(jī)

2023-09-10 12:37:38

模型英偉達(dá)

2024-03-13 11:49:04

人工智能Meta數(shù)據(jù)中心

2023-09-18 12:50:16

訓(xùn)練數(shù)據(jù)

2023-06-14 12:08:51

2023-07-13 23:16:19

英偉達(dá)GPU

2023-08-09 17:19:54

服務(wù)器計(jì)算

2023-09-27 12:57:37

AI研究

2023-08-06 13:01:34

AI開發(fā)

2024-09-05 14:10:00

AI計(jì)算

2025-11-05 09:00:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

国产精品高潮久久| 性xxxx视频| 欧美激情五月| 亚洲精品资源美女情侣酒店| 孩娇小videos精品| yellow在线观看网址| 亚洲国产精品激情在线观看| 91超碰在线电影| 色老头在线视频| 欧美日韩爆操| 亚洲香蕉伊综合在人在线视看| 91热视频在线观看| 亚洲日本天堂| 亚洲狠狠丁香婷婷综合久久久| 欧美另类高清视频在线| 国产aⅴ爽av久久久久成人| 美女久久一区| 欧美精品久久久久a| 国产精品久久久久久久av| 91精品短视频| 欧美精品九九99久久| 亚洲理论电影在线观看| 黄网页免费在线观看| 久久影院视频免费| 成人在线视频网址| 国产内射老熟女aaaa∵| 琪琪一区二区三区| 4k岛国日韩精品**专区| 国产一级免费av| 久久久久免费av| 在线性视频日韩欧美| 老司机福利av| 女同久久另类99精品国产| 欧美一级久久久久久久大片| mm131国产精品| 成人黄页网站视频| 色婷婷一区二区| 熟女性饥渴一区二区三区| 国内激情视频在线观看| 精品久久久久久久久久久| a级网站在线观看| 日本视频不卡| 国产精品高潮呻吟| 一区精品在线| 黄色一级大片在线免费看产| 国产精品久久久久永久免费观看| 亚洲国产一区二区精品视频| 国产高清视频在线观看| 久久欧美一区二区| 免费在线成人av电影| 先锋av资源站| 久久色中文字幕| 青青影院一区二区三区四区| 国产中文字幕在线看| 久久毛片高清国产| 视频一区视频二区视频三区高| 亚洲av成人精品一区二区三区在线播放 | 色乱码一区二区三区在线| 亚洲电影有码| 欧美日产国产精品| 午夜xxxxx| 综合激情网...| 日韩av影院在线观看| 久久丫精品国产亚洲av不卡| 久久不见久久见国语| 日韩在线精品一区| 欧美日韩在线国产| 国产婷婷精品| 国产成人在线精品| 一本一道精品欧美中文字幕| 国产精品一卡二| 狠狠久久综合婷婷不卡| 香蕉视频911| 欧美国产在线观看| 日韩中文在线字幕| brazzers在线观看| 色美美综合视频| 色呦色呦色精品| 日韩在线网址| 亚洲精品中文字幕有码专区| 成人一级黄色大片| 精品成人免费| 国产精品日韩欧美| 欧美 日韩 国产 精品| 久久久久久久久蜜桃| 一区二区高清视频| 91九色在线看| 欧美图区在线视频| 亚洲美女高潮久久久| 久久99国产精品视频| 精品国产拍在线观看| 久久久久久久久久免费视频| 麻豆精品在线观看| 国产高清一区视频| 国产精品毛片一区二区三区四区| 亚洲欧美日韩国产手机在线 | 欧美精品一区视频| 黄免费在线观看| 韩日欧美一区| 国产在线观看不卡| 黄色在线播放| 亚洲国产成人porn| 亚洲怡红院在线| 精品在线观看入口| 欧美激情影音先锋| 亚洲一区二区色| 91老师国产黑色丝袜在线| ijzzijzzij亚洲大全| 小黄鸭精品aⅴ导航网站入口| 欧美一区二区福利在线| 国产精品天天干| 99热精品在线| 91av一区二区三区| 免费不卡视频| 欧美亚洲国产怡红院影院| 亚洲久久久久久| 午夜精彩国产免费不卡不顿大片| 国产精品视频一区二区高潮| 在线观看xxx| 亚洲一区在线看| 久久综合在线观看| 色婷婷热久久| 国产精品久久精品| 免费资源在线观看| 欧美日韩亚洲视频一区| www.17c.com喷水少妇| 中国精品18videos性欧美| 国产精品普通话| www.在线播放| 欧美性生交片4| xxx在线播放| 久久三级视频| 免费一区二区三区在在线视频| 美女搞黄视频在线观看| 日韩一级免费观看| 精品人伦一区二区三区| 青娱乐91视频| 久久99久久久久| 日韩精品av一区二区三区| 久久九九国产视频| 日韩成人av在线资源| 国模精品视频一区二区| 性生活黄色大片| 亚洲一区二区在线播放相泽| 免费看三级黄色片| 欧美精品1区| 亚洲精品欧美日韩| 97影院秋霞午夜在线观看| 欧美日本在线播放| 四虎884aa成人精品| 国产乱妇无码大片在线观看| 亚洲黄色网址在线观看| 九九99久久精品在免费线bt| 欧美成人精品一区二区三区| 国内精品国产成人国产三级| 夜夜精品浪潮av一区二区三区| 俄罗斯女人裸体性做爰| 亚洲私拍自拍| 免费观看成人高| 成人性片免费| 久久精品视频免费播放| 性生交大片免费看女人按摩| 亚洲第一成年网| 成人国产精品久久久网站| 人妖欧美一区二区| 国产av第一区| 欧美福利在线播放网址导航| 日韩av毛片网| 蜜桃av在线免费观看| 精品久久人人做人人爰| 国产小视频在线免费观看| 国产亚洲综合在线| 日韩精品aaa| 尤物精品在线| 日韩av电影免费在线| 成人亚洲精品| 性色av一区二区三区红粉影视| 可以在线观看的av网站| 欧美精品久久一区二区三区| 九九九国产视频| 国产色爱av资源综合区| 欧美污在线观看| 亚洲欧美日韩精品一区二区 | 亚州av在线播放| 欧美影院午夜播放| 欧美人妻一区二区| 久久久久久久久97黄色工厂| 51自拍视频在线观看| 亚洲综合丁香| 熟妇熟女乱妇乱女网站| 日韩成人av在线资源| 成人精品一区二区三区| 涩涩视频在线播放| 久久久999精品视频| 水莓100国产免费av在线播放| 欧美日本一区二区三区四区| 国产精品久久久久久99| 日韩理论片中文av| 国产免费无遮挡吸奶头视频| 国产成a人无v码亚洲福利| 天天干天天草天天| 国产精品美女久久久浪潮软件| 自拍偷拍一区二区三区| 国产传媒欧美日韩成人精品大片| 成人免费看片网址| 在线视频成人| 国产精品1234| 蜜桃视频在线观看免费视频| 久久99热精品| 青青青青在线| 亚洲夜晚福利在线观看| 色婷婷综合视频| 欧美一个色资源| 91在线精品入口| 在线日韩一区二区| 国产成人一区二区三区影院在线| 亚洲欧美乱综合| 黄色裸体一级片| 日本一区二区视频在线| 亚洲熟妇无码av| 91在线丨porny丨国产| 三日本三级少妇三级99| 久久99最新地址| 成人3d动漫一区二区三区| 在线综合亚洲| 人妻少妇精品无码专区二区| 亚洲欧美综合| 51xx午夜影福利| 亚洲一区二区| 日韩 欧美 自拍| 国产精品二区不卡| 在线视频不卡一区二区| 五月久久久综合一区二区小说| 亚洲国产欧洲综合997久久| 日本电影一区二区| 日韩亚洲视频在线| 成人高清av| 亚洲人成人77777线观看| 精品国产精品| 亚洲高清资源综合久久精品| 成人羞羞动漫| 亚洲高清不卡一区| 99久久99视频只有精品| 最新国产精品久久| 91精品久久久久久久蜜月| 国产av第一区| 国产一区日韩一区| 妞干网在线视频观看| 国产欧美在线| 欧在线一二三四区| 日韩电影在线一区二区| wwww.国产| 国产一区视频导航| 男人添女人荫蒂国产| 懂色av中文字幕一区二区三区| 国产性生活毛片| 91老司机福利 在线| 欧美激情视频二区| 亚洲三级在线看| 久草网在线观看| 精品久久久久久亚洲国产300 | 爱福利在线视频| 91精品成人久久| 日韩不卡在线| 51精品国产人成在线观看| 99国产精品免费网站| 九色91视频| 久久麻豆精品| 免费超爽大片黄| 日韩激情中文字幕| 在线视频观看一区二区| 成人中文字幕电影| 一区二区伦理片| 亚洲视频在线观看一区| 国产精品suv一区二区| 日本二三区不卡| 国产人妻精品一区二区三| 亚洲激情视频在线观看| 3d成人动漫在线| 欧美精品久久一区二区| 男人皇宫亚洲男人2020| 114国产精品久久免费观看| 台湾色综合娱乐中文网| 在线观看福利一区| 一区二区高清| 不卡中文字幕在线观看| av爱爱亚洲一区| 蜜桃av免费观看| 亚洲成人av中文| 一级二级三级视频| 日韩风俗一区 二区| 免费网站黄在线观看| 午夜精品福利视频| 高清一区二区中文字幕| 欧美一区二区高清在线观看| 国模 一区 二区 三区| 狠狠热免费视频| 99精品久久只有精品| 亚洲欧洲综合网| 欧美性xxxxxxxxx| 午夜美女福利视频| 中文字幕精品一区久久久久| 免费在线小视频| 91香蕉视频在线下载| 国产影视一区| a在线视频观看| 国产iv一区二区三区| 最新日韩免费视频| 欧美性猛交丰臀xxxxx网站| 亚洲精品国产片| 久久精品国产欧美亚洲人人爽| 欧美gay视频| 国产精品日韩一区二区免费视频| 久久久五月天| gai在线观看免费高清| 国产校园另类小说区| 伊人久久综合视频| 亚洲缚视频在线观看| 国内高清免费在线视频| 91精品在线国产| 99国产精品免费视频观看| 蜜臀视频一区二区三区| 久久久不卡网国产精品二区| 五月天婷婷丁香| 精品久久一区二区三区| 成人免费高清观看| 99re视频在线观看| 中文字幕亚洲无线码在线一区| 91精品国产乱码久久久| 亚洲欧美制服丝袜| 麻豆成全视频免费观看在线看| 超碰97在线播放| 欧美精品网站| 亚洲成人福利视频| 亚洲激情自拍偷拍| 一级aaaa毛片| 久久激情视频久久| 自拍偷拍亚洲图片| 制服丝袜综合日韩欧美| 麻豆freexxxx性91精品| 色喇叭免费久久综合网| 日日鲁鲁鲁夜夜爽爽狠狠视频97 | 精品久久久久久久大神国产| 欧美视频一二区| 97在线日本国产| 欧美调教在线| 丰满少妇被猛烈进入高清播放| 91免费看`日韩一区二区| 亚洲黄色免费观看| 亚洲欧美日韩精品| 国产成人精品视频在线观看| 桃色av一区二区| 超碰在线97av| 欧美午夜久久| 欧美熟妇精品一区二区蜜桃视频 | aaa人片在线| 亚洲成人999| 美女一区网站| 天堂资源在线亚洲视频| 精品一区二区在线播放| 加勒比婷婷色综合久久| 精品国产乱码久久| 新版的欧美在线视频| 日韩久久久久久久| 精品一区二区免费在线观看| 永久看片925tv| 亚洲国产精品女人久久久| 成人av观看| 中文字幕精品—区二区日日骚| 国产不卡视频一区二区三区| 亚洲免费激情视频| 国产亚洲日本欧美韩国| 午夜久久av| 黄www在线观看| 亚洲丝袜自拍清纯另类| 国产成人自拍一区| 国产精品av在线播放| 亚洲国产不卡| 插吧插吧综合网| 日韩一区二区三区四区五区六区| 国产传媒在线观看| 欧美久久电影| 国产成人午夜精品影院观看视频 | 亚洲欧洲在线播放| 国产精品色婷婷在线观看| 国产中文字幕视频在线观看| 国产精品九色蝌蚪自拍| 天天综合网在线| 成人性生交大片免费看视频直播| 亚洲国产婷婷| 三级黄色免费观看| 精品在线观看国产| 亚洲精品a区| 亚洲国产精品三区| 午夜伊人狠狠久久| 中文字幕在线免费| 鲁丝一区鲁丝二区鲁丝三区| 国产精品一区二区三区乱码 | 国产精品xx| www亚洲国产|