精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

英偉達再破世界紀錄,每秒1000 token!剛剛,全球最快Llama 4誕生

人工智能 新聞
英偉達,親手打破了自己的天花板!剛剛,Blackwell單用戶每秒突破了1000個token,在Llama 4 Maverick模型上,再次創下了AI推理的世界紀錄。在官博中,團隊放出了不少絕密武器。

你以為,AI推理的速度已經夠快了?

不,英偉達還能再次顛覆你的想象——就在剛剛,他們用Blackwell創下了AI推理的新紀錄。

圖片

僅僅采用單節點(8顆Blackwell GPU)的DGX B200服務器,英偉達就實現了Llama 4 Maverick模型每秒單用戶生成1000個token(TPS/user)的驚人成績!

圖片

單節點使用8塊B200 GPU

這項速度記錄,由AI基準測試服務Artificial Analysis獨立測量。

圖片

而且,更令人咋舌的是,單臺服務器(GB200 NVL72,配備72顆Blackwell GPU)的整體吞吐量,已經達到了72,000 TPS!

圖片

GB200 NVL72液冷機架原型機

這場速度革命的幕后,是一整套精心布局的技術組合拳——

  • 使用TensorRT-LLM優化框架和EAGLE-3架構訓練推測解碼草稿模型;
  • 在GEMM、MoE及Attention計算中全面應用FP8數據格式,有效縮小模型體積并提高計算效率;
  • 應用CUDA內核優化技術(如空間分區、GEMM權重重排、Attention內核并行優化、程序化依賴啟動(PDL)等);
  • 運算融合(如FC13+SwiGLU、FC_QKV+attn_scaling、AllReduce+RMSnorm融合)。

由此,Blackwell的性能潛力徹底被點燃,一舉實現了4倍加速,直接把之前的最強Blackwell基線甩在身后!

迄今測試過最快Maverick實現

這次優化措施在保持響應準確度的同時,顯著提升了模型性能。

英偉達針對GEMM(通用矩陣乘法)、MoE(混合專家模型)及Attention(注意力)運算運用了FP8數據類型,旨在減小模型體積,并充分利用Blackwell Tensor Core技術所帶來的高FP8吞吐量優勢。

如下表所示,采用FP8數據格式后,模型在多項評估指標上的準確度可與Artificial Analysis采用BF16數據格式(進行測試)所達到的準確度相媲美:

圖片

為何減少延遲至關重要?

大部分用生成式AI的場景,都要在吞吐量(throughput)和延遲(latency)之間找一個平衡點,好讓很多用戶同時使用時,都能有個「還不錯」的體驗。

但是,有些關鍵場景,比如要迅速做出重要決策的時候,「響應速度」就變得特別重要,哪怕一點延遲都可能帶來嚴重后果。

無論你想要的是同時處理盡可能多的請求,還是希望既能處理很多請求、響應又比較快,還是只想最快地服務單個用戶(即最小化單個用戶的延遲),Blackwell的硬件都是最佳選擇。

下圖概述了英偉達在推理過程中應用的內核優化和融合(以紅色虛線框標示)。

圖片

英偉達實現了若干低延遲GEMM內核,并應用了各種內核融合(如FC13+SwiGLU、FC_QKV+attn_scaling以及AllReduce+RMSnorm),從而使Blackwell GPU在最小延遲場景下表現出色。

CUDA內核優化與融合

在內核優化與融合方面,英偉達采用了以下幾項關鍵技術:

  • 空間分區與高效內存加載

利用空間劃分(也稱為warp專業化)并設計GEMM內核,可以高效的方式從內存中加載數據,從而最大限度地利用NVIDIA DGX所提供的巨大內存帶寬——總計64TB/s。

  • GEMM權重重排

將GEMM權重以一種優化的swizzled格式進行重排。

由此可以確保在使用Blackwell第五代Tensor Core完成矩陣乘法計算后,從Tensor內存加載計算結果時能夠獲得更理想的數據布局。

  • Attention內核并行優化

通過沿K和V張量的序列長度維度對計算進行劃分,優化了Attention內核的性能,使得計算任務能夠在多個CUDA線程塊上并行執行。

此外,還利用分布式共享內存機制,在同一線程塊集群內的不同線程塊之間高效地進行結果規約,從而避免了訪問全局內存的需要。

  • 運算融合

通過啟用不同運算之間的融合,來減少內核執行間的開銷以及內存加載/存儲的次數。

例如,將AllReduce運算與緊隨其后的RMSNorm運算及量化(Quantize)運算融合成單一的CUDA內核,以及將SwiGLU運算與其前置的GEMM運算進行融合。

程序化依賴啟動(PDL)

程序化依賴啟動(PDL)是一項CUDA功能,它能夠減少同一CUDA流上兩個連續CUDA內核執行之間的GPU空閑時間,甚至允許這兩個內核部分重疊執行。

默認情況下,當多個內核在同一個CUDA流上啟動時,第二個內核必須等待第一個內核執行完畢后才能開始。

這種機制會導致兩個主要的性能問題:

  • 其一,兩個連續的內核執行之間會產生微小的間隙(如下圖所示),在此期間GPU處于閑置狀態。
  • 其二,當第一個內核的執行接近尾聲時,它可能仍會占用一部分流式多處理器(SM)來完成剩余的CUDA塊計算,這使得GPU上的其他SM處于空閑,從而導致GPU整體計算能力的利用率不足。

圖片

通過在CUDA中運用程序化依賴啟動API,英偉達允許次級內核(secondary kernel)在主內核(primary kernel)仍在運行時就開始執行。

在初始準備階段(preamble period),次級內核可以執行那些不依賴于主內核執行的計算任務,并加載相應的數據。

這不僅消除了兩個連續內核之間的執行間隙,也顯著提升了GPU的利用率;因為當主內核僅占用GPU上的部分SM時,其余空閑的SM便可以開始運行次級內核。

圖片

推測解碼

推測解碼(Speculative Decoding)是一種廣受歡迎的技術,用于在不犧牲生成文本質量的前提下,加速LLM的推理速度。

該技術通過一個規模更小、速度更快的「草稿」模型來預測一個推測token序列,然后由規模更大(通常也更慢)的LLM并行驗證這些token。

其加速效果源于:在目標模型的一次迭代中,有機會生成多個token,代價則是草稿模型帶來的一些額外開銷。

圖片

端到端的工作流

首先,在目標模型完成上下文階段(此階段亦會生成token t1)之后,草稿模型會迅速生成一連串潛在的token(例如d2-d4)。

隨后,目標模型進入生成階段,在這一階段,它會針對整個草稿序列,一次性地并行驗證(或生成)每個位置的下一個token。

如圖所示,如果草稿token與目標模型自身將要生成的token相匹配,目標模型便可能「接受」其中的若干token(如d2、d3),同時「拒絕」其他的token(如d4)。

這個循環不斷重復:被接受的token得以保留;若發生拒絕(例如,在d4被拒絕后),目標模型會提供正確的下一個token(如t4);然后,草稿模型會生成一個新的推測序列(例如d5-d7)。

通過并行驗證多個token——而不是依賴(速度較慢的)目標模型逐個生成它們——并充分利用草稿模型的快速推測能力,系統能夠實現顯著的速度提升,尤其是當草稿模型的預測準確率較高時。

「接受長度(AL)」定義為在單次驗證步驟中,平均能夠成功生成的token數量。

AL值越高,加速效果越顯著。

對此,英偉達采用了一種基于EAGLE3的架構作為其推測解碼方法,主要通過調整推測層中前饋網絡(FFN)的大小來優化接受長度(AL)。

在推理過程中,需要在目標模型的前向傳播階段記錄低、中、高三個層級的特征(即初始、中間及末端解碼層輸出的隱藏狀態)。

之后,再將這些隱藏狀態與token嵌入相結合,并將結果輸入到推測層。該推測層隨后以自回歸方式生成一個草稿token序列,供目標模型進行并行驗證。

推測層的開銷雖然不大,但也不可忽視。因此,關鍵的挑戰在于如何在草稿長度與端到端加速效果之間取得理想的平衡。

草稿長度越長,AL通常也越高,但相應地,運行草稿模型所產生的額外成本也會增加。根據英偉達在下方實驗中展示的結果,當草稿長度設置為3時,可獲得最佳的加速效果。

圖片

通過CUDA Graph和重疊調度器減少主機端開銷

推測解碼的另一個挑戰在于減少主模型與草稿模型之間的通信和同步開銷。

如果英偉達將采樣/驗證邏輯置于主機端,便會在主機與設備之間引入額外的同步點,進而破壞CUDA Graph的完整性。

因此,英偉達選擇將驗證邏輯保留在設備端,從而能夠將目標模型的前向傳播、驗證邏輯以及草稿模型的前向傳播都整合到同一個CUDA Graph中。

此外,英偉達還啟用了TensorRT-LLM的重疊調度器,以進一步讓當前迭代的模型前向傳播與下一次迭代的輸入準備及CUDA Graph啟動過程實現重疊。

使用torch.compile()優化草稿模型層

由于驗證邏輯是采用Torch原生操作在設備端實現的,這導致英偉達最終生成了大量細小的Torch原生內核。

手動融合這些內核不僅復雜,且容易出錯。

為此,英偉達采用torch.compile(),借助OpenAI Triton的能力來自動完成這部分內核的融合,并生成最優化的版本。

這一舉措幫助英偉達將草稿模型的開銷從25%成功降低到了18%(當草稿長度為3時)。

總結

總的來說,這一創世界紀錄的速度,是強大Blackwell架構、自CUDA層面起直至上層應用的深度軟件優化,以及英偉達量身定制的推測解碼實現所帶來的顯著加速三者結合的成果,它直接響應了下一代AI交互應用對低延遲的迫切需求。

正如英偉達所展示的那樣,這些技術進步確保了即便是超大規模模型,也能夠提供足夠的處理速度和響應能力,以支持無縫的實時用戶體驗和復雜的AI智能體部署場景。

作者介紹

Yilin Fan

圖片

Yilin Fan是英偉達的高級深度學習工程師,專注于TensorRT/TensorRT-LLM的性能。

他擁有卡內基梅隆大學的軟件工程碩士學位和北京航空航天大學的學士學位。

在加入英偉達之前,他曾在小馬智行工作,負責優化與部署自動駕駛汽車上的深度學習模型。

Po-Han Huang

圖片

Po-Han Huang是英偉達的深度學習軟件工程師。

在過去六年多的時間里,他一直致力于通過TensorRT和CUDA優化來加速已訓練深度神經網絡模型的推理。

他擁有伊利諾伊大學厄巴納-香檳分校的電子與計算機工程碩士學位,專業知識涵蓋深度學習加速、計算機視覺和GPU架構。

Ben Hamm

圖片

Ben Hamm是英偉達的技術產品經理,專注于LLM推理性能與優化。

此前,他曾在亞馬遜擔任產品經理,負責Alexa的喚醒詞檢測機器學習棧。之后加入OctoAI并擔任LLM托管服務的產品經理。隨著公司被收購,他也跟著一起來到了英偉達。

有趣的是,作為一名計算機視覺的愛好者,他甚至還發明了一款AI驅動的貓門。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-03-22 15:35:48

新華三

2022-04-08 08:11:28

Python代碼

2024-02-20 13:31:26

AI訓練

2025-03-19 09:52:50

2018-07-16 14:53:18

海信

2021-07-09 17:49:46

腦機接口機器人工智能

2011-06-10 13:53:24

天河一號A

2016-06-16 16:55:02

華為

2016-12-26 15:05:36

2025-03-19 10:10:43

2014-04-24 09:45:23

ASC14HPL計算性能

2016-09-02 14:53:11

戴爾

2015-05-21 21:55:42

浪潮

2017-11-29 11:15:43

AMDEPYC服務器

2016-05-12 15:07:01

華為機架

2011-11-01 11:00:43

AMD處理器推土機FX-8150

2021-11-15 15:19:11

NVIDIA

2024-08-06 13:13:46

點贊
收藏

51CTO技術棧公眾號

精品久久久久国产| 国产不卡视频一区二区三区| 中文字幕精品在线视频| 国产色视频在线播放| 国产成人午夜| 91免费看视频| 国产日韩欧美视频在线| 中文字幕第28页| 成人在线电影在线观看视频| 欧美xxxxxxxx| 在线免费视频一区| 久久亚洲导航| 国产日韩影视精品| 成人毛片网站| 中文字幕日韩国产| 亚洲精品社区| 久久夜色精品国产| 精品无码一区二区三区| 综合激情久久| 欧美精三区欧美精三区| 每日在线更新av| av免费在线免费| 国产欧美一区二区三区网站| 国产精品国产亚洲精品看不卡15| 中文字幕人成人乱码亚洲电影| 一本色道久久精品| 欧美成人精品h版在线观看| 非洲一级黄色片| 国产精品玖玖玖在线资源| 91精品久久久久久久99蜜桃 | 欧美1区3d| 亚洲一二在线观看| 亚洲熟女乱综合一区二区三区| 日本成人一区二区| 欧美午夜电影网| 日韩精品视频一区二区在线观看| 国产区在线观看| 国产精品久久久久久久久免费相片 | 中文字幕乱码中文字幕| 国产亚洲毛片| 9.1国产丝袜在线观看| 欧美丰满艳妇bbwbbw| 国产精品国内免费一区二区三区| 亚洲人精品午夜在线观看| 欧美一区二区免费在线观看| 亚洲一区二区三区中文字幕在线观看| 在线综合亚洲欧美在线视频| 中文字幕一区二区三区四区在线视频| 涩涩在线视频| 狠狠久久亚洲欧美专区| 成年人网站免费视频| h片在线观看视频免费| 亚洲一区自拍偷拍| 欧美午夜小视频| 波多野结衣在线播放| 亚洲综合区在线| 日本男女交配视频| 91九色国产在线播放| 亚洲五月六月丁香激情| 国产av麻豆mag剧集| 高潮在线视频| 色综合久久综合网欧美综合网| 丰满少妇被猛烈进入高清播放| 黄色漫画在线免费看| 丰满岳妇乱一区二区三区| 99精品免费在线观看| 欧美成人app| 8x福利精品第一导航| 伊人免费视频二| jizz久久精品永久免费| 日韩成人在线视频| 国产ts在线播放| 成人免费av| 久久婷婷国产麻豆91天堂| 青娱乐国产在线视频| 国产欧美丝祙| 国产精品小说在线| 国产av无码专区亚洲av麻豆| 成人免费看视频| 欧美一区国产一区| 国产精品久久久久久福利| 亚洲精品成人少妇| 日韩中文字幕在线视频观看| yw.尤物在线精品视频| 91精品欧美一区二区三区综合在| 精品人妻二区中文字幕| 杨幂一区二区三区免费看视频| 一区二区中文字幕| 欧美精品久久久久性色| 免费在线成人| 成人性生交xxxxx网站| 日本国产在线观看| 中文在线一区二区| 日本精品久久久久久久久久| 都市激情综合| 欧美一区二区视频在线观看 | 国产精品久久久久久久成人午夜| 国产精品资源在线看| 欧美日韩最好看的视频| av在线播放观看| 色狠狠色狠狠综合| 老司机av网站| 日韩一级毛片| 韩国19禁主播vip福利视频| 成年人晚上看的视频| 国产精品一区在线观看你懂的| 久久久99爱| 福利在线视频网站| 精品视频免费在线| 成人免费毛片日本片视频| 91视频综合| 欧美在线一区二区三区四| 国产免费久久久| 久久九九久精品国产免费直播| 午夜啪啪福利视频| 外国成人直播| 亚洲第一视频网站| 国产精品免费人成网站酒店| 天堂资源在线中文精品| 国产精品福利视频| 欧美黄色激情| 欧美亚洲国产一区在线观看网站| 亚洲自拍偷拍精品| 重囗味另类老妇506070| 国产精品丝袜视频| 人妻一区二区三区免费| 成人免费视频在线观看| 欧美日韩在线成人| 亚洲动漫在线观看| 久久久之久亚州精品露出| 国产精品福利电影| 国产精品狼人久久影院观看方式| 免费男同深夜夜行网站| 日韩有码av| 91精品国产亚洲| 四虎永久在线观看| 亚洲成av人片在线观看无码| 日本wwww色| 欧美精品成人| 成人网中文字幕| 免费a级人成a大片在线观看| 欧美三级视频在线| 日本成人午夜影院| 日韩1区2区日韩1区2区| 午夜一区二区三区| 日本免费成人| 久久精品国产久精国产思思| 一区二区久久精品66国产精品 | 日韩中文不卡| 国产成人亚洲一区二区三区| 在线成人激情视频| 最好看的日本字幕mv视频大全| 久久综合久久99| 成人精品视频一区二区| 精品日韩一区| 国产精品专区h在线观看| 香蕉视频在线播放| 欧美久久高跟鞋激| 午夜少妇久久久久久久久| 国产成人av电影免费在线观看| 日韩一区二区高清视频| 精品自拍偷拍| 日本精品性网站在线观看| 国产三级视频在线播放线观看| 在线精品亚洲一区二区不卡| 亚洲黄色网址大全| 国产精品一区二区你懂的| 成人毛片100部免费看| 国内精品国产成人国产三级粉色 | 中文字幕欧美日韩va免费视频| 波多野结衣电车痴汉| 亚洲欧洲av另类| 白丝校花扒腿让我c| 国产一区二区三区的电影 | 国产一国产二国产三| av一本久道久久综合久久鬼色| 春日野结衣av| 欧美freesextv| 成人区精品一区二区| 原纱央莉成人av片| y97精品国产97久久久久久| 超碰在线播放97| 色综合久久综合网| 国产在线一卡二卡| 99久久久久久99| 中文字幕成人在线视频| 精品999日本| 日本精品一区| japanese色系久久精品| 国产精品久久久久久久久久久不卡 | 在线观看毛片视频| 一区二区三区国产豹纹内裤在线| 在线免费观看日韩av| 加勒比av一区二区| 欧美亚洲精品一区二区| 99久久精品网站| 久久av二区| 国产精品日本一区二区不卡视频| 91精品国产免费久久久久久| 黄色免费在线观看网站| 亚洲免费影视第一页| 99久久精品国产成人一区二区| 精品免费在线视频| 国产免费无码一区二区视频| 久久久久成人黄色影片| 不许穿内裤随时挨c调教h苏绵 | 三级外国片在线观看视频| 亚洲福利视频网| 99视频在线观看免费| 色八戒一区二区三区| 久久久综合久久| 日韩毛片精品高清免费| 一道本在线观看| 波多野结衣视频一区| 天堂av.com| 久久99国产精品麻豆| 男人靠女人免费视频网站| 欧美成人精品| 永久免费精品视频网站| 国产成人影院| 久久久久久久有限公司| 国产一区调教| 国产传媒欧美日韩| 日本一区二区三区视频在线看 | 国产欧美欧洲在线观看| 亚洲精品一区| 91精品成人久久| 超碰97免费在线| 久热在线中文字幕色999舞| 日本中文字幕在线看| 在线观看久久久久久| 精品美女视频在线观看免费软件| 精品一区二区三区四区| 亚洲av成人无码久久精品老人| 精品日韩99亚洲| 超碰福利在线观看| 精品免费视频.| 亚洲第一色网站| 日韩精品专区在线| wwwav在线播放| 日韩欧美一区在线观看| www.爱爱.com| 日韩一卡二卡三卡国产欧美| 国产口爆吞精一区二区| 制服丝袜在线91| 99国产在线播放| 精品免费视频一区二区| 内射后入在线观看一区| 欧美精品一区在线观看| 熟妇人妻系列aⅴ无码专区友真希 熟妇人妻av无码一区二区三区 | 国产成人在线中文字幕| 国产一区在线免费| 麻豆精品av| 欧美国产一二三区| 欧美一级本道电影免费专区| 亚洲免费视频一区| 亚洲综合色站| 激情五月婷婷六月| 国产精品久久国产愉拍| 免费在线观看的av网站| 久久三级福利| 鲁一鲁一鲁一鲁一av| 国产美女主播视频一区| 一本色道久久hezyo无码| 成人爱爱电影网址| 日韩人妻一区二区三区| 国产欧美一区二区在线| 国产精品国产三级国产传播| 亚洲一区影音先锋| 无码日韩精品一区二区| 欧美日本在线看| 亚洲欧美强伦一区二区| 日韩av在线网页| 欧美高清视频| 欧美精品第一页在线播放| 中文在线免费视频| 成人精品网站在线观看| 给我免费播放日韩视频| 日韩久久精品一区二区三区| 亚洲欧美在线专区| 国产中文字幕视频在线观看| 日本特黄久久久高潮 | 久久久美女艺术照精彩视频福利播放| 亚洲午夜久久久久久久国产| 亚洲激情第一区| 日韩人妻精品中文字幕| 91精品在线免费观看| 亚洲色欧美另类| 精品国产欧美一区二区五十路| 麻豆蜜桃在线| 国产精品视频公开费视频| 国产精东传媒成人av电影| 亚洲欧洲精品一区| 国产精品久久国产愉拍| www.桃色.com| 国产欧美日韩精品一区| 久久视频免费看| 欧美人牲a欧美精品| 日本激情一区二区三区| 日韩在线观看免费全集电视剧网站| 牛牛精品视频在线| 国产日韩在线播放| 免费欧美一区| 霍思燕三级露全乳照| 精品无码三级在线观看视频| 3d动漫精品啪啪一区二区下载 | 国产精品视频在线观看免费| 精品一区精品二区| 污视频在线看网站| 国产日韩欧美另类| blacked蜜桃精品一区| 9191国产视频| 精品在线一区二区三区| 91视频免费观看网站| 亚洲成人在线网站| 99视频在线观看免费| 色婷婷久久一区二区| 蜜桃精品在线| 久久伊人一区| 99精品视频免费观看| ass极品水嫩小美女ass| 国产精品人人做人人爽人人添| jizz国产在线观看| 亚洲国产精品小视频| 国内在线视频| av一区二区在线看| 中文视频一区| 日本一二三区在线| 亚洲视频中文字幕| 国产精品久久久久久久久毛片 | 亚洲欧美精品aaaaaa片| 一本色道久久综合精品竹菊| 亚洲人午夜射精精品日韩| 97精品视频在线播放| 果冻天美麻豆一区二区国产| 日韩精品免费一区| 国产高清不卡二三区| www青青草原| 日韩欧美中文字幕精品| √天堂8在线网| 97人人模人人爽人人少妇| 欧美日韩网站| 国产ts在线观看| 性做久久久久久久免费看| 日韩一级免费视频| 97超级碰碰碰久久久| 久久91精品| 天天干天天综合| 一区在线观看免费| 国产高清精品软件丝瓜软件| 欧美黑人狂野猛交老妇| 97成人在线| 免费毛片小视频| 欧美国产精品一区二区| 91尤物国产福利在线观看| 欧美xxxx做受欧美| 风间由美一区二区av101| 国产精品无码av在线播放| 久久亚洲综合av| 在线观看国产一区二区三区| 久久伊人91精品综合网站| 亚洲精品国产九九九| 久久视频这里有精品| 91女神在线视频| 91丨九色丨丰满| 久久久久久美女| 国产一区二区三区天码| www.com黄色片| 亚洲一区二区欧美日韩| 黄色免费在线播放| 成人性教育视频在线观看| 一区视频在线| 中文字幕 自拍| 56国语精品自产拍在线观看| av在线网页| 亚洲欧美影院| 99国产精品久久久| 中文字幕av免费观看| 欧美乱妇高清无乱码| 无码日韩精品一区二区免费| 国产三级三级看三级| 亚洲日本一区二区| 女人18毛片水真多18精品| 国产精品老牛影院在线观看| 欧美激情aⅴ一区二区三区| 好吊日免费视频| 欧美一区二区三区色| 亚洲一二三四| 超碰人人爱人人| 中国色在线观看另类| 男人天堂av网| 成人自拍性视频| 久久综合激情| 久久综合色综合| 爽爽爽爽爽爽爽成人免费观看| aaa国产精品视频| 精品亚洲视频在线| 色综合久久综合中文综合网| 日本aa在线| 中日韩在线视频|