精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

天下苦英偉達久矣!PyTorch官方免CUDA加速推理,Triton時代要來?

人工智能 新聞
近日,PyTorch 官方分享了如何實現無 CUDA 計算,對各個內核進行了微基準測試比較,并討論了未來如何進一步改進 Triton 內核以縮小與 CUDA 的差距。

在做大語言模型(LLM)的訓練、微調和推理時,使用英偉達的 GPU 和 CUDA 是常見的做法。在更大的機器學習編程與計算范疇,同樣嚴重依賴 CUDA,使用它加速的機器學習模型可以實現更大的性能提升。

雖然 CUDA 在加速計算領域占據主導地位,并成為英偉達重要的護城河之一。但其他一些工作的出現正在向 CUDA 發起挑戰,比如 OpenAI 推出的 Triton,它在可用性、內存開銷、AI 編譯器堆棧構建等方面具有一定的優勢,并持續得到發展。

近日,PyTorch 官宣要做「無英偉達 CUDA 參與的大模型推理」。在談到為什么要 100% 使用 Triton 進行探索時,PyTorch 表示:「Triton 提供了一條途徑,使大模型 能夠在不同類型的 GPU 上運行,包括英偉達、AMD、英特爾和其他基于 GPU 的加速器。

此外 Triton 還在 Python 中為 GPU 編程提供了更高的抽象層,使得使用 PyTorch 能夠比使用供應商特定的 API 更快地編寫高性能內核。」

圖片

在 PyTorch 博客中討論了使用流行的 LLM 模型(例如 Meta 的 Llama3-8B 和 IBM 的 Granite-8B Code)實現 FP16 推理的方法,其中計算是 100% 使用 OpenAI 的 Triton 語言執行的。

對于使用基于 Triton 內核的模型生成單個 token 的時間,PyTorch 能夠實現在英偉達 H100 GPU 上 Llama 和 Granite 的 CUDA 內核主導工作流程的 0.76-0.78 倍性能,以及在英偉達 A100 GPU 上的 0.62-0.82 倍。

圖片

圖 1. 在英偉達 H100 和 A100 上,Llama3-8B 和 Granite-8B 的 Triton 和 CUDA 變體的推理吞吐量比較。設置:批大小 = 2,輸入序列長度 = 512,輸出序列長度 = 256

也許告別英偉達的時候真要來了。

圖片

Transformer 塊的組成

PyTorch 團隊首先對基于 Transformer 的模型中發生的計算進行細分。下圖顯示了典型 Transformer 塊的「內核(kernel)」。

圖片

圖 2

Llama3 架構的核心操作總結如下:

  • 均方根歸一化(RMSNorm)
  • 矩陣乘法:Fused QKV
  • RoPE
  • 注意力
  • 矩陣乘法:輸出投影
  • RMSNorm
  • 矩陣乘法:Fused Gate + Up Projection
  • 激活函數:SiLU
  • 點乘(Element Wise Multiplication)
  • 矩陣乘法:Down Projection

這些操作中的每一個都是通過在 GPU 上執行一個(或多個)內核來計算的。雖然每個內核的細節在不同的 Transformer 模型中可能有所不同,但核心操作保持不變。例如,IBM 的 Granite 8B Code 模型在 MLP 層中使用偏置,與 Llama3 不同。此類更改確實需要對內核進行修改。典型的模型是這些 Transformer 塊的堆疊,這些 Transformer 塊通過嵌入層連接在一起。

模型推理

典型的模型架構代碼與 PyTorch 啟動的 python model.py 文件共享。在默認的 PyTorch Eager Execution 模式下,這些內核都是使用 CUDA 執行的。為了實現 100% Triton 進行端到端 Llama3-8B 和 Granite-8B 推理,需要編寫和集成手寫 Triton 內核以及利用 torch.compile(生成 Triton 操作)。首先,PyTorch 用編譯器生成的 Triton 內核替換較小的操作,其次,PyTorch 用手寫的 Triton 內核替換更昂貴和復雜的計算(例如矩陣乘法和閃存注意力)。

Torch.compile 自動為 RMSNorm、RoPE、SiLU 和點乘生成 Triton 內核。使用 Nsight Systems 等工具,可以觀察到這些生成的內核,它們在矩陣乘法和注意力之間表現為微小的深綠色內核。

圖片

圖 3. 使用 torch.compile 跟蹤 Llama3-8B,顯示用于矩陣乘法和閃存注意力的 CUDA 內核。

對于上面的跟蹤,PyTorch 團隊注意到,在 Llama3-8B 樣式模型中,占 E2E 延遲 80% 的兩個主要操作是矩陣乘法和注意力內核,并且兩者仍然是 CUDA 內核。因此,為了彌補剩余的差距,PyTorch 團隊用手寫的 Triton 內核替換了 matmul 和注意力內核。

Triton SplitK GEMM 內核

對于線性層中的矩陣乘法,PyTorch 團隊編寫了一個自定義 FP16 Triton GEMM(通用矩陣 - 矩陣乘法)內核,該內核利用了 SplitK 工作分解。

GEMM 內核調優

為了實現最佳性能,PyTorch 團隊使用窮舉搜索方法來調整 SplitK GEMM 內核。Granite-8B 和 Llama3-8B 具有如下形狀的線性層:

圖 4. Granite-8B 和 Llama3-8B 線性層權重矩陣形狀。

每個線性層都有不同的權重矩陣形狀。因此,為了獲得最佳性能,必須針對每個形狀輪廓調整 Triton 內核。在對每個線性層進行調整后,PyTorch 能夠在 Llama3-8B 和 Granite-8B 上實現相對于未調整的 Triton 內核 1.20 倍的 E2E 加速。

Flash Attention 內核

PyTorch 團隊使用不同的配置,對現有 Triton flash attention 內核進行了評估,包括

  • AMD Flash
  • OpenAI Flash
  • Dao AI Lab Flash
  • XFormers Flash
  • PyTorch FlexAttention

PyTorch 團隊分別在 eager 模式和編譯模式下評估了每個內核的文本生成質量。下圖 5 為不同 Flash Attention 內核的比較。

上圖總結了 PyTorch 觀察到的開箱即用情況,并預計內核 2 到 5 可以在修改后滿足上述標準。不過這也表明,擁有一個可用于基準測試的內核通常只是將它用作端到端生產內核的開始。

PyTorch 團隊選擇在后續測試中使用 AMD flash attention 內核,它通過 torch.compile 進行編譯,并在 eager 和編譯模式下產生清晰的輸出。

為了滿足 torch.compile 與 AMD flash attention 內核的兼容性,PyTorch 團隊必須將它定義為 torch 自定義算子。并且封裝更復雜的 flash attention 內核遵循以下兩個步驟:

一是將函數封裝為一個 PyTorch 自定義算子。

圖片

二是向該算子添加一個 FakeTensor 內核,并在給定 flash 輸入張量的形狀(q、k 和 v)時,計算 flash 內核的輸出形狀。

圖片

在將 Triton flash 內核定義為一個自定義 op 后,PyTorch 團隊可以成功地對它進行編譯以實現端到端運行。

圖 6:在交換 Triton matmul 和 Triton flash attention 內核后,使用 torch.compile 的 Llama3-8B 軌跡。

從圖中可以看到,在集成 SplitK 矩陣乘法內核后,torch op 封裝 flash attention 內核,然后運行 torch.compile,即可實現使用 100% Triton 計算內核的前向傳遞。

端到端基準測試

PyTorch 團隊分別對運行 Granite-8B 和 Llama3-8B 模型的英偉達 H100 和 A100(單 GPU)進行了端到端測試,使用了兩種不同的配置來執行基準測試。

其中 Triton 內核配置使用了:

  • Triton SplitK GEMM
  • AMD Triton Flash Attention

CUDA 內核配置使用了

  • cuBLAS GEMM
  • cuDNN Flash Attention - Scaled Dot-Product Attention (SDPA)

在典型推理設置下,兩種 eager 和 torch 編譯模式的吞吐量和 inter-token 延遲如下圖所示。

圖 7:H100 和 A100 上 Granite-8B 和 Llama3-8B 單 token 生成延遲(批大小 = 2,輸入序列長度 = 512,輸出序列長度 = 256)。

總的來說,在 H100 上,Triton 模型最高可以達到 CUDA 模型性能的 78%;在 A100 上可以達到 82%。這些性能差距是由 matmul 和 flash attention 的內核延遲造成的。

微基準測試

下圖 8 為 Triton 和 CUDA 內核延遲比較(英偉達 H100 上運行 Llama3-8B)。輸入為一個任意 prompt(批大小 = 1,prompt 序列長度 = 44),以解碼延遲時間。

最后結果顯示,Triton matmul 內核比 CUDA 慢了 1.2 至 1.4 倍,而 AMD Triton Flash Attention 比 CUDA SDPA 慢了 1.6 倍。

以上結果凸顯了需要進一步提升 GEMM 和 Flash Attention 等核心原語內核的性能。最近的一些工作(如 FlashAttention-3、FlexAttention) 已經提出了更好地利用底層硬件和 Triton 的方法,PyTorch 希望在它們的基礎上實現更大加速。為了闡明這一點,PyTorch 團隊將 FlexAttention 與 SDPA、AMD’s Triton Flash 內核進行了比較。

PyTorch 團隊 正努力驗證 FlexAttention 的端到端性能。目前,FlexAttention 的初始微基準測試結果表明,在查詢向量較小的情況下,有望實現更長的上下文以及解碼問題形狀。

圖 9:英偉達 H100 SXM5 80GB 上 FlexAttention 內核基準測試(批大小 = 1,最大頭數 = 32,頭維數 = 128)。

未來工作

未來,PyTorch 團隊計劃探索進一步優化 matmuls 的方法,以便更好地利用硬件,并為基于 Triton 的方法實現更大的加速。

對于 flash attention,PyTorch 團隊計劃探索 FlexAttention 和 FlashAttention-3 等內核中使用到的技術,以幫助進一步縮小 Triton 與 CUDA 之間的差距。同時還將探索端到端 FP8 LLM 推理。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-01-11 14:57:10

2021-07-07 17:49:08

自動駕駛無人駕駛人工智能

2025-10-29 16:06:10

AI模型訓練

2020-01-10 10:09:50

程序員技能開發者

2025-08-07 09:13:00

2024-06-24 09:51:24

2024-10-18 14:46:51

2022-06-01 16:47:53

AI模型開源

2012-08-31 11:21:41

浪潮英偉達ICCE

2023-10-09 13:19:51

AI軟件

2023-05-22 09:42:12

AI檢測

2023-05-18 14:05:24

AI檢測

2012-05-11 11:32:52

英偉達CUDA編譯器

2021-07-29 15:40:50

編程語言計算模型

2024-12-05 13:50:00

AI大模型

2024-08-28 13:34:13

2023-05-18 07:30:16

OpenCLGPU平臺生態

2023-06-05 07:35:03

點贊
收藏

51CTO技術棧公眾號

亚洲一区二区三区视频在线| 久久久成人网| 欧美va亚洲va香蕉在线 | 欧美另类视频| 亚洲国产中文字幕在线观看| 爱情岛论坛成人| 国产cdts系列另类在线观看| 成人精品高清在线| 国产精品最新在线观看| 久久精品视频9| japanese国产精品| 91精品一区二区三区久久久久久 | 国产在线免费av| 色悠久久久久综合先锋影音下载| 精品国产91久久久| 在线免费观看成人网| 天天综合天天综合| 国产一区二区三区精品欧美日韩一区二区三区 | 欧美不卡三区| 99热这里只有精品在线| 天堂精品中文字幕在线| 欧美激情影音先锋| 色www亚洲国产阿娇yao| 麻豆精品少妇| 制服丝袜亚洲播放| 亚洲黄色av网址| 鲁鲁在线中文| 一区二区三区视频在线观看| 奇米888一区二区三区| 日韩一级中文字幕| 国产在线播精品第三| 国产精品久久久久久久一区探花| 久久精品国产亚洲av无码娇色| 欧美第十八页| 中文字幕在线亚洲| 五月天综合视频| 日韩欧美影院| 亚洲国模精品一区| 日本不卡视频一区| 日韩在线观看中文字幕| 欧美精品久久久久久久久老牛影院| 黑鬼大战白妞高潮喷白浆| 狠狠操一区二区三区| 天天操天天干天天综合网| 成人免费观看在线| 免费在线观看的电影网站| 1000精品久久久久久久久| 一区二区免费电影| 免费黄色电影在线观看| 亚洲欧美激情诱惑| 国产欧美综合在线观看第十页| 成人91视频| 国产老妇伦国产熟女老妇视频| 日韩成人伦理电影在线观看| 日韩av电影在线播放| 亚洲天堂一区在线观看| 亚洲一区二区三区高清不卡| 综合国产视频| 亚洲欧美偷拍另类a∨色屁股| 亚洲国产精品一区在线观看不卡 | 亚洲精品一区| 欧美性极品xxxx做受| 欧美日韩一区二区在线免费观看| 日本三级一区| 在线一区二区三区四区| 国产精彩免费视频| 日本在线一区二区| 日韩一二三区视频| 国产不卡一二三| 最新国产精品视频| 色哟哟网站入口亚洲精品| 暗呦丨小u女国产精品| 欧美国产日本| 7m精品福利视频导航| 日韩一级在线视频| 国内成人精品2018免费看| 91大片在线观看| 丁香六月天婷婷| 久久免费午夜影院| 亚洲一卡二卡区| 欧美激情成人动漫| 欧美视频在线看| 国产精品v日韩精品v在线观看| 不卡的国产精品| 亚洲精品国产suv| 99精品欧美一区二区| 伊人久久大香线蕉精品组织观看| 久久久久久久久国产精品| 亚洲欧美综合另类| 黄色日韩网站视频| 精品乱色一区二区中文字幕| 99re在线视频| 午夜精品爽啪视频| 另类小说第一页| silk一区二区三区精品视频| 国产视频在线观看一区二区| 成人在线观看小视频| 亚洲一区国产| 亚洲精品欧美日韩专区| 日韩大胆人体| 一区二区高清免费观看影视大全 | 成人免费看黄| 日韩欧美资源站| 手机看片福利视频| 日韩视频久久| 亚洲在线免费观看| 国产毛片av在线| 亚洲福利国产精品| 手机免费av片| 国产一区不卡| 91国在线精品国内播放| 国产剧情精品在线| 中文字幕成人网| 欧美视频在线观看网站 | 国外成人免费视频| av网址在线免费观看| 欧美性高清videossexo| xxxxxx黄色| 欧美在线亚洲综合一区| 国产精品视频专区| 色就是色亚洲色图| 亚洲成a人在线观看| 亚洲综合123| 99久久久久久中文字幕一区| 日韩免费精品视频| 色就是色亚洲色图| 国产美女精品久久久| 波多野结衣不卡| 成人18视频在线播放| 精品久久久久久久久久久| 久久亚洲综合网| 大桥未久在线播放| 日韩女优毛片在线| 青青青在线免费观看| 精品综合久久久久久8888| 日韩精彩视频| 电影一区二区三| 日韩高清av在线| 国产69精品久久久久久久久久| 国产成人av影院| 六月婷婷激情网| 国产精品亚洲四区在线观看| 精品国产欧美成人夜夜嗨| 在线观看国产精品入口男同| 国产日韩精品一区二区三区在线| 波多野结衣家庭教师在线| 欧美三级电影在线| 欧美诱惑福利视频| 亚洲一区在线免费| 欧美日韩经典丝袜| 欧美刺激脚交jootjob| 欧美日韩人妻精品一区二区三区| 国产最新精品免费| 色哺乳xxxxhd奶水米仓惠香| 国产精品久久久久久av公交车 | 五月婷婷久久综合| www.xxx麻豆| 白白在线精品| 97国产精品免费视频| 日本高清视频免费观看| 久久国产精品色av免费看| 久久福利精品| 亚洲欧美综合图区| 天天爱天天做天天爽| 欧美经典三级视频一区二区三区| 99久久激情视频| 日韩成人影院| 亚洲精品免费在线视频| heyzo中文字幕在线| 日韩av一区二区在线观看| 黄色片视频免费| 国产精品护士白丝一区av| 日韩欧美中文视频| 亚洲欧洲日本一区二区三区| 精品国产电影| 97成人超碰| 欧美国产日本高清在线| 天堂中文在线资| 欧美日韩一区高清| 国产亚洲精品女人久久久久久| 99国产精品99久久久久久| av免费网站观看| 在线一区电影| 国产在线视频欧美一区二区三区| 日韩精品一区二区三区| 久久成人精品一区二区三区| 深爱激情五月婷婷| 欧美日韩一级片在线观看| 九九视频免费看| 国产日产欧产精品推荐色 | 欧亚av在线| 色妞一区二区三区| 天天干视频在线观看| 欧美日韩高清不卡| 欧美激情亚洲综合| 亚洲欧洲国产专区| 老鸭窝一区二区| 国产伦精品一区二区三区视频青涩 | 亚洲制服少妇| 神马午夜伦理影院| 国产一区二区三区探花| 国产精品yjizz| 欧美v亚洲v综合v国产v仙踪林| 国产做受高潮69| 欧洲日本在线| 亚洲免费小视频| 亚洲国产综合网| 91超碰这里只有精品国产| 美日韩一二三区| 依依成人综合视频| 亚洲精品自拍视频在线观看| 91在线视频免费91| 香蕉在线观看视频| 韩国理伦片一区二区三区在线播放| 午夜肉伦伦影院| 亚洲电影在线| 中文字幕人妻熟女人妻洋洋| 色综合色综合| 色99中文字幕| 亚洲欧美成人vr| 国产视频不卡| a看欧美黄色女同性恋| 国产一区二区丝袜| 成人黄色免费观看| 欧美最近摘花xxxx摘花| 17videosex性欧美| 色综合色综合网色综合| 成人毛片av在线| 久久精品国产亚洲一区二区| 成人在线免费观看| 亚洲视频一区二区| 国产美女视频一区二区三区| 亚洲欧美日韩中文视频| 性xxxxbbbb| 日韩成人av网址| 天堂在线视频网站| 亚洲激情视频网站| 天天干天天色天天| 亚洲精品suv精品一区二区| 亚洲爱情岛论坛永久| 日韩欧美一二三四区| 国产免费久久久| 91精品一区二区三区久久久久久 | 国产乱淫av一区二区三区| 国产无遮挡猛进猛出免费软件| 日本aⅴ精品一区二区三区| 北条麻妃视频在线| 日韩av一二三| 天天干天天玩天天操| 久久激五月天综合精品| 中文字幕第一页在线视频| 寂寞少妇一区二区三区| 国产探花在线观看视频| 国产成人综合视频| 在线视频 日韩| 久久精品视频在线看| 一级二级黄色片| 亚洲色图一区二区三区| 全网免费在线播放视频入口| 亚洲精品第1页| 日韩 国产 在线| 欧美性猛交xxxx乱大交3| 日韩欧美一级大片| 91精品久久久久久蜜臀| 成 人 黄 色 片 在线播放 | 国产精品一区二区婷婷| 综合激情国产一区| av色综合久久天堂av色综合在| 欧美激情视频在线观看| 大桥未久在线播放| 国产精品成人播放| 爱情电影网av一区二区| 国产精品一区二区三区四区五区 | 久久亚洲捆绑美女| 日本裸体美女视频| 亚洲午夜私人影院| 婷婷激情五月综合| 欧美一级艳片视频免费观看| 手机av免费在线观看| 中文字幕日本欧美| 天天干在线视频论坛| 欧美中文字幕在线观看| 成人亚洲精品| 久久综合九色欧美狠狠| 97精品国产福利一区二区三区| 97在线免费视频观看| 亚洲在线观看| 樱花草www在线| 久久久午夜电影| 唐朝av高清盛宴| 91久久一区二区| 成人免费公开视频| 中文字幕av一区中文字幕天堂 | 一区二区三区四区日韩| 日韩少妇内射免费播放18禁裸乳| 久久黄色级2电影| 亚洲午夜久久久久久久久红桃 | 少妇一晚三次一区二区三区| 久久一本综合频道| 美女网站视频在线观看| 中文字幕成人网| 久久不卡免费视频| 91精品久久久久久蜜臀| 番号在线播放| 午夜精品久久久久久99热软件 | 国产视频一区二区三区四区| 欧美激情电影| 动漫av免费观看| av爱爱亚洲一区| 久草视频在线免费看| 欧美精品色一区二区三区| 狠狠狠综合7777久夜色撩人| 欧美激情手机在线视频| 欧美日韩黄网站| 亚洲天堂电影网| 久久亚洲风情| 黄色在线观看av| 亚洲www啪成人一区二区麻豆| 精品久久久免费视频| 日韩中文字幕视频| 日韩一级二级| 日本成人三级电影网站| 亚洲少妇一区| 精品久久久久一区二区| 亚洲黄色片在线观看| 国产精品久久久久久免费播放| 亚洲视频在线观看视频| 亚洲欧美一区二区三区| 久久精品国产第一区二区三区最新章节 | 在线观看一区不卡| 亚洲色大成网站www| 欧美激情中文字幕乱码免费| 欧美日韩黄网站| 日本美女爱爱视频| 国产老肥熟一区二区三区| 国产精品69久久久久孕妇欧美| 91成人网在线| 国产在线资源| 国产精品久久久精品| 欧美精品一二| 黄色三级视频片| 中文字幕乱码一区二区免费| 国产精品尤物视频| 一区二区三区天堂av| a成人v在线| 亚洲欧洲日韩精品| 久久精品国产亚洲高清剧情介绍 | 国产精品1区2区在线观看| 欧美人与牛zoz0性行为| 欧美伦理视频在线观看| 久久精品人人做人人爽人人| 成人黄色三级视频| xvideos成人免费中文版| 91成人福利社区| 久久av高潮av| 91麻豆精品秘密| 欧美一级淫片免费视频黄| 伊人亚洲福利一区二区三区| 国产欧美自拍| 超级碰在线观看| 成人av第一页| 亚洲精品久久久久久久蜜桃| 中文字幕亚洲综合久久| 精品一区视频| 日韩五码在线观看| 国产日韩欧美在线一区| 国产美女免费看| 国模精品视频一区二区三区| 精品一区在线| 久久久久久久久久一区| 亚洲一区二区视频在线观看| 天天干天天操av| 国产啪精品视频| 黑丝一区二区| 免费黄色片网站| 日韩欧美在线不卡| 人成在线免费网站| 综合国产精品久久久| 成人av在线看| 中文av免费观看| 欧美精品videos另类日本| 久久爱www成人| 在线观看网站黄| 色婷婷综合久久| 少女频道在线观看高清| 欧美精品123| 国产精品18久久久久久久久 | 日韩一区二区三区在线| 涩涩涩在线视频| 在线丝袜欧美日韩制服| 成年人午夜久久久| 国产精品系列视频| 欧美一区在线直播| 欧美aa国产视频| 黄色片网站免费| 亚洲精品福利在线| 日韩精品中文字幕一区二区| 国产自偷自偷免费一区| 亚洲成人av一区| 性爱视频在线播放|