精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

FlashAttention3:“苗條”的就是比較好! 原創(chuàng)

發(fā)布于 2024-7-16 08:54
瀏覽
0收藏

?1.加速Hopper GPU

注意力機(jī)制是Transformer架構(gòu)的核心能力,也是大型語言模型和長(zhǎng)上下文應(yīng)用的瓶頸。FlashAttention(和 FlashAttention-2)開創(chuàng)了一種通過最小化內(nèi)存讀/寫來加速 GPU 注意力的方法,現(xiàn)在大多數(shù)庫(kù)都使用它來加速 Transformer 訓(xùn)練和推理。

這導(dǎo)致了過去兩年上下文LLM長(zhǎng)度的大幅增加,從2-4K(GPT-3,OPT)增加到128K(GPT-4),甚至1M(Llama 3)。然而,盡管取得了成功,但 FlashAttention 尚未利用現(xiàn)代硬件中的新功能,F(xiàn)lashAttention-2在H100 GPU上僅實(shí)現(xiàn)了35%的理論最大FLOP 利用率。

在這篇博文中介紹了三種主要技術(shù)來加快對(duì)Hopper GPU的關(guān)注:利用 Tensor Core和TMA的異步性來

1) 通過扭曲專業(yè)化重疊整體計(jì)算和數(shù)據(jù)移動(dòng)

2)交錯(cuò)塊matmul和softmax操作

3)利用硬件支持實(shí)現(xiàn) FP8 低精度的非連貫處理

2.快速了解

FlashAttention-3比使用FP16的FlashAttention-2快1.5-2.0倍,高達(dá)740 TFLOPS,即H100理論最大FLOPS利用率為 75%。使用FP8時(shí),F(xiàn)lashAttention-3達(dá)到接近 1.2 PFLOPS,誤差比基線FP8注意小2.6倍。

  • 更高效的GPU利用率:新技術(shù)可利用高達(dá)75%的H100 GPU最大功能,而之前僅為35%。這導(dǎo)致在訓(xùn)練和運(yùn)行大型語言模型方面,比以前的版本快得多(1.5-2 倍LLMs)。
  • 以較低的精度獲得更好的性能:FlashAttention-3可以處理精度較低的數(shù)字FP8,同時(shí)保持精度。這樣可以實(shí)現(xiàn)更快的處理速度,并可能降低內(nèi)存使用率,從而為運(yùn)行大規(guī)模AI操作的客戶節(jié)省成本并提高效率。
  • 能夠在以下位置LLMs使用更長(zhǎng)的上下文:通過加速注意力機(jī)制,F(xiàn)lashAttention-3使AI模型能夠更有效地處理更長(zhǎng)的文本片段。這可以使應(yīng)用程序能夠在不減慢速度的情況下理解和生成更長(zhǎng)、更復(fù)雜的內(nèi)容。

3.GEMM和SOFTMAX

注意力有兩個(gè)主要操作GEMMs(GEMMs是指廣義矩陣乘法General Matrix Multiply),例如注意力機(jī)制中Q和K之間以及注意力矩陣P和V之間的矩陣乘法。

GPU上面現(xiàn)代加速器上,非matmul操作比matmul操作慢得多。例如softmax中的指數(shù)運(yùn)算等特殊函數(shù)的吞吐量遠(yuǎn)遠(yuǎn)低于浮點(diǎn)乘加。這些特殊運(yùn)算(函數(shù))SF一般是由多功能(計(jì)算)單元負(fù)責(zé),多功能(計(jì)算)單元是獨(dú)立于浮點(diǎn)乘-加(例如y=wx+b)或矩陣乘加之外。

例如,H100 GPU SXM5具有989TFLOPS的FP16矩陣乘法,但對(duì)于特殊的函數(shù)SF,只有 3.9TFLOPS的吞吐,吞吐量低 256 倍。

CUDA 編程指南規(guī)定,特殊函數(shù)的吞吐量為每個(gè)時(shí)鐘周期每個(gè)流式多處理器 (SM) 16次操作。將16乘以132SM和1830 Mhz(用于計(jì)算 FP16 matmul 的989TFLOPS 的時(shí)鐘速度)得到 3.9TFLOPS!

假如注意力機(jī)制的head維度為128,matmul FLOPS比指數(shù)運(yùn)算多512倍,這意味著與matmul運(yùn)算相比,花費(fèi)在指數(shù)運(yùn)算的時(shí)間需要比矩陣運(yùn)算多50%的時(shí)間。Matmul在FP8的精度下速度比FP16還要快多兩倍,這樣一來就被指數(shù)運(yùn)算嚴(yán)重的拖后腿!能有魔法棒實(shí)現(xiàn)兩者并行么?

上面文縐縐的話翻譯成白話就是:GEMM比Softmax快,如何讓兩者并駕齊驅(qū)?

Warp是SM中的基本概念,可以先回去溫習(xí)下GPU的組成。Warp其實(shí)已經(jīng)做了一些調(diào)度的事宜,某些Warp被阻塞,其他翹曲可以運(yùn)行。?

FlashAttention3:“苗條”的就是比較好!-AI.x社區(qū)

例如存在 2個(gè)warpgroup(標(biāo)記為 1 和 2),每個(gè)warpgroup是4個(gè)warp 的組),這時(shí)候通過使用同步屏障 (bar.sync),以便warpgroup 1首先執(zhí)行它的GEMM。例如,一次迭代的GEMM1和下一次迭代的 GEMM0。然后warpgroup 2執(zhí)行它的GEMM,而warpgroup 1執(zhí)行它的softmax, 等等。這個(gè)類似乒乓球的調(diào)度方式,確保了兩者并駕齊驅(qū)。上圖相同顏色的為相同的迭代。

這種方式在實(shí)踐中,調(diào)度并不是真的這么妥帖,但是這樣的調(diào)度可以將 FP16 注意力前向傳遞從大約 570 TFLOPS提高到620 TFLOPS(頭部head 128維,序列長(zhǎng)度8K)。

即使在一個(gè)Warpgroup中,可以在這個(gè)群組運(yùn)行GEMM的時(shí)候運(yùn)行softmax的某些部分。如下圖所示:

FlashAttention3:“苗條”的就是比較好!-AI.x社區(qū)

<非工科讀者跳過!>具體的原理在于在注意力算法中,內(nèi)部循環(huán)(主循環(huán))內(nèi)的操作具有順序依賴性,這些依賴性會(huì)阻礙單次迭代中的并行化。例如,(本地)softmax 18-19行依賴于第一個(gè) GEMM 的輸出,而第二個(gè) GEMM 將其結(jié)果作為操作數(shù)。實(shí)際上,算法 1 的第 17- 21行中的等待語句序列化了softmax 和GEMM的執(zhí)行。但是可以通過寄存器中的額外緩沖區(qū)在迭代之間流水線來打破這些依賴關(guān)系。遵循這一思路,F(xiàn)L3提出了以下兩階段GEMM-softmax流水線算法:

FlashAttention3:“苗條”的就是比較好!-AI.x社區(qū)

FlashAttention3:“苗條”的就是比較好!-AI.x社區(qū)

<繼續(xù)>這種流水線將吞吐量從大約620 TFLOPS提高到大約640-660 TFLOPS,用于FP16注意力向前轉(zhuǎn)移,但代價(jià)是更高的寄存器壓力,因?yàn)樾枰嗟募拇嫫鱽砣菁{GEMM的累加器和softmax的輸入/輸出。

擴(kuò)展上述 2 階段算法,F(xiàn)L3繼續(xù)提出了一個(gè)3階段變體,該變體將進(jìn)一步重疊第二個(gè)WGMMA與softmax。雖然這種方法提供了更高的 Tensor Core 利用率的潛力,但它需要更多的寄存器。

4.FP8的量化支持?

FlashAttention3:“苗條”的就是比較好!-AI.x社區(qū)

FP8和FP32在寄存器中的存儲(chǔ)布局的不一致給FL3的算法帶來了挑戰(zhàn)。

對(duì)于 FP8 FlashAttention-3, ??在將分片加載到SMEM后進(jìn)行內(nèi)核內(nèi)轉(zhuǎn)置。對(duì)于內(nèi)核內(nèi)轉(zhuǎn)置,我們利用了LDSM ( ldmatrix ) 和STSM ( stmatrix )指令,它們涉及一系列線程共同加載 SMEM到RMEM,并以 128 字節(jié)的粒度存儲(chǔ) RMEM 到 SMEM。

LDSM/STSM指令都是高效的,允許在warpgroup中執(zhí)行,并且能夠在執(zhí)行內(nèi)存復(fù)制時(shí)轉(zhuǎn)置布局。在第一次迭代之后,可以在前一個(gè)??切片和當(dāng)前 ??切片的WGMMA運(yùn)算中,加入下一個(gè)??切片的轉(zhuǎn)置。

使用 FP8 (e4m3) 格式,僅使用3位來存儲(chǔ)尾數(shù),使用4位來存儲(chǔ)指數(shù)。這導(dǎo)致比FP16/BF16更高的數(shù)值誤差。此外,大型模型通常具有異常值,它的量級(jí)比大多數(shù)其他值大得多,這使得量化變得困難。為了減少 FP8中注意力機(jī)制的誤差,F(xiàn)L3采用了兩種技術(shù):

  • 塊量化:為每個(gè)塊保留一個(gè)標(biāo)量,以便對(duì)于每個(gè)Q,K,V 將其張量拆分為大小????×?? ????×?? 塊,然后獨(dú)立量化。這種量化可以與注意力之前的操作融合,而不會(huì)額外減慢速度。由于FlashAttention-3算法都是基于快進(jìn)行計(jì)算,因此可以縮放每個(gè)S塊進(jìn)行量化,而無需計(jì)算成本。
  • 利用QuIP的非相干處理,將Q和K與隨機(jī)正交矩陣相乘,以“分散”異常值并減少量化誤差。<不明白可以跳過,后面專欄介紹這種算法>。

在實(shí)驗(yàn)中,Q、K、V是由標(biāo)準(zhǔn)正態(tài)分布生成的,但0.1%的條目具有較大的量級(jí)(模擬異常值),我們發(fā)現(xiàn)非相干處理可以將量化誤差減少 2.6倍。下表為數(shù)值誤差比較。

FlashAttention3:“苗條”的就是比較好!-AI.x社區(qū)

5.性能對(duì)比

下面展示了FlashAttention-3的一些結(jié)果,并將其與FlashAttention-2以及 Triton和cuDNN中的實(shí)現(xiàn)進(jìn)行了比較(兩者都已經(jīng)使用了Hopper GPU 的新硬件功能)。對(duì)于FP16,F(xiàn)lashAttention-2的加速約為1.6倍至 2.0倍。

FlashAttention3:“苗條”的就是比較好!-AI.x社區(qū)

FlashAttention3:“苗條”的就是比較好!-AI.x社區(qū)

FlashAttention3:“苗條”的就是比較好!-AI.x社區(qū)

本文轉(zhuǎn)載自 ??魯班模錘??,作者: 龐德公

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
在线午夜精品自拍| 亚洲成a人v欧美综合天堂下载 | 好吊妞视频一区二区三区| 香蕉久久夜色精品国产更新时间| 欧美在线高清视频| 日本黄大片在线观看| 精品欧美不卡一区二区在线观看| 日本aⅴ精品一区二区三区| 久久97久久97精品免视看| 草草影院第一页| 国产一区二区三区精品在线观看 | 精品乱码一区内射人妻无码| 午夜日韩电影| 在线精品91av| 艳妇乳肉亭妇荡乳av| 亚洲欧美专区| 一本大道久久a久久精品综合| 亚洲一区 在线播放| 国产二区在线播放| 波多野结衣中文字幕一区二区三区| 国产精品91在线观看| 精品无码久久久久久久| 欧美好骚综合网| 亚洲美女精品成人在线视频| aaa黄色大片| 国产精品久久久久久久久久久久久久久 | 美女福利视频在线观看| 国产成人精品一区二区免费看京| 欧美不卡一二三| 天天综合网久久| 五月激情久久| 日韩欧美a级成人黄色| 日韩免费在线观看av| 欧美激情午夜| 欧美高清在线精品一区| 欧美另类一区| 香蕉久久国产av一区二区| 国产福利精品导航| 91亚洲精品久久久久久久久久久久| 无码人妻一区二区三区线| 99国内精品| 97国产成人精品视频| 欧美成人精品欧美一| 亚洲第一偷拍| 日韩亚洲一区二区| 日本免费www| 欧美偷拍综合| 伊人一区二区三区久久精品 | 午夜久久久久久噜噜噜噜| 久久精品国产999大香线蕉| 国产成人在线一区二区| www毛片com| 快she精品国产999| 国产成人欧美在线观看| 国产一卡二卡三卡| 日本在线不卡一区| 国产精品中文字幕久久久| 中文字幕有码无码人妻av蜜桃| 日韩av一区二区在线影视| 国产精品激情av电影在线观看| 无码人妻丰满熟妇奶水区码| 久久久久国产精品一区三寸| 国产精品白丝jk喷水视频一区| 日日骚av一区二区| 青青草精品视频| 国产精品视频一区二区三区四 | 亚洲黄色网址| 一本色道久久综合亚洲精品按摩| 欧美日韩在线视频一区二区三区| 亚洲精品永久免费视频| 欧洲在线/亚洲| 羞羞视频在线观看欧美| 国产精品91一区二区| 国产一区红桃视频| 国产喷水吹潮视频www| 国产精品资源在线看| 国产不卡一区二区在线观看| 亚洲精品911| 99国产欧美久久久精品| 欧美日韩国产综合视频在线| 极品白浆推特女神在线观看| 国产精品私人影院| 成人在线免费高清视频| 97人人爽人人澡人人精品| 天天操天天综合网| 色一情一乱一伦一区二区三区日本| av成人在线播放| 欧美一区二区视频在线观看2020 | 亚洲一级在线观看| 奇米777四色影视在线看| 国内高清免费在线视频| 国产欧美日韩视频在线| 亚洲精品美女久久| 日本人亚洲人jjzzjjz| 欧美一区不卡| 日本高清久久天堂| 国产精品伊人久久| 26uuu精品一区二区在线观看| 亚洲高清资源综合久久精品| 在线中文字幕电影| 在线观看一区二区视频| 中文字幕1区2区| 国内亚洲精品| 久久久久久久久久久91| 中文字幕在线视频免费| www.在线欧美| 手机看片日韩国产| 成人性生活视频| 欧美一卡二卡在线观看| 中文字幕被公侵犯的漂亮人妻| 亚洲破处大片| 国产精品白嫩美女在线观看| 免费观看黄色一级视频| 中文字幕一区二区三区乱码在线| 欧日韩免费视频| va天堂va亚洲va影视| 亚洲天堂网在线观看| 久久免费播放视频| 狠狠色狠狠色综合日日91app| 免费久久99精品国产自| 俺来也官网欧美久久精品| 欧美日韩精品欧美日韩精品| 国产精品久久不卡| 欧美久久成人| 91久久中文字幕| 超碰在线影院| 日本乱人伦一区| 中文字幕一区二区久久人妻网站| 综合激情在线| 91在线观看免费观看| 在线免费av电影| 日本久久一区二区| 亚洲精品视频久久久| 激情综合激情| 国产精品一区二区av| aaa大片在线观看| 欧美日韩精品专区| 欧洲美熟女乱又伦| 日韩和欧美的一区| 免费成人av网站| 在线观看欧美日韩电影| 日韩高清中文字幕| 精品美女久久久久| aaa亚洲精品一二三区| 男女啪啪免费视频网站| 粉嫩精品导航导航| 97国产真实伦对白精彩视频8| 亚洲高清视频网站| 一区二区三区鲁丝不卡| 亚洲欧美日韩精品一区| 色喇叭免费久久综合网| 国产欧美日韩高清| 理论片午午伦夜理片在线播放| 欧美精品色一区二区三区| 国产jizz18女人高潮| 极品少妇xxxx精品少妇| 波多野结衣激情| 久久伊人久久| 久久久久久999| 五月婷中文字幕| 欧美色欧美亚洲高清在线视频| 国产偷人妻精品一区| 性色av一区二区怡红| 欧美主播一区二区三区美女 久久精品人 | 中文字幕久久久久| 国产精品国产三级国产三级人妇| 天天综合天天添夜夜添狠狠添| 天天做天天爱天天爽综合网| 97操在线视频| 国产在线观看www| 国产一区二区三区欧美| 97成人免费视频| 亚洲狠狠丁香婷婷综合久久久| 催眠调教后宫乱淫校园| 午夜影院日韩| 一本色道久久综合亚洲精品婷婷 | 久操免费在线视频| 成人av网站在线观看免费| 女人扒开屁股爽桶30分钟| 999久久久91| 国产精品theporn88| 竹内纱里奈兽皇系列在线观看 | 欧美亚洲精品日韩| 9999在线精品视频| 欧美一区二区三区图| 99reav在线| 精品国精品自拍自在线| 天天爱天天做天天爽| 亚洲色欲色欲www| 日本护士做爰视频| 狠狠色综合日日| 中文字幕日本最新乱码视频| 久久性感美女视频| 国产一区免费在线| 亚洲男女网站| 日韩男女性生活视频| 青青草视频在线免费直播| 亚洲天堂久久av| 国产福利资源在线| 在线亚洲人成电影网站色www| 一级片一级片一级片| 久久久久久久综合狠狠综合| 中文字幕在线视频一区二区| 麻豆9191精品国产| 中国丰满熟妇xxxx性| 成人影院在线| 久久精品99久久| 日韩激情综合| 国产精品视频1区| 原纱央莉成人av片| 国模精品一区二区三区色天香| 在线免费看av| 亚洲午夜小视频| 少妇高潮一区二区三区99小说| 精品1区2区3区| 亚洲欧美偷拍视频| 亚洲国产精品一区二区久久恐怖片| 欧美xxxx精品| 久久久久久黄色| 黄色av网址在线观看| 国产精品一卡二卡| 狠狠干狠狠操视频| 免费成人在线观看视频| 成年人视频在线免费| 一本色道久久精品| 国产一级做a爰片久久毛片男| 国产精品久久久久久久免费观看| 青娱乐国产91| 免费欧美视频| 乱色588欧美| 亚洲妇女av| 久久久久久国产精品免费免费| 成人搞黄视频| 国产女人水真多18毛片18精品| 亚洲1区在线| 99国精产品一二二线| 国产精品99久久免费| 91网在线免费观看| 国产日韩在线观看视频| 成人中文字幕+乱码+中文字幕| 人人玩人人添人人澡欧美| 国产精品久久久久久久久| 成人h在线观看| 国产精品亚洲网站| 青青青国产精品| 成人在线国产精品| 国产精品xnxxcom| 91成人免费在线观看| 日韩精品中文字幕一区二区| 99久久国产免费免费| 波多野结衣在线一区二区 | 男操女在线观看| 亚洲精品一区二三区不卡| av女名字大全列表| 亚洲欧美一区二区三区久久 | 欧美激情久久久久久久久久久| 国产日韩久久| 蜜桃视频欧美| 无码免费一区二区三区免费播放| 不卡在线一区二区| 致1999电视剧免费观看策驰影院| 91精品综合| 久久久久久人妻一区二区三区| 国产一区二区三区久久| 日本一本二本在线观看| 奇米精品一区二区三区在线观看| 911福利视频| 国产成人av电影在线观看| 日韩精品视频一区二区| 久久在线观看免费| 欧美激情精品久久久久久免费| 亚洲精品ww久久久久久p站| 国产无遮挡又黄又爽又色| 日本丶国产丶欧美色综合| 国产乱色精品成人免费视频 | 99精品一区二区三区无码吞精| 91在线精品一区二区| 国产三级黄色片| 玉足女爽爽91| 中文字幕在线播| 欧美一个色资源| 亚洲人视频在线观看| 深夜成人在线观看| 国产精品69xx| 国产精品久久电影观看| 一区二区三区四区视频免费观看| 女同一区二区| 欧美特黄一级| www.日本xxxx| 粉嫩av一区二区三区在线播放 | 麻豆精品国产传媒| 久久亚洲一级片| a在线视频播放观看免费观看| 福利视频一区二区| 国产美女明星三级做爰| 亚洲人av在线影院| 欧美日韩经典丝袜| 国产精品视频xxx| 欧美日韩麻豆| 300部国产真实乱| 蜜臀av性久久久久蜜臀aⅴ | 日本在线一二三区| 99精品热视频| 欧美激情图片小说| 欧美性高清videossexo| 日本精品一区二区在线观看| 久久精品视频在线播放| 88xx成人免费观看视频库 | 正在播放日韩欧美一页 | 性感美女一区二区在线观看| 国产成人免费电影| 性欧美69xoxoxoxo| 中文字幕欧美人妻精品一区| 成人国产在线观看| 91插插插插插插| 欧美日韩国产一区二区三区地区| 午夜影院免费体验区| 欧美激情精品久久久久久大尺度| 日韩三级成人| 亚洲黄色一区二区三区| 久久精品免费| 天天插天天射天天干| 亚洲在线成人精品| 国产免费不卡av| 自拍偷拍亚洲在线| 香蕉成人影院| 日本一区二区三区精品视频| 一区二区三区福利| 色婷婷精品久久二区二区密| 亚洲综合久久久久| 精品国产免费无码久久久| www.日韩欧美| 色综合视频一区二区三区44| 亚洲欧洲精品一区| 美腿丝袜在线亚洲一区 | 青青草超碰在线| 97精品视频在线| 任你弄精品视频免费观看| 成人网站免费观看入口| 懂色一区二区三区免费观看| 久久久久成人片免费观看蜜芽| 日韩午夜激情免费电影| 性xxxxfjsxxxxx欧美| 97人人模人人爽人人少妇| 欧美精品一级| 国产十八熟妇av成人一区| 亚洲成a人v欧美综合天堂下载| 人妻精品一区一区三区蜜桃91 | 国语自产精品视频在线看抢先版结局| 欧美色欧美亚洲另类七区| 天堂成人国产精品一区| 国产精品久久久久久久av| 欧美日韩国产免费一区二区| 黄网站免费在线播放| 91亚洲午夜在线| 欧美三级乱码| 久久久久国产精品区片区无码| 欧美午夜片欧美片在线观看| 国产女主播在线写真| 国产深夜精品福利| 欧美成人日本| 这里只有精品在线观看视频| 日韩欧美a级成人黄色| 91在线品视觉盛宴免费| 91综合免费在线| 影音先锋久久| wwwwxxxx国产| 欧美夫妻性生活| 678在线观看视频| 欧美人与性禽动交精品| 老司机精品视频导航| 免费国产羞羞网站美图| 亚洲国内高清视频| 日本综合字幕| 日本一级淫片演员| 波多野结衣91| 在线观看中文字幕码| 精品中文字幕在线2019| 西瓜成人精品人成网站| 午夜两性免费视频| 亚洲午夜免费视频| 国产福利电影在线| av一区二区三区在线观看| 免费中文字幕日韩欧美| 日本中文在线视频| 日韩国产精品一区| 福利一区三区| 99精品人妻少妇一区二区| 国产精品久久久久影院老司 | 99精品视频在线播放观看| 欧美成人一区二区视频| 欧美激情综合色综合啪啪五月| 国产伦一区二区三区| 美女流白浆视频| 在线观看日韩精品| 妞干网免费在线视频| 欧美爱爱视频网站| 国产亚洲精品aa| 国产77777| 91日韩在线视频|