精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

斯坦福博士一己之力讓Attention提速9倍!FlashAttention燃爆顯存,Transformer上下文長度史詩級提升

人工智能
速度上快2倍,意味著研究人員可以用與之前訓練8k上下文模型相同的成本,來訓練16k上下文長度的模型。這些模型可以理解長篇書籍和報告、高分辨率圖像、音頻和視頻。

繼超快且省內存的注意力算法FlashAttention爆火后,升級版的2代來了。

FlashAttention-2是一種從頭編寫的算法,可以加快注意力并減少其內存占用,且沒有任何近似值。

比起第一代,FlashAttention-2速度提升了2倍。

甚至,相較于PyTorch的標準注意力,其運行速度最高可達9倍。

一年前,StanfordAILab博士Tri Dao發布了FlashAttention,讓注意力快了2到4倍,如今,FlashAttention已經被許多企業和研究室采用,廣泛應用于大多數LLM庫。

如今,隨著長文檔查詢、編寫故事等新用例的需要,大語言模型的上下文以前比過去變長了許多——GPT-4的上下文長度是32k,MosaicML的MPT上下文長度是65k,Anthropic的Claude上下文長度是100k。

但是,擴大Transformer的上下文長度是一項極大的挑戰,因為作為其核心的注意力層的運行時間和內存要求,是輸入序列長度的二次方。

Tri Dao一直在研究FlashAttention-2,它比v1快2倍,比標準的注意力快5到9倍,在A100上已經達到了225 TFLOP/s的訓練速度!

圖片圖片

論文地址:https://tridao.me/publications/flash2/flash2.pdf

項目地址:https://github.com/Dao-AILab/flash-attention

FlashAttention-2:更好的算法、并行性和工作分區

端到端訓練GPT模型,速度高達225 TFLOP/s

雖說FlashAttention在發布時就已經比優化的基線快了2-4倍,但還是有相當大的進步空間。

比方說,FlashAttention仍然不如優化矩陣乘法(GEMM)運算快,僅能達到理論最大FLOPs/s的25-40%(例如,在A100 GPU上的速度可達124 TFLOPs/s)。

圖片圖片

GEMM如何用于卷積

在過去的幾個月里,研究人員一直在開發FlashAttention-2,它的性能指標比第一代更強。

研究人員表示,2代相當于完全從頭重寫,使用英偉達的CUTLASS 3.x及其核心庫CuTe。從速度上看,FlashAttention-2比之前的版本快了2倍,在A100 GPU上的速度可達230 TFLOPs/s。

當使用端到端來訓練GPT之類的語言模型時,研究人員的訓練速度高達225 TFLOPs/s(模型的FLOP利用率為72%)。

對注意力計算重新排序

我們知道,FlashAttention是一種對注意力計算進行重新排序的算法,利用平鋪、重新計算來顯著加快計算速度,并將序列長度的內存使用量從二次減少到線性。

圖片圖片

研究人員將輸入塊從HBM(GPU內存)加載到SRAM(快速緩存),并對該模塊執行注意,更新HBM中的輸出。

由于沒有將大型中間注意力矩陣寫入HBM,內存的讀/寫量也跟著減少,進而帶來了2-4倍的執行時間加速。

下圖是FlashAttention的前向傳遞圖:通過平鋪和softmax重新縮放,研究人員人員按模塊進行操作,避免從HBM讀取或是寫入,同時獲得正確輸出,無需近似。

圖片圖片

然而,FlashAttention仍然存在一些低效率的問題,這是由于不同線程塊之間的工作劃分并不理想,以及GPU上的warp——導致低占用率或不必要的共享內存讀寫。

更少的non-matmul FLOP(非矩陣乘法浮點計算數)

研究人員通過調整FlashAttention的算法來減少non-matmul FLOP的次數。這非常重要,因為現代GPU有專門的計算單元(比如英偉達GPU上的張量核心),這就使得matmul的速度更快。

例如,A100 GPU FP16/BF16 matmul的最大理論吞吐量為312 TFLOPs/s,但non-matmul FP32的理論吞吐量僅為 19.5 TFLOPs/s。

另外,每個非matmul FLOP比matmul FLOP要貴16倍。

所以為了保持高吞吐量,研究人員希望在matmul FLOP上花盡可能多的時間。

研究人員還重新編寫了FlashAttention中使用的在線softmax技巧,以減少重新縮放操作的數量,以及邊界檢查和因果掩碼操作,而無需更改輸出。

更好的并行性

FlashAttention v1在批大小和部數量上進行并行化處理。研究人員使用1個線程塊來處理一個注意力頭,共有 (batch_size * head number) 個線程塊。

圖片圖片

在前向處理(左圖)中,研究者將Worker(線程塊)并行化,每個Worker負責處理注意力矩陣的一個行塊。在后向處理過程中(右圖),每個Worker處理注意力矩陣的一個列塊

每個線程塊都在流式多處理器 (SM)運行,例如,A100 GPU上有108個這樣的處理器。當這個數字很大(比如 ≥80)時,這種調度是有效的,因為在這種情況下,可以有效地使用GPU上幾乎所有的計算資源。

在長序列的情況下(通常意味著更小批或更少的頭),為了更好地利用GPU上的多處理器,研究人員在序列長度的維度上另外進行了并行化,使得該機制獲得了顯著加速。

更好的工作分區

即使在每個線程塊內,研究人員也必須決定如何在不同的warp(線程束)之間劃分工作(一組32個線程一起工作)。研究人員通常在每個線程塊使用4或8個warp,分區方案如下圖所示。

研究人員在FlashAttention-2中改進了這種分區,減少了不同warp之間的同步和通信量,從而減少共享內存讀/寫。

圖片圖片

對于每個塊,FlashAttention將K和V分割到4個warp上,同時保持Q可被所有warp訪問。這稱為「sliced-K」方案。

然而,這樣做的效率并不高,因為所有warp都需要將其中間結果寫入共享內存,進行同步,然后再將中間結果相加。

而這些共享內存讀/寫會減慢FlashAttention中的前向傳播速度。

在FlashAttention-2中,研究人員將Q拆分為4個warp,同時保持所有warp都可以訪問K和V。

在每個warp執行矩陣乘法得到Q K^T的一個切片后,它們只需與共享的V切片相乘,即可得到相應的輸出切片。

這樣一來,warp之間就不再需要通信。共享內存讀寫的減少就可以提高速度。

新功能:頭的維度高達256,多查詢注意力

FlashAttention僅支持最大128的頭的維度,雖說適用于大多數模型,但還是有一些模型被排除在外。

FlashAttention-2現在支持256的頭的維度,這意味著GPT-J、CodeGen、CodeGen2以及Stable Diffusion 1.x等模型都可以使用FlashAttention-2來獲得加速和節省內存。

v2還支持多查詢注意力(MQA)以及分組查詢注意力(GQA)。

圖片圖片

GQA為每組查詢頭共享單個key和value的頭,在多頭和多查詢注意之間進行插值

這些都是注意力的變體,其中多個查詢頭會指向key和value的同一個頭,以減少推理過程中KV緩存的大小,并可以顯著提高推理的吞吐量。

注意力基準


研究人員人員在A100 80GB SXM4 GPU 上測量不同設置(有無因果掩碼、頭的維度是64或128)下不同注意力方法的運行時間。

圖片圖片

研究人員發現FlashAttention-2比第一代快大約2倍(包括在xformers庫和Triton中的其他實現)。

與PyTorch中的標準注意力實現相比,FlashAttention-2的速度最高可達其9倍。

圖片圖片

A100 GPU上的前向+后向速度

只需在H100 GPU上運行相同的實現(不需要使用特殊指令來利用TMA和第四代Tensor Core等新硬件功能),研究人員就可以獲得高達335 TFLOPs/s的速度。

圖片圖片

H100 GPU上的前向+后向速度

當用于端到端訓練GPT類模型時,FlashAttention-2能在A100 GPU上實現高達225TFLOPs/s的速度(模型FLOPs利用率為72%)。

與已經非常優化的FlashAttention模型相比,端到端的加速進一步提高了1.3倍。

圖片圖片

未來的工作

速度上快2倍,意味著研究人員可以用與之前訓練8k上下文模型相同的成本,來訓練16k上下文長度的模型。這些模型可以理解長篇書籍和報告、高分辨率圖像、音頻和視頻。

同時,FlashAttention-2還將加速現有模型的訓練、微調和推理。

在不久的將來,研究人員還計劃擴大合作,使FlashAttention廣泛適用于不同類型的設備(例如H100 GPU、AMD GPU)以及新的數據類型(例如fp8)。

下一步,研究人員計劃針對H100 GPU進一步優化FlashAttention-2,以使用新的硬件功能(TMA、第四代Tensor Core、fp8等等)。

將FlashAttention-2中的低級優化與高級算法更改(例如局部、擴張、塊稀疏注意力)相結合,可以讓研究人員用更長的上下文來訓練AI模型。

研究人員也很高興與編譯器研究人員合作,使這些優化技術更好地應用于編程。

作者介紹

Tri Dao曾在斯坦福大學獲得了計算機博士學位,導師是Christopher Ré和Stefano Ermon。

根據主頁介紹,他將從2024年9月開始,任職普林斯頓大學計算機科學助理教授。

圖片圖片

Tri Dao的研究興趣在于機器學習和系統,重點關注高效訓練和長期環境:

- 高效Transformer訓練和推理 - 遠程記憶的序列模型 - 緊湊型深度學習模型的結構化稀疏性。

值得一提的是,Tri Dao今天正式成為生成式AI初創公司Together AI的首席科學家。

圖片圖片

參考資料:

https://princeton-nlp.github.io/flash-atttention-2/

責任編輯:武曉燕 來源: 新智元
相關推薦

2023-10-18 09:25:08

模型推理

2025-10-11 08:52:06

2013-09-10 15:06:30

2025-10-31 16:06:19

AI參數微調

2022-06-17 14:28:16

算法模型

2024-06-06 16:16:00

2022-10-20 15:38:02

谷歌模型

2016-05-06 18:26:08

2021-09-06 14:53:15

人工智能機器學習技術

2023-12-08 13:22:00

數據模型

2024-05-13 12:58:30

2024-03-14 08:11:45

模型RoPELlama

2023-07-18 14:50:15

2023-07-11 10:02:23

2023-07-28 12:13:28

模型語言性能

2023-09-16 13:47:47

人工智能數據

2023-06-09 13:19:34

模型AI

2024-04-07 08:50:00

谷歌框架

2017-05-11 14:00:02

Flask請求上下文應用上下文

2021-07-26 07:47:36

Cpu上下文進程
點贊
收藏

51CTO技術棧公眾號

亚洲一区精彩视频| 国产视频福利一区| av女人的天堂| 日本久久二区| 亚洲成人激情av| 日本精品一区二区三区视频 | 亚洲欧美日韩中文字幕一区二区三区| 91精品视频观看| 日韩激情在线播放| 成人中文在线| 亚洲福利视频网站| 激情黄色小视频| 欲香欲色天天天综合和网| 亚洲国产精品激情在线观看| 99re在线国产| 国产精品第六页| 国产精品国码视频| 影音先锋日韩有码| 国产国语老龄妇女a片| 秋霞国产精品| 亚洲妇熟xx妇色黄| 在线观看一区二区三区三州| 五月天婷婷激情网| 国产剧情av麻豆香蕉精品| 日韩av电影院| 亚洲国产精品成人无久久精品| 久久精品国产99久久| 亚洲国产日韩一区| 天天爽夜夜爽视频| 全球中文成人在线| 欧美自拍丝袜亚洲| 9久久9毛片又大又硬又粗| 黄色免费网站在线| 国产欧美精品国产国产专区| 国产日韩欧美一区二区| 99精品在线视频观看| 日韩电影免费在线看| 26uuu久久噜噜噜噜| 欧美激情国产精品免费| 久久久久久久久久久久久久久久久久 | 国产精品玖玖玖在线资源| 7777精品伊人久久久大香线蕉完整版 | 色欲AV无码精品一区二区久久| h视频久久久| 91精品国产91久久久久久最新毛片| 欧美一级裸体视频| 欧美成人黑人| 欧美午夜美女看片| 欧美日韩亚洲一| 人成在线免费网站| 精品成人av一区| 大j8黑人w巨大888a片| av手机免费在线观看| 亚洲二区在线观看| 免费看黄在线看| 免费影视亚洲| 亚洲成人一区在线| 国产精品无码一区二区在线| 国产夫妻在线播放| 大伊人狠狠躁夜夜躁av一区| 欧美 日韩 亚洲 一区| www.超碰在线| 精品福利在线看| 男人操女人免费软件| 神马电影网我不卡| 欧美午夜免费电影| 国产又黄又猛的视频| 国色天香久久精品国产一区| 日韩一区二区三区电影在线观看| 亚洲欧美激情一区二区三区| silk一区二区三区精品视频| 亚洲国产天堂网精品网站| 第四色在线视频| 九九精品久久| 深夜成人在线观看| 四虎影院中文字幕| 欧美另类视频| 57pao精品| 亚洲熟妇无码久久精品| 国产中文字幕一区| 国产欧美精品一区二区三区| 免费观看成年在线视频网站| 欧美国产综合色视频| 老汉色影院首页| 欧美精品videossex少妇| 精品欧美一区二区三区| 无人在线观看的免费高清视频| 日韩欧美专区| 精品区一区二区| 国产 欧美 在线| 亚洲国产一成人久久精品| 国产最新精品视频| 波多野结衣一本一道| 国产一区二区精品在线观看| 国产自产在线视频一区| 国产一区二区影视| 亚洲曰韩产成在线| 玩弄japan白嫩少妇hd| 自拍偷拍亚洲| 精品无码久久久久久国产| 成人黄色短视频| 99热免费精品| 91精品久久久久久久久中文字幕| 蜜桃在线一区二区| 国产精品视频一二三区| www污在线观看| 激情亚洲小说| 日韩av一区二区在线| 亚洲一二三四五六区| 亚洲欧美日韩在线观看a三区| 91精品一区二区| 四虎影视精品成人| 亚洲伊人色欲综合网| 色多多视频在线播放| 欧美亚洲tv| 美日韩在线视频| 奴色虐av一区二区三区| 成人a免费在线看| 伊人久久婷婷色综合98网| 成人直播视频| 亚洲精品一区二区三区精华液 | 亚洲精品第1页| 中文字幕欧美人妻精品一区| 动漫3d精品一区二区三区乱码| 最近2019中文字幕大全第二页| 国产成人亚洲欧洲在线| 国产精品1024久久| 中文字幕欧美日韩一区二区| 欧美成人h版| 日韩经典一区二区三区| 久久亚洲AV无码| 国产美女av一区二区三区| 神马影院我不卡午夜| 午夜久久中文| 亚洲国产精品久久久久秋霞蜜臀 | 欧美精品久久久久久久久久丰满| 亚洲国产美女搞黄色| 在线成人精品视频| 亚洲一本二本| 亚洲影院污污.| 伦xxxx在线| 欧美日韩国产a| 一级片久久久久| 日本中文字幕一区二区视频| 免费在线观看91| 新版的欧美在线视频| 亚洲国产精品va| 日本五十路女优| 99久久国产综合精品女不卡| 国产色一区二区三区| 久久夜色电影| 欧美在线国产精品| 色鬼7777久久| 色婷婷精品久久二区二区蜜臀av| 欧美多人猛交狂配| 日韩精品午夜视频| 亚洲日本japanese丝袜| 未满十八勿进黄网站一区不卡| 色狠狠av一区二区三区香蕉蜜桃| 中文字幕人妻互换av久久| 中文av一区特黄| 91看片破解版| 午夜久久99| 国产免费一区二区三区| 交100部在线观看| 亚洲人成网站在线播| 波多野结衣一二区| 亚洲丝袜精品丝袜在线| 性生交大片免费看l| 亚洲日本视频| 日韩美女一区| 精品国产亚洲一区二区三区| 国模极品一区二区三区| 日韩国产福利| 欧美日韩日日夜夜| 精品午夜福利在线观看| 91片黄在线观看| 三级a三级三级三级a十八发禁止| 亚洲激情中文在线| 激情视频在线观看一区二区三区| 性欧美gay| 久久色在线播放| 日本精品999| 色嗨嗨av一区二区三区| 精品熟妇无码av免费久久| 国产精品一卡二卡在线观看| 久久久久久久久久网| 欧美中文一区二区| 不卡一卡2卡3卡4卡精品在| 麻豆理论在线观看| 久久精品国产91精品亚洲| 成人免费视频国产| 欧美三级视频在线观看| 免费视频一二三区| 国产婷婷色一区二区三区| 国产精品中文久久久久久| 免费精品视频| 99国产精品白浆在线观看免费| 国产成人精品免费视| 亚洲自拍偷拍在线| 性感美女一区二区在线观看| 欧美激情成人在线视频| 国产免费av在线| 亚洲国产成人一区| 97免费观看视频| 日韩欧美精品网址| 免费一级黄色大片| 亚洲国产高清aⅴ视频| 少妇搡bbbb搡bbb搡打电话| 蜜臀精品一区二区三区在线观看| 91丨porny丨探花| 欧美gayvideo| 日本一区二区久久精品| 国产精品超碰| 亚洲综合在线小说| 78精品国产综合久久香蕉| 91av福利视频| 手机在线免费av| 色婷婷综合久久久久| 玖玖综合伊人| 日韩av网址在线| 色wwwwww| 日韩视频在线一区二区| 精品国产www| 一本大道久久a久久综合 | 色综合咪咪久久| 日韩欧美亚洲国产| 一区二区三区日韩在线观看| 99久久精品免费视频| 99久久伊人网影院| 国内精品免费视频| 国产高清精品久久久久| 一级 黄 色 片一| 国产在线播放一区| 拔插拔插华人永久免费| 久久国产日韩欧美精品| 亚洲 欧美 日韩系列| 久久亚洲色图| 激情视频综合网| 日韩电影在线看| 国产a级片免费观看| 三级成人在线视频| 三级a在线观看| 日韩va欧美va亚洲va久久| 熟女人妇 成熟妇女系列视频| 亚洲综合社区| 国产精品第12页| 日韩高清不卡一区二区三区| 欧美 日韩精品| 日韩精品亚洲一区二区三区免费| 国产主播在线看| 久久国产精品久久久久久电车| 成人毛片视频网站| 性欧美长视频| av免费网站观看| 免费xxxx性欧美18vr| 亚洲xxx在线观看| 国内一区二区在线| 麻豆短视频在线观看| 成年人网站91| 中文字幕一二三四区| 国产日韩欧美一区二区三区综合| 久久婷婷五月综合| 国产精品大尺度| 天天干中文字幕| 亚洲va欧美va天堂v国产综合| 久久狠狠高潮亚洲精品| 色婷婷精品久久二区二区蜜臂av | 日韩一卡二卡三卡国产欧美| 精品人妻一区二区三区日产乱码| 日韩欧美国产三级| 五月激情丁香婷婷| 在线观看亚洲区| 国产二区三区在线| 国外成人在线视频| 最新日韩三级| 国产在线视频欧美| 盗摄牛牛av影视一区二区| 久久综合精品一区| 久久精品国产大片免费观看| 4444亚洲人成无码网在线观看| 影音先锋中文字幕一区二区| 黄色片视频在线免费观看| 日本成人在线视频网站| www.亚洲自拍| 91在线观看一区二区| 奇米网一区二区| 亚洲一区二区视频在线| 免费在线不卡av| 日韩一区二区影院| 你懂的在线视频| 操91在线视频| 在线视频超级| 亚洲a成v人在线观看| 一区二区导航| 黄色网络在线观看| 久久精品午夜| 人妻 丝袜美腿 中文字幕| 国产欧美日韩久久| 国产一级av毛片| 欧美日韩精品免费观看视频| 人妻少妇精品无码专区久久| 中文字幕日韩欧美在线| 国产拍在线视频| 亚洲free嫩bbb| 综合色就爱涩涩涩综合婷婷| 国产成人亚洲综合无码| 老色鬼久久亚洲一区二区| 手机看片国产精品| 久久久国产精品午夜一区ai换脸 | 日韩欧美一区二区三区久久| 国产精品国产三级国产普通话对白 | 成人性做爰aaa片免费看不忠| 国产成人免费av在线| 国产性猛交xx乱| 欧美日韩国产中文字幕 | 放荡的美妇在线播放| 91久久香蕉国产日韩欧美9色| 内射后入在线观看一区| 久久综合伊人77777尤物| 日韩久久一区二区三区| 久久www免费人成精品| 狠色狠色综合久久| 中文字幕第10页| 国产精品九色蝌蚪自拍| 无码人妻精品一区二区| 亚洲男人天堂久| av成人影院在线| 国产精品久久久对白| 香蕉国产精品| 伊人国产在线视频| 国产欧美一区二区三区网站| 无码人妻熟妇av又粗又大| 日韩精品高清在线观看| 成人影院在线播放| av成人在线电影| 欧美搞黄网站| 香蕉视频xxxx| 亚洲欧美日韩在线播放| 国产三级视频在线播放| 久久精品电影网| 亚洲在线资源| 小说区视频区图片区| 狠狠色狠狠色综合| 国产精品视频一区二区在线观看| 欧美色综合天天久久综合精品| 福利小视频在线观看| 日本一区二区在线免费播放| 最新国产一区| 亚洲国产精品毛片av不卡在线| 久久久精品人体av艺术| aaa在线视频| 中文字幕av日韩| 激情久久一区二区| 99中文字幕在线观看| 国产高清在线精品| 精品少妇一二三区| 亚洲精品久久久久中文字幕二区| 国产精品xx| 日韩久久久久久久| 久久99久久精品| 强行糟蹋人妻hd中文| 欧美成人午夜电影| 美女高潮视频在线看| 欧洲高清一区二区| 久久99蜜桃精品| 免费在线观看黄视频| 亚洲国内高清视频| 欧美va在线观看| 色中文字幕在线观看| 高清在线成人网| 全部毛片永久免费看| 中文字幕一精品亚洲无线一区| crdy在线观看欧美| 国产av人人夜夜澡人人爽麻豆| 久久综合丝袜日本网| 中文字幕无线码一区| 欧美成年人视频网站| 视频小说一区二区| 中文字幕 91| 亚洲国产精品久久久久婷婷884 | 日韩av片在线看| 国产精品每日更新| 亚洲精品久久久久久久久久久久久久 | 免费观看日韩电影| 精品视频久久久久| 亚洲社区在线观看| 亚洲成av人片在线观看www| 1024精品视频| 亚洲卡通动漫在线| 狠狠狠综合7777久夜色撩人 | 国产毛片毛片毛片毛片毛片| 国语自产偷拍精品视频偷| 日韩成人三级| 国产精品日日摸夜夜爽| 欧美亚洲国产bt| 国产ktv在线视频| 国产精品无码乱伦| 久久这里都是精品| 亚洲AV午夜精品|