精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

別再「浪費」GPU了,FlashAttention重磅升級,實現長文本推理速度8倍提升

人工智能
處理小說、法律文件等長文本是大模型的一個重要應用方向,但也面臨速度上的挑戰。FlashAttention 作者 Tri Dao 等人提出的「Flash-Decoding」通過充分利用 GPU,可以將大模型的長上下文推理速度提高至 8 倍。

最近,像 ChatGPT 或 Llama 這樣的大型語言模型(LLM)引起了前所未有的關注。然而,它們的運行成本仍然極高。雖然生成單個響應可能僅需 0.01 美元(在 AWS 上的 8xA100 實例上運行幾秒鐘),但當擴大規模以滿足數十億用戶的需求時,成本會迅速累積。而且,這些用戶可能每天與 LLM 進行多次互動。某些用例的成本更高,例如代碼自動生成,因為它會隨著每次輸入新字符而運行。隨著 LLM 應用的不斷增加,即使在生成時間方面實現細微的效率提升,也將產生巨大的影響。

LLM 推理(或「解碼」)是一個迭代的過程:token 逐個生成。生成包含 N 個 token 的完整句子需要通過模型進行 N 次前向傳遞。幸運的是,我們可以緩存先前計算的 token:這意味著單個生成步驟不依賴于上下文長度,除了一個單獨的操作 —— 注意力。這個操作導致上下文長度不能很好地擴展。

在 LLM 的重要新興用例中,有一些需要利用更長的上下文。只有擁有了更長的上下文窗口,LLM 才能對更長的文檔進行推理,無論是總結文檔還是回答其中的問題。此外,它們還可以保持更長的對話歷史,甚至在編寫代碼之前處理整個代碼庫。舉個例子,在 2022 年,大多數 LLM 的上下文長度最多為 2k(例如 GPT-3),但現在,有些開源 LLM 已經可以擴展到 32k(比如 Llama-2-32k),甚至有些模型已經達到了 100k(比如 CodeLlama)。在這些情境中,注意力操作在推理過程中占據了相當大的時間比例。

在擴展 batch size 維度時,即使上下文相對較短,注意力也可能成為一個瓶頸。這是因為隨著 batch 維度的增加,需要讀取的內存量也會增加,而對于模型的其余部分,內存需求只取決于模型的大小。

為了解決上述問題,FlashAttention 的作者 Tri Dao 等人提出了一項名為「Flash-Decoding」的技術,它顯著加速了推理過程中的注意力計算,使長序列的處理生成速度提高到了原來的 8 倍。其主要思想是以最快的速度并行加載鍵和值,然后分別重新縮放和合并結果,以維持正確的注意力輸出。

解碼時的多頭注意力

在解碼期間,生成的每個新 token 都需要關注所有先前的 token,以計算:softmax (queries @ keys.transpose) @ values

這個操作已經在訓練階段通過 FlashAttention 進行了優化(包括最近的 v1 和 v2 版本),瓶頸是讀寫中間結果的內存帶寬(如 Q @ K^T)。然而,這些優化并不直接適用于推理情況,因為瓶頸不同。在訓練中,FlashAttention 并行處理 batch size 和查詢長度兩個維度。而在推理過程中,查詢長度通常為 1:這意味著,如果 batch size 小于 GPU 上的流多處理器(streaming multiprocessor,SM)數量(例如 A100 有 108 個),該操作只會利用 GPU 的一小部分!特別是在處理長上下文時,情況尤為明顯,因為它需要較小的 batch size 以適應 GPU 內存。當 batch size 為 1 時,FlashAttention 將使用不到 1% 的 GPU!

FlashAttention 只在查詢塊和 batch size 之間并行,并且在解碼期間不會設法占用整個 GPU

使用矩陣乘法基元也能執行注意力計算,這樣就不需要使用 FlashAttention 了。在這種情況下,該操作會占用整個 GPU,但會啟動許多寫入和讀取中間結果的內核,因此并不是最優的做法。

更快的注意力解碼:Flash-Decoding

新方法 Flash-Decoding 基于 FlashAttention,同時引入了一個新的并行維度:鍵值序列的長度。它綜合了上述兩種方法的優點。與 FlashAttention 類似,它在全局內存中存儲的額外數據很少。然而,只要上下文足夠長,即使 batch size 較小,它也能充分利用 GPU。

Flash-Decoding 也在鍵和值之間并行化,代價是一個小的最終歸約(reduction 步驟。

Flash-Decoding 主要有三個工作步驟:

  • 首先,將鍵 / 值分成更小的塊;
  • 使用 FlashAttention 并行計算查詢與每個這些分塊的注意力,為每行和每個分塊額外寫入一個標量值:注意力值的 log-sum-exp
  • 最后,通過對所有分塊進行歸約來計算實際輸出,使用 log-sum-exp 來調整每個分塊的貢獻。

這一切之所以可行,都是因為注意力 /softmax 可以進行迭代計算。在 Flash-Decoding 中,它在兩個級別上被使用:在分塊內部(類似 FlashAttention),以及跨分塊進行最終的歸約計算。

實際操作中,步驟(1)不涉及任何 GPU 操作,因為鍵 / 值塊是完整鍵 / 值張量的視圖。然后,有兩個獨立的核函數,分別用于執行步驟(2)和(3)。

在 CodeLlama 34B 上進行的基準測試

為了驗證上述新方法,研究者對 CodeLLaMa-34b 的解碼吞吐量進行了基準測試。該模型與 Llama 2 具有相同的架構,一般來說,結果應該適用于許多大型語言模型。研究者在不同序列長度下(從 512 到 64k),以 tok/s 為單位來測量解碼速度,并比較了多種計算注意力的方式:

  • Pytorch:使用純粹的 PyTorch 基元來運行注意力計算(不使用 FlashAttention);
  • FlashAttention v2;
  • FasterTransformer:使用 FasterTransformer 的注意力內核;
  • Flash-Decoding;

以及一個上限值,該值計算了從內存中讀取整個模型和 KV-cache 所需的時間

對于非常大的序列,Flash-Decoding 可以將解碼速度提高至 8 倍,并且比其他方法的擴展性要好得多。

在 prompt 比較小時,所有方法表現接近。但是當序列長度從 512 增加到 64k 時,除了 Flash-Decoding,其他方法的可擴展性都很差。在 Flash-Decoding 的這種模式下(batch size 為 1),擴展序列長度對生成速度的影響很小。

組件級微基準測試

研究者還在 A100 上對多頭注意力進行了微基準測試,輸入為 f16,考慮了不同的序列長度和 batch size。他們將 batch size 設置為 1,并且使用 16 個 128 維的查詢頭,以及 2 個鍵 / 值頭(分組查詢注意力),這與在 4 個 GPU 上運行的 CodeLLaMa-34b 使用的維度相匹配。

上述微基準測試展示了多頭注意力的運行時間,單位為微秒。Flash-Decoding 在序列長度擴展到高達 64k 時,幾乎實現了恒定的運行時間。

之前測量的高達 8 倍的端到端加速是可能的,因為注意力本身的速度比 FlashAttention 快高達 50 倍。在序列長度達到 32k 之前,注意力的時間大致是恒定的,因為 Flash-Decoding 能夠完全利用 GPU。

使用 Flash-Decoding

Flash-decoding 可以在以下鏈接中找到:

  • FlashAttention 包,從 v2.2 開始:https://github.com/Dao-AILab/flash-attention/tree/main
  • xFormers 包(搜索 xformers.ops.memory_efficient_attention),從 0.0.22 開始:調度程序將根據問題的大小自動使用 Flash-Decoding 或 FlashAttention 方法。當這些方法不受支持時,它可以調度到一個高效的 triton 內核,該內核實現了 Flash-Decoding 算法。

一個完整的使用 LLaMa v2 / CodeLLaMa 的解碼示例可以在 FlashAttention  repo 和 xFormers  repo 中找到。此外,作者還提供了一個簡單的 LLaMa v1/v2 模型的高效解碼代碼示例,旨在快速、易讀、有教育意義和易于修改。

參考鏈接:https://princeton-nlp.github.io/flash-decoding/

責任編輯:趙寧寧 來源: 機器之心
相關推薦

2023-03-22 13:53:26

芯片英偉達

2023-06-27 13:49:00

GPU通信RLHF

2025-04-21 09:07:00

2024-08-12 12:27:03

2025-09-09 05:00:00

2024-11-28 10:04:14

2025-10-14 08:58:00

2023-01-08 13:22:03

模型

2024-03-18 09:02:53

AI模型

2021-12-27 06:57:40

Maven工具性能

2023-07-18 14:19:00

模型AI

2025-02-27 09:09:45

2024-09-10 13:30:00

2024-11-08 15:00:00

AI模型

2025-03-12 09:35:45

2025-07-08 09:10:00

2020-06-19 10:33:16

阿里AIICML

2023-01-18 09:51:56

模型開源

2022-05-11 14:45:48

模型人工智能
點贊
收藏

51CTO技術棧公眾號

www夜片内射视频日韩精品成人| 少妇精品一区二区三区| av在线app| 国产成人精品影视| 2019精品视频| 国产欧美一区二区三区在线观看视频 | 久久精品国产色蜜蜜麻豆| 欧美成人高清视频| 国产全是老熟女太爽了| 精品三级国产| 欧美视频第一页| ijzzijzzij亚洲大全| 天堂а在线中文在线无限看推荐| 美女mm1313爽爽久久久蜜臀| 午夜精品久久久久久久99热| 亚洲色图100p| 乱亲女h秽乱长久久久| 欧美日韩mp4| 18岁网站在线观看| 3d玉蒲团在线观看| 国产日韩欧美精品在线| 超碰97人人人人人蜜桃| 蜜臀精品一区二区三区| 黄色综合网站| 久久精品视频一| 真实乱视频国产免费观看| 国产精品亚洲综合在线观看| 色综合久久久久综合99| www.好吊操| 麻豆视频在线观看免费网站| 久久久精品综合| 国产在线精品一区| 99国产精品久久久久久久成人| 久久久久国产精品一区三寸| 久久久久久久久91| 老湿机69福利| 久久国产成人精品| 一本久久综合亚洲鲁鲁| 538国产视频| 国产精品欧美大片| 日韩欧美精品三级| 日韩av影视大全| 外国成人毛片| 欧美视频一区二区在线观看| 成年人免费在线播放| 超碰在线中文字幕| 亚洲永久精品大片| 好色先生视频污| 麻豆影院在线观看| 国产精品久99| 日韩欧美三级电影| 成人福利在线| 欧美国产激情二区三区| 欧美一级日本a级v片| 久青草国产在线| 国产亚洲精品bt天堂精选| 久久免费看av| 国产在线一二三| 国产片一区二区| 视频三区二区一区| av电影在线观看网址| 日本一区二区三级电影在线观看| 日本视频一区在线观看| 国产有码在线| 国产精品久久久久久久久搜平片| 五月天国产一区| 成年午夜在线| 最新高清无码专区| 51xx午夜影福利| 欧美xxxx性xxxxx高清| 亚洲成人免费视频| 国产在线观看福利| 日韩制服一区| 欧美电影影音先锋| 超碰人人cao| 久久资源综合| 亚洲欧美在线免费观看| 人妻熟人中文字幕一区二区| 天天射综合网视频| 欧美成人精品激情在线观看| 国产在线精品观看| 视频一区免费在线观看| 国产精品丝袜一区二区三区| 国产男女无套免费网站| 成人精品一区二区三区四区| 国产亚洲欧美一区二区三区| 韩国精品视频| 中文字幕制服丝袜一区二区三区| 色婷婷777777仙踪林| 美女搞黄视频在线观看| 欧美揉bbbbb揉bbbbb| 午夜免费视频网站| 日韩美女国产精品| 日韩中文字幕久久| 日韩三级一区二区三区| 日产欧产美韩系列久久99| 亚洲最大福利网| 天天av综合网| 国产精品久线观看视频| 日本免费成人网| 搜成人激情视频| 日韩欧美一区在线观看| 色婷婷在线影院| 综合久久99| 日本精品视频网站| www.蜜臀av.com| 国产无人区一区二区三区| 国产免费xxx| 91精品产国品一二三产区| 337p亚洲精品色噜噜噜| 中文字幕一二三四区| 午夜欧美精品久久久久久久| 欧美在线观看一区二区三区| 国产绿帽刺激高潮对白| 久久久久久久久久久久久女国产乱| 青草全福视在线| 欧美日韩在线精品一区二区三区激情综合 | 亚洲另类激情图| 久久国产美女视频| 久久深夜福利| 精品国产一区二区三区免费 | 欧美激情免费在线| 中文在线资源天堂| 99re热这里只有精品视频| 桥本有菜av在线| 天天综合网天天| 日韩av在线看| 黄色小说在线观看视频| 狠狠色丁香婷综合久久| 任我爽在线视频精品一| 国产伦久视频在线观看| 日韩三级视频中文字幕| 亚洲欧美综合7777色婷婷| 丝袜亚洲另类欧美| 久久国产精品免费一区| 国产乱码在线| 欧美电影免费提供在线观看| 99久久99久久精品国产| 免费成人在线观看视频| 偷拍视频一区二区| 亚洲wwww| 亚洲欧洲美洲在线综合| wwwwww国产| 97精品电影院| 国产精品免费入口| 婷婷成人影院| 69av在线播放| 婷婷国产在线| 欧美日韩在线视频观看| 亚洲熟女一区二区| 亚洲精品偷拍| 久久精品magnetxturnbtih| zzzwww在线看片免费| 精品99一区二区三区| 麻豆一区二区三区精品视频| 国产成人av电影在线观看| 国产精品av免费观看| av日韩在线播放| 久久久久久亚洲精品不卡| 二区三区在线视频| 亚洲第一主播视频| 亚洲av无码一区二区三区观看| 99在线精品免费视频九九视| 久久精品人成| 欧美福利在线播放| 最近2019中文字幕mv免费看| 91中文字幕在线播放| 亚洲欧美日韩小说| 国产乱淫av片| 午夜亚洲性色福利视频| 区一区二区三区中文字幕| 成人福利一区二区| 欧美成人性生活| 色香蕉在线视频| 色婷婷综合在线| gv天堂gv无码男同在线观看| 精品一区二区三区在线播放| 成人在线视频一区二区三区| 婷婷亚洲精品| 国产精品久久久久免费a∨大胸| 香蕉视频在线看| 日韩欧美一级二级三级久久久| 国产污视频在线观看| 久久看人人爽人人| 亚洲一区二区三区观看| 精品动漫av| 色99中文字幕| 欧美二区观看| 欧美专区在线观看| 日韩免费啪啪| 亚洲电影免费观看高清| 青青视频在线免费观看| 亚洲天堂中文字幕| 成人手机在线免费视频| 另类欧美日韩国产在线| www污在线观看| 日本精品黄色| www.av一区视频| 中文字幕系列一区| 午夜精品一区二区三区在线| 成人精品福利| 日韩av在线网站| 亚洲图片在线播放| 婷婷综合另类小说色区| 久久久久久久久久97| 久久综合色综合88| 小日子的在线观看免费第8集| 久久久天天操| 日本熟妇人妻xxxx| 小小影院久久| 日韩欧美亚洲在线| 欧美1区二区| 亚洲影影院av| 欧美123区| 欧美一级免费看| 久草在线新免费首页资源站| 中文字幕亚洲欧美日韩高清| 三级国产在线观看| 精品免费视频.| 国产三级精品在线观看| 色8久久人人97超碰香蕉987| 国产一级二级毛片| 亚洲人成网站影音先锋播放| 亚洲AV无码片久久精品| 成人精品视频一区| 精品人妻一区二区三| 美女看a上一区| 男人女人黄一级| 亚洲尤物精选| 国产精品12345| 黄色一区二区三区四区| 裸体裸乳免费看| 欧美黄色录像片| 亚洲人成人77777线观看| 综合综合综合综合综合网| 国产一区不卡在线观看| 综合中文字幕| 97超级碰碰| 精品网站999| 亚洲在线www| 国产精品白丝久久av网站| 国产日韩在线看片| 日本欧美在线| 成人免费看吃奶视频网站| 狠狠久久伊人中文字幕| 国产精品极品尤物在线观看 | 国产精品视频免费在线| 国产精品一区二区免费福利视频| 日本在线观看天堂男亚洲| 亚洲男人av| 欧美亚洲国产视频| 欧美电影免费观看| 国产精品91久久久| 九九热这里有精品| 91精品在线播放| 日韩在线亚洲| 国产超碰91| 久久夜色精品国产噜噜av小说| 精品久久久久久一区二区里番| 麻豆成人入口| 欧洲亚洲一区二区| 成人一二三区| 中国 免费 av| 亚洲国产清纯| 黄色一级大片在线观看| 日本aⅴ亚洲精品中文乱码| 国产福利在线免费| 国产美女在线精品| 天天躁日日躁狠狠躁免费麻豆| av中文字幕一区| 国产成人无码精品久久二区三| 国产欧美一区二区在线| 日本高清不卡免费| 无吗不卡中文字幕| 成人h动漫精品一区二区下载| 在线观看视频91| 99精品在线视频观看| 亚洲аv电影天堂网| 国产无套粉嫩白浆在线2022年| 在线播放国产一区中文字幕剧情欧美| 中文字幕在线观看日本| 欧美乱妇高清无乱码| gay欧美网站| 成人久久18免费网站图片| 成人免费直播在线| 日韩欧美一区二区在线观看| 欧美成人一品| 乱子伦视频在线看| 国产一区二区免费在线| 亚洲av网址在线| 中文字幕在线视频一区| 免费毛片一区二区三区| 欧美色中文字幕| 免费a级片在线观看| 中文字幕国产精品久久| 国产三线在线| 国产精品网站视频| 国产在线播精品第三| 国产精品免费一区二区三区| 亚洲精品动态| 一区二区三区久久网| 亚洲午夜久久久久久尤物| 人妻熟女一二三区夜夜爱| 久久超碰97中文字幕| 国产熟女高潮一区二区三区| 国产三级欧美三级日产三级99| 麻豆影视在线播放| 欧美中文字幕一区二区三区亚洲| 超碰福利在线观看| 在线观看成人黄色| 51av在线| 成人综合国产精品| 在线日本制服中文欧美| av一区二区三区免费观看| 美日韩一区二区| 蜜桃精品成人影片| 洋洋成人永久网站入口| 一级片在线免费播放| 国产一区 二区 三区一级| 亚洲av网址在线| 一区二区三区日韩在线观看| 日韩不卡高清视频| 日韩av最新在线观看| 欧美xxxxhdvideosex| 96pao国产成视频永久免费| 欧美精选视频在线观看| 免费毛片小视频| 成人久久18免费网站麻豆 | 亚洲大片免费观看| 精品少妇一区二区三区在线播放| 午夜免费视频在线国产| 日韩av电影国产| 清纯唯美亚洲经典中文字幕| 日韩极品视频在线观看| 经典三级在线一区| 国产精品www爽爽爽| 在线看日本不卡| 久久久久久青草| 欧美洲成人男女午夜视频| 久久久久久毛片免费看| 人妻无码久久一区二区三区免费| 国产麻豆成人传媒免费观看| 久草福利资源在线| 欧美日韩和欧美的一区二区| 在线看的av网站| 国产一区在线播放| 无需播放器亚洲| 亚洲天堂网2018| 日韩毛片一二三区| 国产特黄一级片| 欧美成人免费va影院高清| 国内不卡的一区二区三区中文字幕| 亚洲午夜久久久影院伊人| 久久97超碰国产精品超碰| 国产人与禽zoz0性伦| 91精品在线麻豆| 青青在线视频| 精品国产乱码久久久久| 亚洲一区区二区| 日本一级免费视频| 欧美日韩另类一区| 国产一区久久精品| 51国偷自产一区二区三区的来源| 欧美va天堂在线| 中文字幕在线播放一区| 色又黄又爽网站www久久| 超碰国产在线| 91久久夜色精品国产网站| 欧美区国产区| 亚洲色图14p| 欧美性色欧美a在线播放| 日本视频不卡| 国产传媒欧美日韩| 亚洲一区区二区| 黑人と日本人の交わりビデオ| 欧美精品v国产精品v日韩精品 | 久久精品国产欧美激情| 国产精品久久久久久久久久久久久久久| 国产又大又长又粗又黄| 成人一区二区三区视频在线观看| 国产黄色片免费看| 最新国产精品亚洲| 日韩精品一区二区三区中文| 久久久久久免费看| 日本一区二区在线不卡| 国产乱码久久久| 68精品久久久久久欧美 | 日韩精品福利在线| 美女久久久久久| 日韩xxxx视频| 国产肉丝袜一区二区| 99热这里只有精品3| 91爱视频在线| 亚洲自拍偷拍网| 素人fc2av清纯18岁| 欧美肥胖老妇做爰| 在线黄色的网站| www.黄色网址.com| 久久这里都是精品| 国产高清视频免费|