精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

MiniCache 和 PyramidInfer 等 6 種優化 LLM KV Cache 的最新工作

發布于 2024-5-30 10:51
瀏覽
0收藏

一、背景

在 LLM 推理中,常常會采用 KV Cache 來緩存之前 Token 的中間結果,以顯著減少重復計算,從而降低自回歸生成中的延遲。然而,KV Cache 的大小與序列長度成正比,在處理長序列時會面臨極大的挑戰。尤其當前許多模型開始支持幾百 K 甚至幾 M 的序列長度,進一步凸顯了 KV Cache 的問題,因此很多研究工作致力于降低 KV Cache 的占用。

本文中簡單介紹幾個最新的工作,包括 SnapKV、YOCO、CLA、Layer-Condensed KV Cache、MiniCache 以及 PyramidInfer,它們都試圖降低緩解 KV Cache 的壓力。關于 GQA、MQA、DeepSeek MLA 以及量化相關的工作我們已經在之前進行了介紹,這里不再贅述。

二、KV Cache 大小

KV Cache 的大小與模型配置(層數,hidden_size,Attention head 個數等)以及序列長度、Batch Size 成正比。其中單個 Token 對應的 KV Cache 大小與模型配置相關,并且是固定的,這里將其稱為單位 KV Cache 計算公式為:

sum_token = (hidden_size /  num_attention_heads * num_key_value_heads) * num_hidden_layers * 2(k, v)

而總的 KV Cache 大小為:

sum = sum_token * seq_len * batch_size

batch_size 和 seq_len 越大,KV Cache 越大,如下圖所示為 LLaMA2-7B 模型的 batch_size 和 seq_len 對應的 KV Cache 大小(默認 FP16 精度):

  • 當 batch_size * seq_len 為32K時,比如 batch_size 為 1,seq_len 為 32K,其 KV Cache 大小為16GB,甚至超過模型權重大小 14GB。
  • 當 batch_size * seq_len 為128K時,比如 batch_size 為 1,seq_len 為 128K,其 KV Cache 大小為 64GB,加上模型權重 14GB 甚至快要超過 A100 GPU 的 80GB 顯存限制。?

MiniCache 和 PyramidInfer 等 6 種優化 LLM KV Cache 的最新工作-AI.x社區

三、SnapKV

[2404.14469] SnapKV: LLM Knows What You are Looking for Before Generation 的核心思路比較簡單,如下圖 Figure 1 所示,在 Prefill 階段不是保留所有輸入 Token 的 KV Cache,而是采用稀疏化的方式,針對每個 Attention Head 將 Prompt 分為 Prefix 和 Window 兩部分;然后,通過 Window 中 Token 與 Prefix 中 Token 的 Attention Score 來選擇稀疏化的 Token;最后,將它們的 KV Cache 和 Window 中 Token 的 KV Cache 一起作為 Prompt 的 KV Cache。需要說明的是:每個 Attention Head 中從 Prefix 里挑選的 Token 可能不同。此外,Decoding 階段也不會再更新 Prompt 的 KV Cache。

SnapKV 在處理 16K Token 的輸入時,可以獲得 3.6x 的加速,內存效率提升 8.2x。同時在 16 個長序列數據集上保持了與基線模型相當的精度。此外,使用 Huggingface 可以在單個 A100-80GB GPU 上處理 380K 上下文 Token 的任務。

MiniCache 和 PyramidInfer 等 6 種優化 LLM KV Cache 的最新工作-AI.x社區

四、YOCO

在 [2405.05254] You Only Cache Once: Decoder-Decoder Architectures for Language Models 中,作者只保留一層全局的 KV Cache。這種設計可以大大降低 GPU 顯存的需求,加快 Prefill 階段。如下圖所示,YOCO 模型與常規 Decoder-Only LLM 的區別有幾點:

  • 前 L/2 層(Self-Decoder)使用Efficient Self-Attention,實際上就是滑動窗口 Self-Attention或作者之前論文提出的Multi-Scale Retention。其只用保存窗口內的 KV Cache 即可。
  • 第 L/2 層的 KV Cache 作為Global KV Cache。也就是只有一層有全局 KV Cache。
  • 后 L/2 層(Cross-Decoder)使用Global Cross Attention,對應的 KV 為上一步的 Global KV Cache,也就是后續所有 L/2 層的 Cross Attention 的 KV Cache 都是相同的。?

MiniCache 和 PyramidInfer 等 6 種優化 LLM KV Cache 的最新工作-AI.x社區

五、CLA

[2405.12981] Reducing Transformer Key-Value Cache Size with Cross-Layer Attention 中作者同樣采用 Cross-Attention 機制來降低 KV Cache。不同的是作者并非采用固定層作為 Cross-Attention 的輸入,而是采用相鄰層,如下圖左圖所示。最簡單的方式就是隔層共享,稱作 CLA2,實際也可以每 3 層共享,稱作 CLA3,如下圖右圖所示。此外,這種方法與 MQA 和 GQA 等修改 Attention Head 的方案是兼容的。CLA2 顯存減小 2x,CLA3 顯存減小 3x。

作者訓練 1B 和 3B 參數模型模型實驗表明,CLA 相比傳統的 MQA 在顯存占用、準確性方面可以實現帕累托改進,從而實現更長的序列長度和更大的 Batch Size。(PS:但并不意味著可以優于現在廣泛采用的 GQA?)

MiniCache 和 PyramidInfer 等 6 種優化 LLM KV Cache 的最新工作-AI.x社區

六、Layer-Condensed KV Cache

在 [2405.10637] Layer-Condensed KV Cache for Efficient Inference of Large Language Models 中,作者同樣采用了僅計算和緩存少量層 KV Cache 的方案,從而顯著節約顯存消耗并提升吞吐量。如下圖 Figure 1 所示,僅保留最后一個 Transfomer Block 層的 KV Cache,當生成后續 Token 時其對應的 KV Cache 都從最后一層取。

MiniCache 和 PyramidInfer 等 6 種優化 LLM KV Cache 的最新工作-AI.x社區

七、MiniCache

在 [2405.14366] MiniCache: KV Cache Compression in Depth Dimension for Large Language Models 中,作者觀察到 KV Cache 在 LLM 中的深層部分的相鄰層之間表現出了高度相似性,可以基于這些相似性對 KV Cache 進行壓縮。此外,作者還引入了 Token 保留策略,對高度不同的 KV Cache 不進行合并。并且這種方法可以與其他的 KV Cache 量化方案正交使用。

作者在 LLaMA-2、LLaMA-3、Phi-3、Mistral 和 Mixtral 等模型上進行實驗,在 ShareGPT 數據集上,采用 4 Bit MiniCache LLaMA–7B 與 FP16 全量 KV Cache 相比實現了 5.02x 的壓縮比,推理吞吐提高約 5 倍,顯存占用減少 41%,同時性能幾乎無損。

如下圖 Figure 3 所示為其壓縮策略和保留策略:

MiniCache 和 PyramidInfer 等 6 種優化 LLM KV Cache 的最新工作-AI.x社區

如下圖 Figure A 所示為其詳細的執行流程:

  • 1. 獲取 KV Cache:在 Prefill 階段,逐層生成 KV Cache。
  • 2. 跨層合并:當到達合并開始層 S 時,將當前層 L 的 KV Cache 與前一層 L-1 的 KV Cache 進行合并,以減少冗余。
  • 3. 緩存:將合并后的 KV Cache 存儲起來,以便將來使用。
  • 4. 刪除:在 Decoding 階段,刪除不必要的或冗余的 KV Cache,以優化內存使用。
  • 5. 加載和生成:獲取所需的 KV Cache,用于生成輸出。
  • 6. 恢復:對獲取的 KV Cache 應用誤差抑制機制,包括 rescaling 和 retention recovery,以最小化合并和壓縮過程中引入的誤差。
  • 7. 更新:在恢復階段后,使用最終的 KV Cache 更新共享的 KV Cache。


MiniCache 和 PyramidInfer 等 6 種優化 LLM KV Cache 的最新工作-AI.x社區

八、PyramidInfer

在 [2405.12532] PyramidInfer: Pyramid KV Cache Compression for High-throughput LLM Inference 中,作者發現影響未來生成的關鍵 KV 的數量逐層減少,并且可以通過注意力權重的一致性來提取這些關鍵 KV。基于這些發現,作者提出了 PyramidInfer,通過逐層保留關鍵上下文來壓縮 KV Cache。PyramidInfer 在不犧牲性能的情況下計算更少的 KV,并節約大量顯存。實驗結果表明,與 Accelerate 相比,PyramidInfer 的吞吐提高了 2.2 倍,KV Cache 的顯存占用減少了 54% 以上。

如下圖 Figure 2 所示為 PyramidInfer 與 StreamingLLM 和 H2O 的區別,PyramidInfer 中 KV Cache 會逐層遞減,越往后越稀疏(PS:如果是這樣,那么 Layer-Condensed KV Cache 中只保留最后一層的方案是不是不太合理):

MiniCache 和 PyramidInfer 等 6 種優化 LLM KV Cache 的最新工作-AI.x社區

PyramidInfer 的執行過程如下圖 Figure 6 所示:

  • 在 Prefill 階段,PyramidInfer 只保留每層的關鍵上下文(Pivotal Context, PvC)來壓縮 KV Cache。
  • 在 Decoding 階段,PyramidInfer 根據新的最近的 Token 來更新 PvC。?

MiniCache 和 PyramidInfer 等 6 種優化 LLM KV Cache 的最新工作-AI.x社區

如下圖 Table 1 所示,PyramidInfer 在使用更少 KV Cache 的情況下獲得更快的推理速度:

MiniCache 和 PyramidInfer 等 6 種優化 LLM KV Cache 的最新工作-AI.x社區

如下圖 Figure 11 所示,作者進一步測試了 PyramidInfer 在更多 Batch Size 下的表現,其在比較小 Batch Size 時幾乎沒有加速,主要是因為減少 KV Cache 還需要一些額外的計算;而在比較大的 Batch Size 能獲得更大的加速比。而 Full Cache 當 Batch Size 大于 32 吞吐反而降低:(PS:這個降低不太符合預期,通常來說隨著 Batch Size 的增加,計算密度會更高,相應的吞吐也應該更高,而且在 32 左右還遠沒有到 Compute Bound)。

MiniCache 和 PyramidInfer 等 6 種優化 LLM KV Cache 的最新工作-AI.x社區

九、參考鏈接

  1. ??https://arxiv.org/abs/2404.14469??
  2. ??https://arxiv.org/abs/2405.05254??
  3. ??https://arxiv.org/abs/2405.12981??
  4. ??https://arxiv.org/abs/2405.10637??
  5. ??https://arxiv.org/abs/2405.14366??
  6. ??https://arxiv.org/abs/2405.12532??

本文轉載自 ??AI閑談??,作者: AI閑談

已于2024-5-30 12:10:20修改
收藏
回復
舉報
回復
相關推薦
不卡av在线播放| 久久精品噜噜噜成人av农村| 精品日韩在线一区| 99久久国产综合精品五月天喷水| 国产 日韩 欧美 综合| 亚洲欧美日韩国产综合精品二区| 中文字幕一精品亚洲无线一区 | 日韩av在线发布| 久久精品中文字幕电影| 亚洲一级av无码毛片精品 | 色七七影院综合| 99精品视频免费版的特色功能| 爱搞国产精品| 国产精品久久国产精麻豆99网站| 91精品网站| 香蕉污视频在线观看| 一区二区中文字| 亚洲欧美日韩久久久久久| 亚洲天堂小视频| 日韩大尺度黄色| www.日本不卡| 欧美成人精品激情在线观看| 亚洲一区二区三区综合| 国产色播av在线| 国产精品伦一区| 精品国产乱码久久久久软件 | av电影网站在线观看| 日韩精品一区二区三区中文| 国产精品成人一区二区艾草| 久久久久久艹| 精品人妻av一区二区三区| 日日嗨av一区二区三区四区| 久久久久久久久久久网站| 精品国产大片大片大片| 最新国产一区| 亚洲成人av资源网| 成人免费播放视频| 欧美xxxx网站| 欧美在线看片a免费观看| 亚洲国产精品成人天堂| av网址在线免费观看| 亚洲国产精品二十页| 九九九九久久久久| 人妻无码一区二区三区久久99| 国产一区亚洲| 亚洲福利视频免费观看| 无套白嫩进入乌克兰美女| 3d欧美精品动漫xxxx无尽| 欧美日韩国产在线看| 国产免费裸体视频| 18+视频在线观看| 亚洲欧洲日产国码二区| 亚洲人久久久| 欧美成人性生活视频| 国产欧美一区二区三区在线看蜜臀 | 国产亚洲精品女人久久久久久| 欧美电影一二区| 尤物99国产成人精品视频| 久久婷五月综合| 欧美性片在线观看| 一区二区在线免费观看| ijzzijzzij亚洲大全| 老司机福利在线视频| 国产精品大尺度| 熟女视频一区二区三区| 黄色av免费在线| 一区二区三区在线观看国产| 丰满的少妇愉情hd高清果冻传媒 | 免费成人av| 亚洲片在线资源| 少妇av片在线观看| 午夜精品一区二区三区国产| 久久综合88中文色鬼| 欧美三根一起进三p| 黑丝一区二区三区| 萌白酱国产一区二区| 精品无码一区二区三区电影桃花 | 亚洲成熟丰满熟妇高潮xxxxx| 免费h在线看| 在线中文字幕不卡| caoporm在线视频| 亚洲欧洲国产精品一区| 亚洲国产天堂网精品网站| 亚洲第一成人网站| 日韩欧美二区| 久精品免费视频| 69成人免费视频| 亚洲九九视频| 久久免费国产视频| 精品国产xxx| 国产一区二区三区在线观看精品| 国产区欧美区日韩区| 黄色美女网站在线观看| 成人国产亚洲欧美成人综合网| 国产精品99久久久久久久久 | 欧美一区二区成人| 国产wwwxx| 麻豆视频在线看| 欧美午夜一区二区| 美女被爆操网站| 亚洲人成网www| 免费91在线视频| 老熟妇仑乱一区二区av| 久久99国产精品免费网站| 国内精品视频免费| 亚洲精品传媒| 欧美日韩国产一中文字不卡| 国产又黄又猛的视频| 欧美调教在线| 欧美成人三级视频网站| 色老头在线视频| 久久不射中文字幕| 91精品视频免费观看| 日韩精品系列| 依依成人精品视频| 日韩av在线中文| 亚洲高清极品| 久久免费观看视频| 国产熟女一区二区三区四区| 久久久激情视频| 800av在线免费观看| av在线播放一区| 欧美伊人久久大香线蕉综合69| 午夜免费视频网站| av伊人久久| 欧美成人自拍视频| 中文在线a天堂| 久久天天做天天爱综合色| 精品视频在线观看一区二区| 国语自产精品视频在线看抢先版结局| 日韩欧美一二三区| 一级免费黄色录像| 日本亚洲一区二区| 日韩理论片在线观看| 玖玖在线播放| 亚洲成成品网站| 超碰手机在线观看| 精品无人区卡一卡二卡三乱码免费卡| 成人国产精品久久久| 九色在线观看| 欧美日韩亚洲一区二| 国产情侣久久久久aⅴ免费| 88国产精品视频一区二区三区| 国产女人精品视频| 岛国大片在线观看| 自拍偷拍亚洲激情| 91小视频在线播放| 99久久亚洲精品| 国产精品情侣自拍| yes4444视频在线观看| 色狠狠色狠狠综合| 变态另类ts人妖一区二区| 免播放器亚洲| 欧美日韩另类综合| 亚洲日本网址| 中文字幕日韩精品有码视频| 中文字幕免费高清在线观看| 中文字幕免费不卡| 中文字幕精品一区二区三区在线| 四虎成人av| 成人在线观看视频网站| www免费在线观看| 精品三级av在线| 五月婷婷开心网| 久久久午夜精品| www.这里只有精品| 亚洲激情中文| 国产精品区一区二区三在线播放 | 天天射成人网| 亚洲永久在线观看| 国产蜜臀在线| 日韩大陆毛片av| 成人免费视频国产免费| 国产精品视频yy9299一区| 国产三级精品三级在线| 国产精品二区影院| 久久久综合亚洲91久久98 | 亚洲free嫩bbb| 女人黄色免费在线观看| 亚洲精品一区二区三区婷婷月| 色老头在线视频| 亚洲欧美日韩国产手机在线 | 高清一区二区三区| 日韩av123| 九义人在线观看完整免费版电视剧| 欧美一级一区二区| 欧美bbbbbbbbbbbb精品| 国产精品天天摸av网| 99久久综合网| 久久性色av| 国产日产欧美一区二区| 日韩mv欧美mv国产网站| 国产欧美日韩精品专区| 欧美日韩经典丝袜| 在线精品高清中文字幕| 亚洲欧美黄色片| 色综合久久综合| 日本精品一二三区| 麻豆成人在线| 欧美 日韩 国产精品| 九色精品91| 岛国视频一区免费观看| 精品欧美一区二区三区在线观看| 久久影视电视剧免费网站| 青青视频在线观| 日韩写真欧美这视频| www五月天com| 一区二区欧美国产| 国产真人真事毛片视频| 成人福利电影精品一区二区在线观看| 第四色婷婷基地| 国产一区二区三区成人欧美日韩在线观看 | 中文字幕在线观看一区二区| 久久久久亚洲AV成人无码国产| 激情综合网最新| 可以免费在线看黄的网站| 国内精品久久久久久久影视蜜臀 | 91久久精品久久国产性色也91| 中文在线免费视频| 日韩成人在线视频观看| 国产人妻精品一区二区三| 在线国产电影不卡| 国产手机在线视频| 一二三四社区欧美黄| 亚洲欧洲综合网| 久久久久久久久蜜桃| 中文字幕一区三区久久女搜查官| 国产真实乱子伦精品视频| 免费看污黄网站| 性久久久久久| 人妻av中文系列| 在线观看不卡| 老司机激情视频| 欧美一区高清| 4444亚洲人成无码网在线观看| 97精品国产| 亚洲日本精品| 久久国产精品亚洲人一区二区三区| 日产精品久久久一区二区| 九九久久电影| 青青影院一区二区三区四区| 欧美日韩一本| 久久久久九九九| 中文有码一区| 日韩中文一区| 欧美一站二站| 在线视频福利一区| 午夜久久免费观看| 麻豆传媒网站在线观看| 女生裸体视频一区二区三区| 超碰97在线看| 中文字幕一区二区av| 99精品一级欧美片免费播放| 亚洲九九在线| 美脚丝袜脚交一区二区| 亚洲精品女人| 视频一区视频二区视频三区高| 亚洲动漫在线观看| 欧美少妇一区| 91嫩草亚洲精品| 黄色网zhan| 国产专区一区| 免费av观看网址| 免费久久99精品国产自在现线| 日本黄色三级大片| 日本成人在线视频网站| 亚洲综合激情视频| 成人丝袜18视频在线观看| 99re这里只有| 国产日韩欧美精品一区| 亚洲综合视频网站| 26uuu色噜噜精品一区| xxx在线播放| 国产精品看片你懂得| 91aaa在线观看| 欧美性猛交xxxx黑人猛交| 中文字幕资源网| 日韩欧美高清在线| 天堂a中文在线| 欧美一区二区三区公司| 欧美一级视频免费| 亚洲热线99精品视频| 欧美成年黄网站色视频| 97色在线视频| 免费污视频在线| 欧美亚洲视频一区二区| 国产精品99精品一区二区三区∴| 亚洲综合精品伊人久久| 青青久久av| 综合久久国产| 亚洲综合电影一区二区三区| 天堂视频免费看| 99久久精品免费看国产免费软件| 日韩免费成人av| 亚洲一区二区精品久久av| 亚洲中文无码av在线| 精品国产一二三| jizz中国女人| 精品亚洲男同gayvideo网站| 免费a在线看| 欧美综合国产精品久久丁香| 国产精品视频一区二区三区综合| 免费国产一区二区| 亚洲欧美综合| 亚洲77777| 久久综合色一综合色88| 久久精品www人人爽人人| 在线视频国产一区| 日韩一级免费毛片| 久久精品国产成人| 日韩pacopacomama| 国产一区二区三区高清| 亚洲精品成人| 艹b视频在线观看| 久久久青草青青国产亚洲免观| 国产真实夫妇交换视频| 91精品蜜臀在线一区尤物| 你懂的免费在线观看| 欧美高清在线观看| jvid一区二区三区| 欧美污视频久久久| 国产精品外国| 无码人妻一区二区三区在线| 亚洲久草在线视频| 亚洲天堂国产精品| 亚洲午夜精品久久久久久久久久久久 | 中文在线最新版天堂| 日韩精品高清视频| 91超碰在线播放| 成人av影视在线| 一区二区三区四区电影| 天堂网在线免费观看| 久久精品夜色噜噜亚洲aⅴ| 国产成人免费观看视频| 欧美tk—视频vk| 91香蕉在线观看| 91精品国产99久久久久久红楼| 午夜精品久久久久久久四虎美女版| 日韩不卡一二三| 国产女主播在线一区二区| 国产suv精品一区二区33| 亚洲精品美女在线| 九色porny丨首页入口在线| 国产精品我不卡| aⅴ色国产欧美| 国产精品亚洲二区在线观看| 99re热这里只有精品免费视频| 日韩激情在线播放| 亚洲第一区第一页| 精品捆绑调教一区二区三区| 精品国产乱码久久久久久丨区2区| 雨宫琴音一区二区在线| 污污免费在线观看| 精品久久久久久久久久久久久| 五月激情婷婷网| 青青草一区二区| 欧美综合在线视频观看| 黄大色黄女片18第一次| 亚洲女与黑人做爰| 国产91免费在线观看| 91精品国产成人| 国产一区二区在线| 五月天av在线播放| 亚洲欧美日韩在线播放| 亚洲美女性生活| 秋霞av国产精品一区| 欧美日韩激情| 在线成人免费av| 亚洲成a人片在线观看中文| 四虎精品成人影院观看地址| 国产成人精品视频在线观看| 日韩www.| 国产国语老龄妇女a片| 欧美小视频在线观看| 91伦理视频在线观看| 91九色蝌蚪嫩草| 国产麻豆综合| 999久久久国产| 精品国产一区久久| 中文在线а√天堂| 一区二区三区的久久的视频| 国产不卡视频在线播放| 91麻豆精品久久毛片一级| 欧美一级一区二区| 免费在线小视频| 亚洲综合av一区| 成人精品鲁一区一区二区| 无码人妻丰满熟妇精品| 久久久国产精品一区| 麻豆一区二区| 日本不卡一区二区在线观看| 亚洲电影激情视频网站| 超碰国产在线| 国产精品日韩二区| 日本人妖一区二区| 久久久久久久久久久97| 最好看的2019年中文视频| 国产精品qvod| 中文字幕国产高清| 欧美性猛交xxxx免费看久久久|