精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

微軟 RetrievalAttention: LLM+ANN, LLM 推理速度與精度的平衡

發布于 2024-10-11 16:01
瀏覽
0收藏

一、背景

本文我們繼續介紹一個針對超長上下文的 LLM 推理加速工作,同樣是 Token 稀疏化的方案,來解決 LLM 在超長序列場景計算量大、GPU 顯存消耗大的問題,不過結合了 ANN 檢索,可以實現更高的精度。

對應的論文為:[2409.10516] RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval

二、摘要

本文中作者提出了 RetrievalAttention,無需訓練就可以加速 Attention 計算。為了利用 Attention 的動態稀疏特性,RetrievalAttention 在 CPU 內存中使用 KV Cache 構建近似檢索(ANN)索引,并在生成過程中通過向量檢索識別最相關的索引。由于 Query 向量和 Key 向量之間存在 Out-Of-Distribution(OOD)問題,現成的 ANN 檢索仍然需要掃描 O(N) 數據(通常占所以 Key 的 30%)進行準確檢索,無法利用高稀疏性。

為了解決這個挑戰,RetrievalAttention 采用注意力感知向量檢索算法,可以調整 Query 只訪問 1-3% 的數據,從而實現亞線性時間復雜度。RetrievalAttention 大幅降低了長上下文 LLM 推理的成本,大幅降低 GPU 顯存需求,同時保持模型準確性。特別的,RetrievalAttention 只需要 16GB 內存就可以在具有 8B 參數的 LLM 上支持 128K Token的推理,在單個 RTX4090(24GB)上可以在 0.188s 內生成一個 Token。

如下圖 Figure 1 所示為本文方法與幾種常見方案的對比(PS:可以看出,本文方案相比之前 Token 稀疏化方案,是在犧牲一定推理速度的情況下提升精度):

微軟 RetrievalAttention: LLM+ANN, LLM 推理速度與精度的平衡-AI.x社區

三、方法

3.1 背景

使用 ANN 來識別關鍵 Token 有個獨特的挑戰:當前大部分的 ANN 引擎都假設 Query 向量和 Key 向量滿足相同的分布,以此來實現高召回率。作者在這篇論文中首次提出這種假設在 Attention 機制中不成立。Query 的這種 OOD 特性損壞了 ANN 的預期檢索質量,從而導致不得不訪問更多的數據來保持正確性,作者實驗表明,為了維持可接受的準確率,至少需要掃描 30% 的 Key 向量。

如下圖 Figure 2 所示:

  • (a)Attention Score 具有非常高的稀疏性,64000 個 Token,只有不到 500 Token 的 Score 大于 10-6。
  • (b)Q 和 Q 或者 K 和 K 的相關性很高,而 Q 和 K 的相關性很差,需要掃描 30% 左右的 Token 才能保證 0.8 左右的召回率。
  • (c)同樣說明了 Q 和 K 的距離比較遠。?

微軟 RetrievalAttention: LLM+ANN, LLM 推理速度與精度的平衡-AI.x社區

3.2 概覽

本文的工作主要聚焦于 Token Decoding 階段,會假設 Prefill 階段已經執行完成,比如通過 Context Caching 方案或 Prefill 和 Decoding 分離方案。

如下圖 Figure 3(a)所示為本文方案 RetrievalAttention 的概覽,其利用 CPU 側的 ANN 檢索來實現近似 Attention 計算,為了支持長序列,也會將所有 KV Cache Offload 到 CPU 內存以便構建索引。如圖(b)所示是為了解決 OOD 問題而采用的索引機制。

微軟 RetrievalAttention: LLM+ANN, LLM 推理速度與精度的平衡-AI.x社區

3.3 近似 Attention

具體來說,不使用完整的 Attention Score,而是采用最相關的 KV 向量來近似 Attention Score:

微軟 RetrievalAttention: LLM+ANN, LLM 推理速度與精度的平衡-AI.x社區

3.4 Attention 感知向量檢索

對于每對 Key 和 Value,首先確定是放在 CPU Memory 還是 GPU Memory(方法見下一小節)。然后 Offload 到 CPU 內存的 Key 和 Value 會使用 Key 來構建索引,并使用 Query 來檢索。

為了加速 Token 生成過程中的向量檢索速度,RetrievalAttention 利用 Prefill 階段的現有 Query 來指導 Key 向量的索引構建。如上圖 Figure 3(b)所示,RetrievalAttention 顯式的建立從 Query 向量到其最近的 Key 向量的連接(即精確的 K 個最近鄰,或 KNN)。KNN 結果可以通過 GPU 高效計算,形成從 Query 向量分布到 Key 向量分布的映射。使用這種結構,Decoding 的 Query 向量查詢時可以首先查詢最近的 Query 向量,然后將其映射為 Key 向量。

因此,之前的 Query 向量充當了解決 OOD 問題的橋梁。然而,這種結構在內存開銷和搜索效率方面仍然存在缺陷,因為除了 Key 向量之外,還需要存儲和訪問 Query 向量。為了解決這個問題,作者利用先進的跨模態 ANN 索引 RoarGraph 中的投影技術來消除 Query 向量。具體來說,通過使用 Query 向量和 Key 向量的連接關系,將 KNN 連接投影到 Key 向量中,從而有效地簡化搜索。此外,此方法也允許對未來的 Query 向量進行高效的索引遍歷。

作者實驗結果表明,通過這種 Query 和 Key 的連接關系進行有效建模,向量數據庫只需掃描 1-3% 的 Key 向量即可達到高召回率,與 IVF 索引相比,索引搜索延遲大幅降低 74%。

3.5 CPU 和 GPU 協同執行

為了利用 GPU 并行性加速注意力計算,RetrievalAttention 將注意力計算分解為兩組不相交的 KV Cache 向量:GPU 上的可預測向量和 CPU 上的動態向量,然后將兩部分 Attention 輸出合并在一起作為完整的 Attention 輸出。

具體來說,利用 Prefill 階段觀察到的模式來預測 Token 生成過程中持續激活的 KV 向量。與 StreamingLLM 類似,作者將固定的幾個初始 Token 和最近窗口內的 Token 作為靜態 Token,持久化在 GPU 上。RetrievalAttention 也可以適配更復雜的靜態模式,以便實現低推理成本和高準確性的平衡。為了最大限度減少通過慢速 PCIe 的數據傳輸,RetrievalAttention 在 CPU 和 GPU 上獨立計算 Attention,然后將其組合起來,這個靈感來自 FastAttention([2205.14135] FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness)。 

四、評估

4.1 實驗配置

機器包含三個:

  • RTX 4090 GPU(24G 顯存),Intel i9-10900X CPU(20 Core),128 GB 內存。
  • A100 GPU(80GB 顯存),AMD EPYC CPU(24 Core)。
  • A100 GPU(80GB 顯存),AMD EPYC 7V12 CPU(48 Core),1.72TB 內存。

模型包含三個:

  • LLaMA-3-8B-Instruct-262K
  • Yi-6B-200K
  • Yi-9B-200K

對比框架包括:

  • Full Attention 的 vLLM
  • StreamingLLM
  • SnapKV
  • InfLLM

基準測試包括:

  • ∞-Bench
  • RULER
  • Needle-in-a-haystack

4.2 長文本任務精度

如下圖 Table 2 所示,本文提出的 RetrievalAttention 明顯優于之前的方案,平均精度非常接近 Full Attention。當然,部分模型上 Flat(暴露檢索索引數據) 會略好于 RetrievalAttention,不過差距不大。

微軟 RetrievalAttention: LLM+ANN, LLM 推理速度與精度的平衡-AI.x社區

4.3 時延評估

如下圖 Table 6 所示,作者首先驗證了本文提出的檢索方式的有效性,可以看出,提出的 RetrievalAttention 相比 Flat 和 IVF 可以提供 4.9x 和 1.98x 的加速,證明了檢索機制的有效性:

微軟 RetrievalAttention: LLM+ANN, LLM 推理速度與精度的平衡-AI.x社區

如下圖 Table 4 所示,作者也與之前的其他稀疏化方案進行對比,可以看出,之前的方案往往采用固定的 Token 數,因此隨著序列變長并沒有明顯增加時延,而本文的方法會略微增加。同時,本文方法推理 Latency 相比之前方法明顯增加,大概是之前方法 Latency 的 3x-6x。然而其仍然明顯低于 Full Attention(FlexGen) 的結果。相當于在效果和速度之間的折衷。

微軟 RetrievalAttention: LLM+ANN, LLM 推理速度與精度的平衡-AI.x社區

如下圖 Table 7 和 Table 8 為在 A100 上的結果,結論類似,不過在 100K 和 200K 時其 Latency 會超過 vLLM:

微軟 RetrievalAttention: LLM+ANN, LLM 推理速度與精度的平衡-AI.x社區

五、參考鏈接

  1. ???https://arxiv.org/abs/2409.10516???
  2. ???https://arxiv.org/abs/2205.14135????

本文轉載自 ??AI閑談??,作者: AI閑談

收藏
回復
舉報
回復
相關推薦
久久99国产精品自在自在app| 欧美综合亚洲图片综合区| 国产免费高清一区| 黄色片中文字幕| 97精品国产| 精品精品国产高清一毛片一天堂| 日本www在线播放| 欧美r级在线| 99久久综合狠狠综合久久| 国产精品99导航| 久久久久无码精品国产| 不卡一区2区| 欧美大片日本大片免费观看| 人妻内射一区二区在线视频 | 国产成人精品免费看| 91av在线播放| 亚洲国产精品免费在线观看| 在线成人动漫av| 日韩久久久久久| 国产成人精品无码播放| 高h视频在线播放| 亚洲国产成人一区二区三区| 国产一区二区三区高清| 一起草av在线| 日韩电影在线观看电影| 久久久久久久香蕉网| 在线观看天堂av| 九热爱视频精品视频| 精品久久一二三区| 亚洲视频在线不卡| 国产精品久久久久久吹潮| 五月天国产精品| av一区二区三区免费观看| 一级日本在线| 国产视频视频一区| 欧美日韩精品免费看| 蜜臀久久久久久999| 国产麻豆一精品一av一免费| 国产精品亚发布| 欧美特级黄色片| 欧美亚洲三级| 欧美亚洲一级片| 日韩欧美激情视频| 影音先锋亚洲精品| 久久久久久噜噜噜久久久精品| 国语对白在线播放| 99久久久久| 中文字幕日韩欧美| 女人黄色一级片| 少妇精品久久久一区二区三区| 日韩禁在线播放| 添女人荫蒂视频| 天堂av一区二区三区在线播放 | 欧美夫妇交换xxx| 欧美精品三级在线| 日韩美一区二区三区| 伊人成人免费视频| 91国内精品| 精品国产髙清在线看国产毛片| 日本成人在线免费观看| 2023国产精华国产精品| 欧美精品一区二区三区视频| 无码一区二区精品| 精品影片在线观看的网站| 亚洲精品日韩久久久| 精品无码人妻一区| 精品国产乱码| 北条麻妃久久精品| 欧美成人综合色| 亚洲欧洲一区| 日本精品一区二区三区在线播放视频 | 欧美男男gaytwinkfreevideos| 亚洲视频视频在线| 欧美午夜激情影院| 91精品国产麻豆国产在线观看| 欧美成人午夜免费视在线看片 | dy888夜精品国产专区| 人妻偷人精品一区二区三区| 久久综合给合久久狠狠狠97色69| 日本一区免费看| 欧美精品videos另类| 亚洲女人的天堂| 狠狠干 狠狠操| 成人在线视频播放| 日韩一区二区三区三四区视频在线观看| 国产精品果冻传媒| 精品在线手机视频| 欧美精品在线播放| 在线观看日韩中文字幕| 美女视频网站久久| 成人欧美一区二区三区在线观看 | 中文字幕第三页| 国产一区二区三区av电影| 国产伦精品一区二区三毛| 国产中文字幕在线视频| 亚洲在线成人精品| 国产 porn| 国产乱人伦丫前精品视频| 亚洲一级免费视频| 国产一级在线免费观看| 秋霞影院一区二区| 狠狠色综合欧美激情| 亚洲1卡2卡3卡4卡乱码精品| 亚洲va天堂va国产va久| 中文字幕网av| 亚洲女娇小黑人粗硬| 久精品免费视频| 一级特黄免费视频| 菠萝蜜视频在线观看一区| 少妇免费毛片久久久久久久久| 色女人在线视频| 欧美日韩国产精选| 中文字幕一区二区三区人妻不卡| 亚洲香蕉av| 国产福利视频一区二区| 乱精品一区字幕二区| 国产精品每日更新| 国产在线青青草| 亚洲天堂av资源在线观看| 中文字幕久久亚洲| 在线精品免费视| 成人深夜视频在线观看| 中文字幕一区二区三区最新| xxxxx性欧美特大| 亚洲精品国产综合久久| 久久精品99久久久久久| 青椒成人免费视频| 欧美污视频久久久| 欧美少妇精品| 亚洲精品videossex少妇| 免费网站看av| 国产美女视频91| 亚洲一区在线免费| 亚洲成人短视频| 日韩精品在线免费| 韩国av免费观看| 高清av一区二区| 日韩视频 中文字幕| 免费观看亚洲天堂| 久久精品这里热有精品| 一级做a爱片性色毛片| 国产精品久久久久久久久久免费看 | 国产一区二区三区高清播放| 中文字幕一区二区中文字幕| 日韩免费在线电影| 日韩在线视频网站| 国产乱人乱偷精品视频a人人澡| 国产精品乱码妇女bbbb| 色悠悠久久综合网| 久久中文视频| 91美女福利视频高清| 久久77777| 日韩亚洲国产中文字幕欧美| 亚洲国产美女视频| 懂色av中文字幕一区二区三区| 国产精品视频网站在线观看| 中文字幕视频精品一区二区三区| 欧美成人性生活| 欧美 日韩 人妻 高清 中文| 精品久久久久久中文字幕大豆网| 性欧美丰满熟妇xxxx性久久久| 亚洲美女一区| 欧美日韩精品久久| 国产亚洲人成a在线v网站| 色偷偷av一区二区三区| 国产成人精品毛片| 午夜日韩在线电影| 国产精品815.cc红桃| 蜜臀精品久久久久久蜜臀 | 日本aa在线| 亚洲韩国欧洲国产日产av| 无码人妻丰满熟妇区五十路| 国产精品伦一区| 欧美图片自拍偷拍| 免费精品视频| 在线视频一区观看| 我要色综合中文字幕| 91产国在线观看动作片喷水| 国产女人在线观看| 91麻豆精品国产91久久久久久久久| 久久国产精品波多野结衣| 91视频观看免费| 国产精品久久久久久久av福利| 国产精品mm| 日韩国产高清一区| 深夜福利一区二区三区| 51午夜精品视频| 免费黄色在线观看| 日韩精品在线看| 国产又粗又大又爽视频| 黄网站色欧美视频| 国产3级在线观看| 99久久精品国产导航| 91精品无人成人www| 亚洲日本成人| 曰韩不卡视频| 外国成人在线视频| 91蜜桃网站免费观看| 欧美香蕉视频| 欧美日本亚洲视频| www.亚洲.com| 亚洲国内高清视频| 国产精品久久无码一三区| 黄色一区二区在线| 欧美成人手机视频| 国产精品久久久一本精品| 日韩av手机在线播放| 国产美女精品人人做人人爽| 日本xxxxxxx免费视频| 欧美黄色aaaa| 亚洲一区二区四区| 久久超碰99| 精品视频第一区| 久久免费精品| 国产精品一区二区在线| 三级中文字幕在线观看| 欧美激情视频在线免费观看 欧美视频免费一| 蜜桃视频在线观看网站| 精品国产青草久久久久福利| 91久久国语露脸精品国产高跟| 欧美性极品xxxx做受| 久久精品国产av一区二区三区| 中文字幕中文字幕一区| 扒开jk护士狂揉免费| 成人午夜激情在线| 国产精品不卡在线观看| 久久国产这里只有精品| 免费日韩视频| 国产淫片免费看| 亚洲国产片色| 日韩精品一区二区免费| 久久久久免费av| 制服诱惑一区| 99精品小视频| 最新欧美日韩亚洲| 四虎国产精品免费观看| 亚洲欧美日韩国产yyy| 国产精品免费不| 日本精品一区二区| 欧美**字幕| 少妇精品久久久久久久久久| 欧美军人男男激情gay| 日韩av高清在线播放| 激情五月综合网| 亚洲成人自拍| 国产伦精品一区二区三区免费优势| 不卡视频一区二区三区| 日韩三级不卡| 高清av免费一区中文字幕| 久久丁香四色| 成人午夜影院在线观看| 国产精品色呦| 九九九九久久久久| 九九久久婷婷| 在线免费观看一区二区三区| 911久久香蕉国产线看观看| 日韩亚洲欧美一区二区| 亚洲激情偷拍| 精品久久久久久久免费人妻| 青青草97国产精品免费观看无弹窗版| 色综合色综合色综合色综合| 精品无人码麻豆乱码1区2区| 久久黄色一级视频| 成人a区在线观看| 国产成人精品无码免费看夜聊软件| 久久精品视频在线免费观看 | 国内爆初菊对白视频| 亚洲第一天堂无码专区| 日本1级在线| 中文字幕亚洲激情| av片在线观看网站| 韩国精品久久久999| 欧美三级精品| 亚洲精品欧美极品| 亚洲都市激情| 正在播放久久| 亚洲黄色成人| 91香蕉视频导航| 成人做爰69片免费看网站| 9.1成人看片| 国产精品国产馆在线真实露脸| 欧美丰满艳妇bbwbbw| 亚洲成人精品一区二区| 国产精品欧美综合| 精品日韩在线观看| 国产区视频在线| 欧美国产第一页| 成人免费影院| 51国产成人精品午夜福中文下载 | 国产美女精品视频免费播放软件| 国产高清一区视频| 国产免费久久| 日韩精品综合在线| 日本大胆欧美人术艺术动态| 无码人妻一区二区三区免费n鬼沢| 91蝌蚪国产九色| 国产真实乱在线更新| 色综合久久99| 成人福利小视频| 这里精品视频免费| 999av小视频在线| 成人免费网视频| 欧美激情在线精品一区二区三区| 白白操在线视频| 另类欧美日韩国产在线| 亚洲最大的黄色网| 亚洲女人的天堂| 亚洲在线观看av| 亚洲欧美制服丝袜| 国产无遮挡裸体视频在线观看| 91精品视频在线免费观看| 妖精一区二区三区精品视频| 大陆av在线播放| 国产精品综合在线视频| 欧美波霸videosex极品| 精品久久久久久久久中文字幕| 99久久精品无免国产免费| 色偷偷噜噜噜亚洲男人的天堂| 亚洲国产成人二区| 国产青春久久久国产毛片| 欧美伊人影院| 天天干天天色天天干| 久久久久久久综合日本| 二区视频在线观看| 亚洲国产精品成人精品| av手机免费在线观看| 成人av蜜桃| 黄色成人av网站| av地址在线观看| 一区二区三区欧美日韩| 国产美女裸体无遮挡免费视频| 中日韩午夜理伦电影免费 | 国产一区二区三区四区五区在线 | 国产人妖乱国产精品人妖| 亚洲黄色激情视频| 日韩精品免费观看| 亚洲人成午夜免电影费观看| 精品乱子伦一区二区三区| 在线播放一区| 中文字幕天堂网| 岛国av午夜精品| 牛牛澡牛牛爽一区二区| 日韩免费在线视频| 国产精品嫩草影院在线看| 99草草国产熟女视频在线| 久久久91精品国产一区二区三区| 国产乱国产乱老熟| 亚洲视频免费一区| 国产成人免费| 热这里只有精品| 国产成人综合网站| 日韩xxx高潮hd| 亚洲国产另类久久精品| 男人最爱成人网| 亚洲制服欧美久久| 国内精品在线播放| 激情综合五月网| 日韩精品免费看| 色综合一本到久久亚洲91| 亚洲一区bb| 国产成人av影院| www.日本精品| 国产一区二区激情| 99国内精品久久久久| 国产免费内射又粗又爽密桃视频| 成人av在线影院| 国产91精品一区| 日韩在线中文字| 中文字幕一区图| 亚洲爆乳无码专区| 最新欧美精品一区二区三区| 午夜久久久久久噜噜噜噜| 26uuu久久噜噜噜噜| blacked蜜桃精品一区| 三级av免费看| 午夜欧美一区二区三区在线播放| 黄色小视频在线免费观看| 91手机视频在线观看| 国产情侣久久| 麻豆一区在线观看| 精品av久久707| 日韩美女在线看免费观看| 黄色网zhan| 91色婷婷久久久久合中文| 在线免费看毛片| 午夜精品一区二区三区av| 日韩激情一区| 亚洲男人在线天堂| 欧美日韩dvd在线观看| aa级大片免费在线观看| 亚洲一区二区三区免费观看| 成人动漫视频在线| 在线观看免费视频a| 午夜精品久久久久久久男人的天堂| 成人网18免费网站| av无码一区二区三区| 日韩一级二级三级精品视频| 国产麻豆久久| 极品美女扒开粉嫩小泬| 亚洲少妇30p|