精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

長(zhǎng)序列推理不再卡頓!北大華為KV緩存管理框架實(shí)現(xiàn)4.7倍推理加速

人工智能 新聞
來自北京大學(xué)與華為的研究團(tuán)隊(duì)聯(lián)合提出了LouisKV——一個(gè)專為長(zhǎng)輸入、長(zhǎng)輸出等各類長(zhǎng)序列場(chǎng)景設(shè)計(jì)的高效KV cache 檢索框架。

北大華為聯(lián)手推出KV cache管理新方式,推理速度比前SOTA提升4.7倍!

大模型處理長(zhǎng)序列時(shí),KV cache的內(nèi)存占用隨序列長(zhǎng)度線性增長(zhǎng),已成為制約模型部署的嚴(yán)峻瓶頸。

為此,來自北京大學(xué)與華為的研究團(tuán)隊(duì)聯(lián)合提出了LouisKV——一個(gè)專為長(zhǎng)輸入、長(zhǎng)輸出等各類長(zhǎng)序列場(chǎng)景設(shè)計(jì)的高效KV cache 檢索框架。

它通過創(chuàng)新的語(yǔ)義感知檢索策略與解耦的精細(xì)化管理機(jī)制,在幾乎不損失模型精度的前提下,實(shí)現(xiàn)了高達(dá)4.7倍的推理加速,為突破LLM長(zhǎng)序列推理瓶頸提供了全新的解決方案。

關(guān)鍵洞察

傳統(tǒng)上,學(xué)術(shù)界與工業(yè)界提出了多種KV cache優(yōu)化方案,其中KV Cache Retrieval是極具前景的方向之一。

該類方法將完整的KV cache卸載至容量更大的CPU內(nèi)存中,并在推理時(shí)僅將最關(guān)鍵的KV子集檢索回GPU進(jìn)行計(jì)算,從而有效緩解GPU 顯存壓力。

然而,現(xiàn)有的KV retrieval方法仍面臨著效率精度的雙重瓶頸:

  • 現(xiàn)有方法通常在生成每個(gè) token 時(shí)都觸發(fā)一次檢索操作,這引入了重要性評(píng)估的計(jì)算開銷與 CPU-GPU 間的數(shù)據(jù)傳輸開銷。在需要生成數(shù)千甚至數(shù)萬(wàn) token 的長(zhǎng)輸出任務(wù)中,檢索操作帶來的累積開銷尤為突出,導(dǎo)致模型推理效率不高;
  • 現(xiàn)有方法普遍采用固定大小的頁(yè)(page)作為檢索的基本單元。這種粗粒度的劃分方式,常常導(dǎo)致被檢索的頁(yè)中僅包含少量真正關(guān)鍵的 KV 條目,而大量無(wú)關(guān)條目占用了寶貴的 CPU-GPU 帶寬和 GPU 上的緩存預(yù)算。這不僅造成了數(shù)據(jù)傳輸?shù)睦速M(fèi),更重要的是,在有限的預(yù)算下,它擠占了本可以留給其他更關(guān)鍵信息的位置,導(dǎo)致模型推理精度的下降。

為了設(shè)計(jì)更高效的檢索策略,研究團(tuán)隊(duì)首先對(duì)不同長(zhǎng)序列任務(wù)中關(guān)鍵 KV 的訪問模式進(jìn)行實(shí)驗(yàn)分析,得到了兩個(gè)關(guān)鍵洞察。

一是訪問模式的時(shí)序局部性。

該特性表現(xiàn)為,在解碼過程中生成一個(gè)語(yǔ)義連貫的segment時(shí),segment內(nèi)相鄰token所關(guān)注的關(guān)鍵KV集合高度重疊。

如下圖(a)和(b)左下角的相似度曲線所示,在生成當(dāng)前segment的過程中,相鄰token關(guān)鍵KV集合的Jaccard相似度始終維持在0.8以上。

該現(xiàn)象符合直覺,在數(shù)學(xué)推導(dǎo)的某一步驟中,其內(nèi)部的各個(gè)token會(huì)持續(xù)關(guān)注相同的上文引理或條件。

這一洞察揭示了逐 token 檢索策略的內(nèi)在冗余性——既然模型在同一語(yǔ)義段內(nèi)的關(guān)注點(diǎn)保持穩(wěn)定,頻繁的檢索便非必要。

二是關(guān)鍵KV的分布模式差異性

該特性指關(guān)鍵KV在長(zhǎng)輸入序列和長(zhǎng)輸出序列中通常表現(xiàn)出差異的分布模式:

  • 長(zhǎng)輸入序列中的稀疏分布:在長(zhǎng)文檔問答(圖a)等任務(wù)中,生成答案所需的關(guān)鍵信息在長(zhǎng)篇輸入中呈稀疏、離散的分布狀態(tài);
  • 長(zhǎng)輸出序列中的密集分布:在數(shù)學(xué)推理(圖b)等任務(wù)中,模型的注意力會(huì)高度集中于先前生成的中間步驟,使得關(guān)鍵 KV 在局部區(qū)域內(nèi)呈現(xiàn)密集分布。

這一洞察啟發(fā)我們,傳統(tǒng)的、粗粒度的頁(yè)式KV檢索策略過于粗糙,無(wú)法高效應(yīng)對(duì)輸入輸出序列不同的注意力分布模式。

核心設(shè)計(jì)

基于上述洞察,研究團(tuán)隊(duì)提出了一個(gè)高效的KV cache檢索框架 LouisKV。該框架通過算法與系統(tǒng)的協(xié)同設(shè)計(jì),解決了現(xiàn)有方法的瓶頸。

其核心包含三大創(chuàng)新。

首先是語(yǔ)義感知的KV檢索策略(Semantic-Aware KV Retrieval),為利用時(shí)序局部性,LouisKV摒棄了“逐token檢索”的低效模式,引入了一種自適應(yīng)的檢索策略。

如下圖(a)所示,該策略通過輕量級(jí)機(jī)制監(jiān)控語(yǔ)義變化。在每個(gè)解碼步,它會(huì)計(jì)算當(dāng)前token與前一token的query向量之間的余弦相似度r。

  • 若r高于閾值τ,表明模型關(guān)注點(diǎn)未發(fā)生顯著偏移,此時(shí)不觸發(fā)檢索,直接復(fù)用上一個(gè)token檢索得到的關(guān)鍵KV cache;
  • 僅當(dāng)r低于閾值τ,表明出現(xiàn)語(yǔ)義邊界,才觸發(fā)一次檢索操作,從CPU的KV cache pool中加載新的關(guān)鍵KV cache。

該策略的核心優(yōu)勢(shì)是將昂貴的檢索開銷均攤到多個(gè)token的生成過程中,極大地降低計(jì)算與數(shù)據(jù)傳輸帶來的總開銷,顯著提升推理效率。

第二是解耦的細(xì)粒度KV管理方案(Decoupled Fine-grained KV Management),為應(yīng)對(duì)分布差異性,LouisKV為輸入和輸出序列定制了不同的KV管理方式,以實(shí)現(xiàn)更精確的檢索。

  • 輸入序列(Prefill Stage):針對(duì)關(guān)鍵KV稀疏分布的特點(diǎn),LouisKV采用K-Means聚類。如圖(b)所示,它將語(yǔ)義上相似但物理位置上分散的KV聚合為語(yǔ)義簇(Semantic Clusters);
  • 輸出序列(Decode Stage):針對(duì)關(guān)鍵KV局部密集的特點(diǎn),LouisKV將連續(xù)生成的token組織成時(shí)序(Temporal Segments)。這與模型生成連貫推理步驟的行為天然對(duì)齊。

通過這種細(xì)粒度的管理,LouisKV創(chuàng)建的檢索單元(語(yǔ)義簇/時(shí)序段)與模型的實(shí)際注意力模式高度匹配,避免了傳統(tǒng)頁(yè)式管理中大量無(wú)關(guān)KV的冗余傳輸,顯著提升了檢索精度。

最后,為了將算法的理論優(yōu)勢(shì)完全轉(zhuǎn)化為運(yùn)行效率,LouisKV在底層進(jìn)行了內(nèi)核級(jí)系統(tǒng)優(yōu)化(Kernel-Level System Optimization)。

具體實(shí)現(xiàn)上,團(tuán)隊(duì)開發(fā)了定制化的Triton和CUDA內(nèi)核。內(nèi)核專門用于加速框架中的關(guān)鍵計(jì)算密集型操作,包括KV聚類和檢索過程。

通過軟硬件協(xié)同優(yōu)化,LouisKV確保了創(chuàng)新算法能夠高效地在硬件上運(yùn)行,實(shí)現(xiàn)了高吞吐率與低延遲的卓越性能。

實(shí)驗(yàn)結(jié)果

為了全面驗(yàn)證LouisKV的高效性,研究團(tuán)隊(duì)在多個(gè)主流的長(zhǎng)序列任務(wù)上進(jìn)行了詳盡測(cè)試。

這些任務(wù)涵蓋了長(zhǎng)輸入-短輸出(如文檔問答)、短輸入-長(zhǎng)輸出(如數(shù)學(xué)推理)和長(zhǎng)輸入-長(zhǎng)輸出(如長(zhǎng)文推理)等多種應(yīng)用場(chǎng)景。

實(shí)驗(yàn)結(jié)果表明,LouisKV成功地在推理精度和推理效率之間取得了當(dāng)前最佳的平衡。

推理精度層面,在所有12個(gè)基準(zhǔn)測(cè)試中,LouisKV的性能表現(xiàn)都極其接近將全部KV cache保留在GPU中的FullCache方案(灰色虛線),后者代表了理論上的精度上限。

同時(shí),無(wú)論是與KV cache dropping方法(如H2O、RaaS),還是與KV cache retrieval方法(如Arkvale、Quest)相比,LouisKV在同等KV cache預(yù)算下均展現(xiàn)出更優(yōu)的推理精度。

這證明了LouisKV的語(yǔ)義感知檢索和細(xì)粒度管理策略能夠精準(zhǔn)地識(shí)別并保留對(duì)模型推理最關(guān)鍵的信息,有效避免了精度損失。

推理效率上,LouisKV在三種典型的輸入輸出場(chǎng)景下表現(xiàn)出卓越的性能。

  • 大幅降低延遲:與先進(jìn)的KV檢索方法Arkvale相比,LouisKV實(shí)現(xiàn)了高達(dá)1.4倍至4.7倍的端到端推理加速;
  • 支持更大批量:當(dāng)處理大批量任務(wù)時(shí),F(xiàn)ullCache會(huì)因顯存不足而失效。相比之下,LouisKV能夠在此類高負(fù)載場(chǎng)景下穩(wěn)定運(yùn)行,從而顯著提升了系統(tǒng)的有效吞吐量。

這種顯著的效率提升主要得益于LouisKV對(duì)系統(tǒng)核心開銷的精準(zhǔn)優(yōu)化。相較于Arkvale ,LouisKV大幅降低了數(shù)據(jù)傳輸(Transfer)和重要性評(píng)估(Estimation)帶來的開銷。

論文地址:https://arxiv.org/abs/2510.11292

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-07-07 08:46:00

2025-09-26 10:58:03

AI視覺語(yǔ)言模型

2024-07-08 13:04:01

2025-05-27 15:28:11

模型訓(xùn)練AI

2023-09-12 14:45:18

2024-07-19 09:59:31

2024-12-30 13:13:35

2025-02-25 10:21:15

2025-06-16 14:41:07

模型開源AI

2025-03-14 11:56:52

2024-01-24 13:11:00

AI模型

2025-07-28 08:42:00

2025-10-14 08:58:00

2023-05-23 14:06:53

微軟研究

2023-01-05 09:33:37

視覺模型訓(xùn)練

2025-05-28 08:51:00

大模型華為LLM

2025-03-12 09:35:45

2025-10-21 08:54:00

微軟LLM模型

2025-06-11 14:39:50

AILLMMistral

2024-06-11 08:25:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

91九色极品视频| 欧美成人免费大片| 天天干天天草天天| 影院在线观看全集免费观看| 不卡视频免费播放| 国产精品免费一区二区三区都可以| 成人在线观看小视频| 欧美www视频| 337p日本欧洲亚洲大胆色噜噜| 亚洲国产精品无码av| 欧美日韩在线中文字幕| 久久国产精品第一页| 久久免费精品日本久久中文字幕| 久久精品国产亚洲AV熟女| 国色天香久久精品国产一区| 欧美日韩国产一区中文午夜| 吴梦梦av在线| 成人高潮成人免费观看| 成人激情综合网站| 91精品视频专区| 男操女视频网站| 亚洲啪啪91| 久久精品色欧美aⅴ一区二区| 国产又粗又猛又色| 日韩精品中文字幕吗一区二区| 在线视频国内自拍亚洲视频| 国产va亚洲va在线va| 黄色网址视频在线观看| 久久久精品国产免大香伊| 国产美女在线精品免费观看| 国产女人18毛片水18精| 日韩精品国产精品| 91tv亚洲精品香蕉国产一区7ujn| 久久久99精品| 欧美激情aⅴ一区二区三区| 中文字幕精品网| 妺妺窝人体色WWW精品| 久草精品视频| 亚洲国产精品人久久电影| 一级片免费在线观看视频| 国产成+人+综合+亚洲欧美| 日韩欧美第一页| 国产亚洲综合视频| 免费看男女www网站入口在线| 亚洲一区在线电影| 免费特级黄色片| 国产三级伦理在线| 亚洲成人精品在线观看| 国产玉足脚交久久欧美| av影院在线| 欧美日韩综合视频| 熟妇人妻va精品中文字幕| 亚洲精品永久免费视频| 欧美日韩精品中文字幕| 久草热视频在线观看| 高端美女服务在线视频播放| 天天影视涩香欲综合网| 黄色片视频在线免费观看| 伊人网在线播放| 一本高清dvd不卡在线观看| 成人羞羞国产免费网站| a屁视频一区二区三区四区| 色婷婷久久综合| 爱情岛论坛vip永久入口| 69堂免费精品视频在线播放| 欧美午夜片在线看| 久久精品国产露脸对白| 久久久国产精品入口麻豆| 欧美成人激情免费网| 中国黄色片视频| 一区二区三区视频免费观看| 亚洲片在线资源| 国产日产在线观看| 欧美一区二区三区久久精品茉莉花 | 欧美少妇一区二区三区| 久久电影网站| 欧美午夜无遮挡| 天天综合网日韩| 日本精品在线播放| 日韩黄色在线免费观看| 2019男人天堂| 午夜精品免费| 欧美自拍大量在线观看| 在线观看亚洲一区二区| 国产成人精品在线看| 欧美韩国日本精品一区二区三区| 成全电影播放在线观看国语| 亚洲精品写真福利| 无码人妻精品一区二区三区在线| 欧美日韩不卡| 欧美大胆人体bbbb| 欧美偷拍一区二区三区| 亚洲国产一区二区三区在线播放| 亚洲人成精品久久久久| 8x8ⅹ国产精品一区二区二区| 精品三级久久| 欧美精品一卡二卡| 亚洲制服丝袜在线播放| 日韩欧美伦理| 97视频在线观看免费| 中文字幕在线日本| 国产成人av一区二区三区在线 | 中文字幕一区二区三区久久网站| 久久久久久久久久久免费| 五月婷婷丁香在线| av高清久久久| 中文字幕第一页亚洲| 手机看片久久| 亚洲第一黄色网| 免费成人高清视频| 国产在线精品一区二区| 久久全球大尺度高清视频| 人妻中文字幕一区二区三区| 成人成人成人在线视频| 99热这里只有精品7| 欧美电影免费看| 日韩欧美激情四射| 国产精品视频看看| 日韩精品1区2区3区| 国产精品久久久久久久久久直播| 瑟瑟视频在线| 在线亚洲高清视频| 性欧美成人播放77777| 欧美天天在线| 91精品在线影院| chinese偷拍一区二区三区| 精品国产老师黑色丝袜高跟鞋| 国产一级片中文字幕| 色综合狠狠操| 国产精品视频久久久久| 瑟瑟在线观看| 欧美日韩色婷婷| 男人网站在线观看| 激情五月***国产精品| 亚洲综合精品一区二区| 麻豆tv免费在线观看| 欧洲在线/亚洲| av网站免费在线看| 三级久久三级久久久| 欧美日韩亚洲免费| 午夜无码国产理论在线| 亚洲人成网7777777国产| 国产午夜性春猛交ⅹxxx| 波多野结衣中文一区| 欧美在线一区视频| 欧美精品密入口播放| 97在线视频一区| 日本精品专区| 在线精品视频免费播放| 亚洲AV无码成人精品区明星换面| 久久在线精品| 亚洲精品一区国产精品| 久久人体av| 美女精品久久久| 亚洲乱色熟女一区二区三区| 亚洲网友自拍偷拍| 特级西西人体wwwww| 午夜一区不卡| 午夜老司机精品| 2019中文亚洲字幕| 精品中文字幕乱| 欧美一级特黄aaaaaa| 粉嫩老牛aⅴ一区二区三区| 人妻精品久久久久中文字幕| 先锋影音久久久| 亚洲巨乳在线观看| 国产精品成人3p一区二区三区| 欧美成人午夜影院| 午夜成人鲁丝片午夜精品| 精品久久久久久久久国产字幕| 97伦伦午夜电影理伦片| 蜜桃av一区二区| 欧美久久久久久久久久久久久久| 露出调教综合另类| 国产精品成人v| av片哪里在线观看| 日韩电影网在线| 亚洲一区中文字幕永久在线| 亚洲男人天堂av| 国产精品久久AV无码| 日韩和欧美一区二区三区| 一本色道久久综合亚洲二区三区| 亚洲国产高清在线观看| 欧美综合一区第一页| 欧美被日视频| 亚洲精品国产精品自产a区红杏吧| 亚洲国产av一区二区三区| 亚洲婷婷国产精品电影人久久| 9.1在线观看免费| 日韩一区欧美二区| 奇米777四色影视在线看| 中文字幕精品影院| 91九色在线观看| 91成人在线| 97香蕉超级碰碰久久免费软件| 69久久久久| 日韩精品视频在线| av网站在线免费看| 欧美日韩免费在线| 久久一区二区三| 日本一区二区不卡视频| 日本黄色动态图| 精品无人区卡一卡二卡三乱码免费卡 | 少妇精品高潮欲妇又嫩中文字幕| 精品视频在线视频| 亚洲精品www久久久久久| 中文字幕一区二区三区视频| 噜噜噜在线视频| 国产高清亚洲一区| 亚洲综合av在线播放| 美女国产一区| 成人免费毛片在线观看| 午夜精品毛片| 日韩中文一区二区三区| 外国成人在线视频| 国产精品免费看一区二区三区| 亚洲人体在线| 国产欧美在线播放| 精品日本视频| 日本一区二区在线播放| 超碰在线公开| 欧美激情在线一区| 91精选在线| 大胆人体色综合| 日本蜜桃在线观看| 中文字幕日韩视频| 国产女主播在线写真| 日韩久久免费视频| 午夜视频免费在线| 日韩高清人体午夜| 天天综合网在线| 亚洲激情在线观看| 天天摸天天干天天操| 精品国产乱码久久久久久1区2区| 国产黄色大片网站| 日韩美女在线视频| 国产黄色片网站| 日韩三级电影网址| www.黄色av| 日韩美女主播在线视频一区二区三区| 精品国产区一区二| 日韩欧美成人午夜| 欧美视频一二区| 亚洲国产另类 国产精品国产免费| 午夜美女福利视频| 欧美精品一区二区久久久| 亚洲毛片在线播放| 亚洲国产美女精品久久久久∴| 天堂网在线观看视频| 亚洲国内精品视频| 免费观看成年在线视频网站| 亚洲色在线视频| 91最新在线| 久久久国产在线视频| 中文字幕在线三区| 久久久免费高清电视剧观看| 1区2区3区在线| 欧美一区在线直播| 91成人在线| 91入口在线观看| 蜜臀av一区| 欧美在线播放一区二区| 久久精品播放| 路边理发店露脸熟妇泻火| 精品91在线| 日韩视频在线免费看| 久久激情综合网| 2025中文字幕| 久久综合色天天久久综合图片| 国产毛片欧美毛片久久久| 亚洲欧洲日韩一区二区三区| 欧美黄色免费观看| 色偷偷一区二区三区| 在线免费观看视频网站| 欧美xxxx老人做受| 国产区在线视频| 欧美国产视频日韩| 亚洲午夜天堂| 成人h视频在线观看播放| 99精品国产高清一区二区麻豆| 欧美三级网色| 久久精品亚洲欧美日韩精品中文字幕| 成年人网站国产| 久久成人国产| av地址在线观看| jlzzjlzz亚洲日本少妇| 在线观看亚洲大片短视频| 一区二区三区资源| 波多野结衣一本一道| 日韩一级黄色大片| 欧美美女色图| 久久精品视频在线播放| 另类图片综合电影| 5g国产欧美日韩视频| 中文有码一区| 男人天堂a在线| 九九国产精品视频| 黄色正能量网站| 亚洲一区二区欧美激情| 中文字幕+乱码+中文| 亚洲国产小视频| 亚洲区欧洲区| 国产日韩av在线播放| 色先锋久久影院av| 久久久久久久香蕉| 久久精品国产成人一区二区三区| 亚洲熟女乱综合一区二区三区 | 亚洲美女免费精品视频在线观看| 国产精品实拍| 国产精品黄页免费高清在线观看| 成人性生交大片免费看96| 一区二区国产日产| 久久久久久黄| 亚洲第一黄色网址| 亚洲午夜久久久久久久久久久| 一级片一区二区三区| 亚洲免费电影一区| 日韩电影毛片| 国产精品美女诱惑| 国内精品久久久久久久影视麻豆 | 国产精品蜜月aⅴ在线| 91免费版黄色| 亚洲欧洲中文字幕| 17c国产在线| 中文一区在线播放| 天天爽夜夜爽人人爽| 日韩精品免费在线播放| 成年女人在线看片| 国产一区喷水| 国产日韩欧美一区在线| 中文字幕在线视频播放| 亚洲国产精品影院| 狠狠综合久久av一区二区| 欧美老肥婆性猛交视频| 日韩三级av高清片| 日韩人妻精品一区二区三区| 麻豆精品精品国产自在97香蕉| 国产精品20p| 在线观看亚洲成人| 第一视频专区在线| 国产精品女人久久久久久| 精品国产乱码久久久久久1区2匹| 青青在线免费观看视频| 国产日韩欧美不卡在线| 国产精品自拍第一页| 国产一区二区三区直播精品电影 | 大波视频国产精品久久| 欧美激情1区2区| 久久久久成人精品无码中文字幕| 午夜精品久久一牛影视| 天堂a中文在线| 国产精品69av| 久久国产电影| 无套白嫩进入乌克兰美女| 亚洲自拍偷拍综合| 亚洲欧洲成人在线| 国产精品国语对白| 婷婷综合五月| xxxwww国产| 在线免费av一区| 国产精品实拍| 精品不卡一区二区三区| 久久人人精品| 日韩成人短视频| 亚洲精品一线二线三线| 成人一区福利| 正在播放91九色| 从欧美一区二区三区| www亚洲视频| 日韩在线视频免费观看高清中文| 久久视频免费| 国产99久久九九精品无码| 亚洲国产精品av| 国产高清在线免费| 国产v综合ⅴ日韩v欧美大片| 99国产**精品****| 免费的av网站| 制服丝袜亚洲精品中文字幕| 成年网站在线视频网站| 欧美一区1区三区3区公司| 国产一区二区三区在线观看精品 | 亚洲在线黄色| 国产精品久久国产精麻豆96堂| 精品嫩草影院久久| 你懂得影院夜精品a| 国产a级黄色大片| 久久精品日产第一区二区三区高清版| 国产精品久久久久久久免费看| 欧美激情一区二区三区久久久| 精品一区二区三| 性猛交╳xxx乱大交| 欧美亚洲动漫另类| 草莓视频丝瓜在线观看丝瓜18| 日韩高清国产精品| 成人教育av在线| 国产又爽又黄免费软件| 日本韩国在线不卡| 欧美精品大片| 91ts人妖另类精品系列| 精品五月天久久|