精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

在長文本上比Flash Attention快10倍!清華等提出APB序列并行推理框架

人工智能 新聞
清華大學(xué) NLP 實驗室聯(lián)手中南大學(xué)、北京郵電大學(xué)以及騰訊微信 AI 實驗室取得了突破,共同提出了 APB 框架 。

在 ChatGPT 爆火兩年多的時間里,大語言模型的上下文窗口長度基準(zhǔn)線被拉升,以此為基礎(chǔ)所構(gòu)建的長 CoT 推理、多 Agent 協(xié)作等類型的高級應(yīng)用也逐漸增多。

隨之而來的是,長文本推理速度被提出更高要求,而基于現(xiàn)有 Transformer 架構(gòu)的模型受限于注意力機制的二次方復(fù)雜度,難以在較短時延內(nèi)處理超長文本請求。

針對這一痛點,清華大學(xué) NLP 實驗室聯(lián)手中南大學(xué)、北京郵電大學(xué)以及騰訊微信 AI 實驗室取得了突破,共同提出了 APB 框架 —— 其核心是一個整合了稀疏注意力機制的序列并行推理框架,通過整合局部 KV 緩存壓縮方式以及精簡的跨 GPU 通信機制,解決了長上下文遠(yuǎn)距離語義依賴問題,在無性能損失的前提下大幅度提升超長文本預(yù)填充的效率

在 128K 文本上,APB 能夠出色地平衡性能與速度,達到相較于傳統(tǒng) Flash Attention 約 10 倍的加速比,在多種任務(wù)上甚至具有超越完整 Attention 計算的性能;與英偉達提出的同為分布式設(shè)定下的 Star Attention 相比,APB 也能達到 1.6 倍加速比,在性能、速度以及整體計算量上均優(yōu)于 Star Attention。

圖片

  • 論文鏈接:https://arxiv.org/pdf/2502.12085
  • GitHub 鏈接:https://github.com/thunlp/APB

這一方法主要用于降低處理長文本請求的首 token 響應(yīng)時間。未來,APB 有潛力運用在具有低首 token 響應(yīng)時間要求的模型服務(wù)上,實現(xiàn)大模型服務(wù)層對長文本請求的高效處理。

瓶頸:加速長文本預(yù)填充效率

長文本預(yù)填充的效率受到計算的制約。由于注意力機制的計算量與序列長度呈二次方關(guān)系,長文本的計算通常是計算瓶頸的。主流加速長文本預(yù)填充的路線有兩種,提升并行度減少計算

  • 提升并行度:我們可以將注意力機制的計算分布在不同設(shè)備上來提升并行度。當(dāng)一個 GPU 的算力被充分的利用時,簡單的增加 GPU 的數(shù)量就可以增加有效算力。現(xiàn)存研究中有各種各樣的并行策略,包括張量并行、模型并行、序列并行等。對于長文本推理優(yōu)化,序列并行有很大的優(yōu)化潛力,因為它不受模型架構(gòu)的制約,具有很好的可擴展性。
  • 減少計算:另一個加速長文本預(yù)填充的方式是減少計算,即使用稀疏注意力。我們可以選擇注意力矩陣中計算的位置,并不計算其他位置來減少整體的計算量。此類方法通常會帶來一定的性能損失。計算時忽略重要的上下文會導(dǎo)致無法處理某些任務(wù)。

然而,簡單地提升并行度和減少計算并不能在加速長文本預(yù)填充上取得足夠的效果。若要將二者結(jié)合又具有極大挑戰(zhàn),這是因為稀疏注意力機制中,決定計算何處注意力通常需要完整輸入序列的信息。在序列并行框架中,每個 GPU 僅持有部分 KV 緩存,無法在不通過大規(guī)模通信的前提下獲得足夠的全局信息來壓縮注意力的計算。

針對這一問題,有兩個先驅(qū)方法:一是英偉達提出的 Star Attention ,直接去除了序列并行中的所有通信,并只計算每個 GPU 上局部上下文的注意力,但這樣計算也導(dǎo)致了很大程度的性能損失;二是卡內(nèi)基梅隆大學(xué)提出的 APE,關(guān)注 RAG 場景下長文本預(yù)填充加速,通過將上下文均勻分割、對注意力進行放縮和調(diào)整 softmax 溫度,實現(xiàn)并行編碼,同樣在需要遠(yuǎn)距離依賴的場景上有一定的性能損失。

區(qū)別于上述方法,APB 通過設(shè)計面向序列并行場景的低通信稀疏注意力機制,構(gòu)建了一個更快、性能更好,且適配通用長文本任務(wù)的長文本加速方法。

APB:面相序列并行框架的稀疏注意力機制

相較于之前的研究,APB 通過如下方法提出了一種面相序列并行框架的稀疏注意力機制:

圖片


  • 增加較小的 Anchor block:Star Attention 中引入的 Anchor  block(輸入序列開始的若干 token)能夠極大恢復(fù)性能,然而其尺寸需要和局部上下文塊一樣大。過大的 anchor block 會在 FFN 中引入過多的額外開銷。APB 通過減少 anchor  block 的大小,使其和上下文塊的 1/4 或 1/8 一樣大。
  • 解決長距離語義依賴問題:先前研究某些任務(wù)上性能下降的原因是它們無法處理長距離語義依賴,后序 GPU 分塊無法看到前序上下文塊中的信息,導(dǎo)致無法處理特定任務(wù)。APB 通過構(gòu)建 passing  block 的方式來解決這一問題。Passing  block 由前面設(shè)備上的重要 KV 對組成。每個上下文塊先被壓縮,然后將被壓縮的上下文塊通信到后續(xù) GPU 上來構(gòu)建 passing block。
  • 壓縮上下文塊:在不進行大規(guī)模通信的前提下,每個設(shè)備只對自己持有的上下文有訪問權(quán)限。因此,現(xiàn)存的 KV Cache 壓縮算法(例如 H2O 和 SnapKV)不適用于這一場景,因為它們依賴全序列的信息。然而,該特點與 Locret 一致,KV Cache 重要性分?jǐn)?shù)僅僅與對應(yīng) KV 對的 Q, K, V 相關(guān)。APB 使用 Locret 中引入的 retaining heads 作為上下文壓縮器。
  • 查詢感知的上下文壓縮:APB 在 anchor  block 的開頭嵌入查詢。當(dāng)預(yù)填充結(jié)束時,這些查詢可以隨著 anchor  block 一同被丟棄,不會影響整體計算的同時還能讓上下文壓縮器看到查詢的內(nèi)容。通過這種方式,保留頭能夠更精準(zhǔn)地識別出查詢相關(guān)的 KV 對,并通過通信機制傳給后續(xù)設(shè)備。

以此機制為基礎(chǔ),APB 的推理過程如下:

  • 上下文分割:長文本被均勻的分到每個設(shè)備上,開頭拼接一個 anchor block,其中包含了查詢問題。
  • 上下文壓縮:我們用 Locret 引入的保留頭來壓縮 KV Cache。
  • 通信:我們對壓縮過的 KV Cache 施加一個 AllGather 算子。每個設(shè)備會拿到前序設(shè)備傳來的壓縮緩存,并構(gòu)建 passing block。
  • 計算:我們使用一個特殊的 Flash Attention Kernel 來實現(xiàn)這個特殊的注意力機制。我們更改了注意力掩碼的形狀。Passing block 在注意力計算結(jié)束后就被刪除,不參與后續(xù)計算。

APB 實現(xiàn)更快、性能更好的長文本推理

團隊使用 Llama-3.1-8B-instruct, Qwen-2.5-14B-instruct 以及 Yi-34B-200K 模型在 InfiniteBench 和 RULER 上進行了測試,測量任務(wù)性能(%)以及處理完整長文本請求的推理速度(tok /s)。研究人員選擇 Flash Attention, Ulysses, Ring Attention, MInference 以及 Star Attention 作為基線算法,實驗結(jié)果如下:

圖片

從上圖可見,F(xiàn)lash Attention 作為無序列并行的精準(zhǔn)注意力算法,具有較好的任務(wù)性能,但推理速度最慢;Ring Attention 和 Ulysses 作為序列并行的精準(zhǔn)注意力算法,通過增加并行度的方式提升了推理速度;MInference 是一種無序列并行的稀疏注意力機制,表現(xiàn)出了一定的性能損失;Star Attention 作為序列并行與稀疏注意力結(jié)合的最初嘗試,具有較好的推理速度,然而表現(xiàn)出了顯著的性能下降。

相較于基線算法,APB 在多種模型和任務(wù)上表現(xiàn)出更優(yōu)的性能和更快的推理速度。這意味著,APB 方法能夠?qū)崿F(xiàn)最好的任務(wù)性能與推理速度的均衡。

除此之外,研究人員在不同長度的數(shù)據(jù)上測量了 APB 與基線算法的性能、速度,并給出了整體計算量,結(jié)果如下:

圖片

可以從上圖中看到,APB 在各種輸入長度下均表現(xiàn)出更優(yōu)的任務(wù)性能與推理速度。速度優(yōu)勢隨著輸入序列變長而變得更加明顯。APB 相較于其他方法更快的原因是它需要更少的計算,且計算量差異隨著序列變長而加大。

并且,研究人員還對 APB 及基線算法進行了預(yù)填充時間拆解分析,發(fā)現(xiàn)序列并行可以大幅度縮減注意力和 FFN 時間。

圖片

通過稀疏注意力機制,APB 能進一步縮減注意力時間。Star Attention 由于使用了過大的 anchor block,其 FFN 的額外開銷十分明顯,而 APB 由于使用了 passing block 來傳遞遠(yuǎn)距離語義依賴,能夠大幅度縮小 anchor block 大小,從而降低 FFN 處的額外開銷。

APB 支持具有卓越的兼容性,能適應(yīng)不同分布式設(shè)定(顯卡數(shù)目)以及不同模型大小,在多種模型和分布式設(shè)定下均在性能與推理速度上取得了優(yōu)異的效果。

核心作者簡介

黃宇翔,清華大學(xué)四年級本科生,THUNLP 實驗室 2025 年準(zhǔn)入學(xué)博士生,導(dǎo)師為劉知遠(yuǎn)副教授。曾參與過 MiniCPM、模型高效微調(diào)、以及投機采樣研究項目。主要研究興趣集中在構(gòu)建高效的大模型推理系統(tǒng),關(guān)注模型壓縮、投機采樣、長文本稀疏等推理加速技術(shù)。

圖片

李明業(yè),中南大學(xué)三年級本科生,2024 年 6 月份加入 THUNLP 實驗室實習(xí),參與過投機采樣研究項目。主要研究興趣集中在大模型的推理加速,例如投機采樣以及長文本推理加速等。

圖片

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-11-19 08:45:00

AI模型數(shù)據(jù)

2023-01-08 13:22:03

模型

2024-12-05 13:50:00

AI大模型

2023-04-07 08:17:39

fasthttp場景設(shè)計HTTP

2020-02-12 15:02:15

人工智能機器學(xué)習(xí)技術(shù)

2021-08-03 06:57:36

Protocol Bu平臺Json

2025-04-02 09:30:00

2025-06-11 14:39:50

AILLMMistral

2022-11-02 08:12:47

TurbopackVite

2021-05-06 10:52:09

Java Spring Bo框架

2023-05-30 14:17:00

模型推理

2011-06-29 09:31:58

3G4G5G

2025-07-10 14:54:13

AI模型圖像生成

2015-01-16 10:43:09

WiGigWiFi

2023-06-20 13:44:49

清華推理

2022-10-27 08:31:31

架構(gòu)

2023-10-14 15:22:22

2025-07-08 09:10:00

2024-12-27 09:30:00

AI數(shù)據(jù)訓(xùn)練

2025-06-30 14:02:00

視覺模型AI
點贊
收藏

51CTO技術(shù)棧公眾號

久久久久亚洲AV成人网人人小说| 久久精品99国产精品| 国产成a人亚洲| 亚洲美女中文字幕| 成人黄色午夜影院| 国产制服丝袜在线| 四虎亚洲精品| 久久中文字幕av| 欧美性videos高清精品| 国产成人一区二区三区免费看| 2019男人天堂| 是的av在线| 成人中文字幕在线| 欧美大尺度在线观看| 在线免费观看av的网站| 国产在线视频你懂得| 国产婷婷精品| 亚洲精品一线二线三线| 日韩中文在线字幕| 97久久人国产精品婷婷 | 国产精品视频永久免费播放| 9l视频白拍9色9l视频| 欧美女v视频| 一本久道综合久久精品| 亚洲第一在线视频| 欧美成人高潮一二区在线看| 欧美一区二区三区成人片在线| 中文字幕一区二区三区在线视频| 欧美一二区视频| 成人污网站在线观看| 99在线观看精品视频| 一区二区电影| 一区二区三区精品99久久 | 欧美91看片特黄aaaa| 波波电影院一区二区三区| 欧美激情奇米色| 97精品人人妻人人| 欧美综合社区国产| 亚洲欧美aⅴ...| 51国偷自产一区二区三区的来源| 强乱中文字幕av一区乱码| 深夜福利一区| 欧美日韩国产精品一区| 日韩不卡av| 国产精品无码久久久久成人app| 国产精品日本| 国模私拍一区二区三区| www.久久国产| 青草综合视频| 欧美色爱综合网| 青青视频免费在线观看| 91九色在线porn| 国产美女一区二区三区| 91精品国产乱码久久久久久蜜臀| 扒开jk护士狂揉免费| 欧美视频免费看| 亚洲国产成人精品视频| 欧美日韩国产免费一区二区三区| 在线观看免费视频一区| 精品69视频一区二区三区Q| 亚洲欧美国内爽妇网| 日韩网站在线播放| 久久悠悠精品综合网| 日本黄色一区二区| 色中文字幕在线观看| 色婷婷av一区二区三| 日本三级亚洲精品| 欧美成人一区二区三区电影| 欧美日韩黄色网| 亚洲老女人视频免费| 777a∨成人精品桃花网| www.玖玖玖| www.在线视频| 久久久久久日产精品| 成人精品久久久| 国产精品一区二区人人爽| 国产一区激情在线| 国产成人精品日本亚洲11 | 日韩精品免费综合视频在线播放| 看欧美ab黄色大片视频免费| 3d玉蒲团在线观看| 久久亚洲精华国产精华液| 96精品久久久久中文字幕| av大全在线观看| 欧美激情1区2区| 一区二区三区天堂av| 男人的午夜天堂| 亚洲都市激情| 中文字幕在线看视频国产欧美在线看完整| 精品久久久久一区二区| 国产精品诱惑| 日韩欧美一级在线播放| 可以看污的网站| 天天免费亚洲黑人免费| 欧美日韩亚洲综合在线 | 成人黄色av电影| 日本电影一区二区三区| 国产综合视频在线| 精品午夜久久福利影院| 国产精品九九九| 国产精品一区二区三区四| 日韩高清在线不卡| 人九九综合九九宗合| 日本熟妇色xxxxx日本免费看| 欧美91福利在线观看| 78色国产精品| 国产精品久久婷婷| 91麻豆视频网站| 裸体丰满少妇做受久久99精品| 国精产品乱码一区一区三区四区| 久久久影院官网| 国产精品啪啪啪视频| 中文字幕在线视频网站| 高跟丝袜欧美一区| 在线视频观看一区二区| 日韩在线激情| 日韩精品在线免费播放| 中文字幕一区二区久久人妻网站| 日韩影院二区| 按摩亚洲人久久| 国精产品一区一区二区三区mba| 亚洲作爱视频| 97视频中文字幕| 欧美jizzhd69巨大| 国产精品盗摄一区二区三区| 伊人狠狠色丁香综合尤物| 调教视频免费在线观看| 国产精品国产三级国产三级人妇| 欧美视频在线播放一区| 国产免费不卡| 欧美在线免费视屏| 亚洲一级免费观看| 欧美黑人巨大videos精品| 精品亚洲一区二区三区四区五区 | 欧美特黄一级视频| 亚洲图片欧美激情| 黄黄视频在线观看| 高清欧美日韩| 日韩欧美国产一二三区| 91大神福利视频| 欧美国产91| 成人激情在线观看| 麻豆tv免费在线观看| 欧美无人高清视频在线观看| 伊人免费视频二| 久久国产成人午夜av影院宅| 国产精品成人品| 国产视频第一页在线观看| 中文字幕综合网| 日本a视频在线观看| 视频在线日韩| 911精品国产一区二区在线| 精品国产aaa| 久久三级福利| 91色视频在线导航| 男人天堂手机在线观看| 一片黄亚洲嫩模| 日本精品免费在线观看| 韩国女主播一区二区三区| 亚洲午夜激情免费视频| 九九热最新地址| 久久xxxx精品视频| 91欧美精品午夜性色福利在线| 在线观看麻豆| 91精品国产91久久久久久最新毛片| 亚洲男人在线天堂| 99久久精品网| 日本久久精品视频| www.桃色av嫩草.com| 欧美国产精品一区二区| 青青草成人免费在线视频| 老牛影视av一区二区在线观看| 91地址最新发布| 成人亚洲性情网站www在线观看| 亚洲综合在线视频| 天天躁日日躁狠狠躁av麻豆男男| 中国女人久久久| 日韩欧美视频第二区| 亚洲福利影视| 国语对白做受69| 懂色av中文在线| 人妻丰满熟妇av无码区| 伊人久久大香线蕉av超碰| 亚洲高清免费观看高清完整版| 中文字幕一区二区三区手机版| 91视频.com| 亚洲三级在线观看视频| 亚洲动漫在线观看| 国产精品九九久久久久久久| 理论片午午伦夜理片在线播放| 亚洲综合偷拍欧美一区色| 中文乱码人妻一区二区三区视频| 日本成人在线一区| 久久久99精品视频| 神马电影久久| 国产69久久精品成人| 国产成人手机在线| 一本久道中文字幕精品亚洲嫩| 亚洲午夜久久久久久久久| 久久婷婷一区| 日韩精品久久一区二区| 视频一区中文| 成人动漫在线视频| а√天堂官网中文在线| 亚洲精品国偷自产在线99热 | 日韩啪啪网站| 久久久久女教师免费一区| 国产乱色精品成人免费视频| 婷婷亚洲久悠悠色悠在线播放| japan高清日本乱xxxxx| 亚洲国产日韩欧美在线| 成人免费淫片aa视频免费| 国产毛片欧美毛片久久久| 欧美一级在线免费观看| 色呦呦国产精品| 欧美日韩三级在线观看| 中文字幕欧美国产| 亚洲欧美日韩偷拍| 激情丁香综合五月| 日韩精品一区二区三区不卡| 蜜臀91精品国产高清在线观看| 亚洲a级在线播放观看| 3d欧美精品动漫xxxx无尽| 国产69精品久久久久99| yellow91字幕网在线| 中文字幕av一区中文字幕天堂| 亚洲aaaaaaa| 91久久奴性调教| 久久久久久久久久久久国产| www.av精品| 国产精品欧美激情在线观看| 精品国产乱码久久久久久1区2匹| 国产精品精品视频一区二区三区| 99riav视频在线观看| 日韩经典中文字幕在线观看| av 一区二区三区| 欧美老女人第四色| 久久网免费视频| 亚洲少妇30p| 人人澡人人澡人人看| 中文一区一区三区高中清不卡| 人妻av无码一区二区三区| 麻豆视频一区二区| 国产性生交xxxxx免费| 欧美韩国日本在线观看| 亚洲a∨一区二区三区| 精品一区二区三区中文字幕在线| 97人人做人人爱| 91美女视频在线| 最近2019中文免费高清视频观看www99| 国产精品无码在线播放| 欧美日韩黄视频| 福利一区二区三区四区| 亚洲综合成人在线视频| 欧美色图一区二区| 一区二区三区蜜桃网| 国产精品白嫩白嫩大学美女| 一区二区三区在线视频播放| 91精品人妻一区二区三区蜜桃欧美| 91视频免费播放| 西西444www无码大胆| 欧美韩国日本综合| 久草视频福利在线| av成人老司机| 免费看污片网站| 国产精品人成在线观看免费| 东京热av一区| 99久久精品免费观看| 不卡的av中文字幕| 在线免费看黄| 欧美天堂亚洲电影院在线播放| 波多野结衣在线观看视频| 夜夜夜精品看看| 日本三级午夜理伦三级三| 欧美日韩一区二区精品| 免费黄色一级大片| 五月婷婷激情综合网| 四虎地址8848| 亚洲欧美一区二区三区极速播放| 国产性生活网站| 欧美午夜精品在线| 一级爱爱免费视频| 精品毛片乱码1区2区3区| 中文字幕日日夜夜| 狠狠做深爱婷婷久久综合一区| 久草视频一区二区| 欧美二区在线观看| 秋霞网一区二区| 在线不卡国产精品| 在线h片观看| 欧美在线影院在线视频| 婷婷激情成人| 麻豆传媒一区| 亚洲国产一成人久久精品| 青青青免费在线| 久久国产精品区| 宅男噜噜噜66国产免费观看| 国产一区在线精品| 91久久免费视频| 亚洲一区电影777| 久久99久久98精品免观看软件| 国产精品天美传媒| 久久久久无码国产精品不卡| 色呦呦国产精品| 蜜臀久久99精品久久久| 日韩在线视频观看| 黄色在线观看www| 97在线观看免费| 欧美高清影院| 欧美激情导航| 精品1区2区3区4区| 97人人爽人人| 久久久久久久免费视频了| 久操免费在线视频| 欧美精品三级在线观看| 酒色婷婷桃色成人免费av网| 欧美大片在线影院| 先锋影音网一区二区| 欧美日韩一区二| 国产一区二区你懂的| 日本50路肥熟bbw| 亚洲男同性恋视频| 中文字幕有码视频| 亚洲欧美激情另类校园| 成人影院在线播放| 亚洲h动漫在线| 蜜臀视频一区二区三区| 国产成人无遮挡在线视频| 女王人厕视频2ⅴk| 成人一区二区在线观看| 亚洲综合视频网站| 欧美三级在线播放| 福利视频在线播放| 国产91色在线播放| 色先锋久久影院av| 亚洲熟妇国产熟妇肥婆| av在线播放不卡| 久久精品国产亚洲av无码娇色| 五月天久久比比资源色| 亚洲AV无码精品自拍| 亚洲精品国产拍免费91在线| 青春草在线免费视频| 9.1国产丝袜在线观看| 99ri日韩精品视频| 牛人盗摄一区二区三区视频| 日韩一级免费| 亚洲综合自拍网| 富二代精品短视频| 亚州精品国产精品乱码不99按摩| 国外成人在线直播| 欧美一区二区三区红桃小说| 免费看国产曰批40分钟| av不卡一区二区三区| 91九色丨porny丨肉丝| 欧美日韩高清不卡| 亚洲图片88| 91九色国产社区在线观看| 88国产精品视频一区二区三区| 天天干天天曰天天操| 一区二区在线观看免费| 亚洲a视频在线观看| 久久久久在线观看| 日韩精品福利一区二区三区| 妞干网在线免费视频| 亚洲国产精品黑人久久久| 91在线你懂的| 国产亚洲精品美女| 国产极品一区| 免费看污污视频| 老司机精品视频网站| 人人爽人人爽人人片| 在线成人av网站| 狂野欧美性猛交xxxxx视频| 国产亚洲精品久久飘花| 7777久久香蕉成人影院| 欧美日韩一区二区区别是什么| 国产精品视频一区二区三区不卡| 亚洲熟妇av乱码在线观看| 欧美超级免费视 在线| 美腿丝袜亚洲图片| 无码人妻精品一区二区三区66| 国产精品欧美经典| 亚洲风情第一页| 欧美中文字幕视频| 香港欧美日韩三级黄色一级电影网站| 可以看的av网址| 欧美性生交xxxxx久久久| 日本欧美在线视频免费观看| 成人av片网址| 麻豆专区一区二区三区四区五区| 欧美国产日韩综合| 亚洲日本成人女熟在线观看| 黄色激情在线播放| 亚洲精品在线免费看| 日本亚洲天堂网| 福利所第一导航| 国产一区二区成人| 亚洲精品v亚洲精品v日韩精品| 欧美污视频网站| 一区二区三区成人|