精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Meta最新REFRAG框架引爆RAG圈!KV緩存暴降90%,速度狂飆30×

發布于 2025-9-16 07:25
瀏覽
0收藏

一、RAG一些棘手的問題

檢索增強生成(RAG)通過把外部知識以“拼接文檔”形式喂給大模型,在多輪對話、開放域問答、Agent 等場景取得顯著效果。然而,該范式帶來兩個問題:

  • 延遲爆炸:輸入長度驟增,首詞延遲(TTFT)與 KV-Cache 顯存隨 token 數線性乃至二次方增長。
  • 信息稀疏:檢索返回的幾十篇文檔里,僅極少數片段與當前 query 真正相關;其余 token 對生成幾乎無貢獻,卻仍要參與全部注意力計算。

有一些緩解手段,但是效果有限。例如:

  • 稀疏注意力 / 線性注意力:把 O(n2) 降為 O(n) 或 O(n log n),但 KV-Cache 體積不變,TTFT 依舊隨序列長度線性增加。
  • 前綴壓縮 / 滑動窗口:只能丟棄最左側 token,無法處理“中間大段無用信息”的 RAG 場景。
  • Chunk 級編碼器(如 CEPE):把文檔先經編碼器壓成向量,再用交叉注意力注入解碼器,但仍以“token”為基本單元,未突破“所有 token 必須進 KV-Cache”的桎梏,且僅支持前綴壓縮,不支持多輪、任意位置壓縮。

二、4個問題的解決思路

問題

關鍵技術

工作原理簡述

不修改解碼器參數

的前提下,把 RAG 上下文“壓”到極小,卻保持生成質量

Chunk-level 表示替代 Token 序列

以 k 個 token 為一組,用輕量編碼器壓成一個向量,解碼器只在該向量上做注意力,輸入長度立即降為 1/k。

復用檢索階段已算好的文檔向量

,避免重復編碼

預計算 + 可復用 Chunk Embedding

檢索階段已產出文檔向量,直接緩存;推理時僅需輕量投影 φ(·) 對齊解碼器隱空間,零重復編碼。

在任意位置、任意粒度

做“壓縮-解壓”決策,以適配多輪對話、Agent 等復雜格式

“Compress-Anywhere” 自回歸掩碼

把壓縮向量當“特殊 token”插入原始序列任意位置,通過定制 attention mask 維持自回歸,支持多輪、中間摘要等格式。

在壓縮率可動態調整

的同時,保證訓練穩定、推理加速效果可預測

RL-based Selective Expansion

訓練一個策略網絡 πθ,按 chunk 重要性順序決定“哪些解壓回 token”,在推理階段可實時調整壓縮率,無需重新微調模型。

三、REFRAG

Meta最新REFRAG框架引爆RAG圈!KV緩存暴降90%,速度狂飆30×-AI.x社區

3.1 REFRAG的輸入與輸出

  • 輸入:question token q?…q?,檢索返回文檔 d?…d?,總長度 T = n + m。
  • 分塊:文檔側每 k 個 token 切為一 chunk C?,得 L = ?m/k? 塊。
  • 編碼:輕量編碼器 M???(·)(RoBERTa 系列)輸出 chunk embedding c? = M???(C?)。
  • 投影:φ(c?) → e???? ∈ ??,與解碼器詞嵌入同維。
  • 解碼器輸入:[e?,…,e? ? question tokens;  e????,…,e???? ? compressed chunks]序列長度由 n + m 縮至 n + L(L ≈ m/k)。
  • 生成:標準自回歸,注意力只在 n+L 個表示上計算,復雜度 O((n+L)2) ≈ O(n2/k2)。

3.2 訓練三階段(穩定壓縮的關鍵)

Meta最新REFRAG框架引爆RAG圈!KV緩存暴降90%,速度狂飆30×-AI.x社區

  1. 重建任務(Reconstruction)目的:讓 φ 與 M??? 學會“k 個 token → 一個向量 → 還原 k 個 token”的信息守恒。做法:凍結解碼器,僅訓練 M??? + φ;輸入前 s token,用 chunk 嵌入重建自身。
  2. 持續預訓練(CPT,Next-Paragraph Prediction)目的:讓解碼器“習慣”把 chunk 嵌入當上下文。做法:解凍解碼器,以“前 s token 的 chunk 嵌入”預測后 o token,采用課程學習
  • 階段 1 只重建 1 個 chunk,階段 9 重建 256 個 chunk,逐步加難度,防止梯度爆炸/欠擬合。
  1. 下游微調 + 選擇性解壓(SFT + RL Expansion)目的:適配 RAG、多輪對話、摘要等任務,并學會“重要 chunk 不解壓”。做法:
  • 先以 90 % 壓縮率混合輸入(90 % chunk 嵌入 + 10 % 原始 token)繼續微調。
  • 再用強化學習(PPO-GRPO)訓練策略 πθ,按順序挑選 T′ 個 chunk 恢復成 token;獎勵 = -perplexity。推理時,給定延遲預算,可動態選 T′,實現“同延遲更多文檔”或“同文檔更低延遲”。

3.3 復雜度與加速比

Meta最新REFRAG框架引爆RAG圈!KV緩存暴降90%,速度狂飆30×-AI.x社區

記 s = 文檔側 token 數,k = 壓縮粒度,則

  • KV-Cache 內存:降為 1/k
  • TTFT 計算量:≈ 1/k2(短文本 1/k,長文本 1/k2)
  • 實驗峰值:k=32 時 TTFT 加速 30.85×,吞吐量最高 6.78×,perplexity 與 Full-Context 基線持平甚至更好。

四、REFRAG的流程

1.檢索端改造

  • 沿用現有雙塔向量檢索,僅加“保存 chunk 向量”邏輯;向量庫存 FP16,占空間 < 1 % 原文本。

2.編碼器離線蒸餾

  • 選 RoBERTa-Base 為教師,用 MSE 損失對齊 LLaMA 詞嵌入空間;訓練 1 epoch,8×A100 約 6 小時。

3.重建任務

  • 凍結 LLaMA,僅訓編碼器+2 層 MLP 投影;學習率 2e-4,batch 256,4 萬步即可。

4. CPT + 課程學習

  • 數據混合按表 8 幾何序列;9 個階段共 40 k 步,學習率 5e-5,FSDP 8 節點 64 卡,一天完成。

5.下游微調

  • RAG 數據 110 萬條,混合 5 域問答;90 % 壓縮率混合輸入,訓練 1 epoch,學習率 2e-5。

6.RL 策略訓練(可選)

  • 用 GRPO 組采樣 64 條軌跡,T′=L/4,clip=0.2,訓練 5 k 步即可上線;推理時按延遲預算選 T′。

7 部署

  • 緩存 chunk 向量放 CPU 內存,推理時異步預取;
  • batch=1 實測 A100 上 16 k token 上下文 TTFT 從 2.8 s → 90 ms。

五、實驗驗證與消融分析

5.1 主實驗結果

數據集:Arxiv、Book、PG19、Proof-pile + 16 項 RAG 基準(NQ、TQA、MMLU 等)基線:LLaMA-2-7B、LLaMA-32K、CEPE、REPLUG、LLaMAK(截斷匹配 token 數)指標:perplexity、ExactMatch、F1、Accuracy、TTFT、Throughput

模型

平均困惑度↓

TTFT 加速比↑

顯存節省

LLaMA-Full

1.00×

1.0×

0 %

CEPE

+2.1 %

2.0×

50 %

REFRAG16

-1.2 %

16.5×

93.75 %

REFRAG32

+0.8 %

30.8×

96.9 %

結論:在相同或更低困惑度前提下,REFRAG 把首詞延遲壓到 CEPE 的 1/3.75,顯存僅用 3 %。

5.2 下游任務抽樣

  • RAG(強檢索器):REFRAG8 與 LLaMA-FT 10-passage 相比,平均準確率 +1.22 %,延遲僅 1/5.26。
  • RAG(弱檢索器):REFRAG 因能裝 8× 更多文檔,在檢索質量差時優勢放大,平均 +1.93 %。
  • 多輪對話:TopiOCQA 6 輪場景,REFRAG8 比 LLaMA-FT 提升 5.6 %,因無需截斷歷史。
  • 長文檔摘要:Arxiv/Pubmed  Rouge-1 提升 3–5 點,同解碼 token 預算下顯著領先。

5.3 消融實驗

  1. 無課程學習:重建任務 perplexity 從 0.135 → 1.599,CPT 不收斂。
  2. 無重建預初始化:CPT 階段 perplexity 差 30 % 以上。
  3. 無 RL 選擇:固定壓縮率 8 的 REFRAG8 被“REFRAG16+RL 選 50 %”全面超越,驗證動態解壓>靜態低壓縮
  4. 編碼器大小:RoBERTa-Base→Large 僅降 0.2 % perplexity,解碼器 7B→13B 降 8 %,說明瓶頸在解碼器容量而非編碼器。

六、REFRAG與其它方案對比

方法

壓縮粒度

是否復用檢索向量

支持任意位置

動態壓縮

模型改動

LLMLingua

token

預算驅動

CEPE

token

否(僅前綴)

需改交叉注意

Compressive Transformer

segment

需從頭訓練

REFRAG

chunk

是(RL)

零解碼器參數

七、RAG改進的幾個方向

  1. 極端壓縮率(k≥64)下信息損失陡增,需探索非均勻分段層次壓縮
  2. 多模態擴展:文本-圖像混合 RAG 時,chunk 定義與對齊策略待研究。
  3. 在線學習:隨著知識庫更新,如何增量更新 chunk 向量而避免全量重算。
  4. 端側落地:chunk 向量緩存仍占內存,可結合量化+索引壓縮進一步瘦身。

八、結論

REFRAG 重新審視了 RAG 的“長上下文”假設,指出其注意力矩陣的塊對角稀疏性使得“token-level 全計算”成為巨大浪費。

通過“先壓縮、再感知、后擴展”,在零解碼器參數、零生成質量損失的前提下,把首詞延遲壓到現有工作的 1/3.75,顯存節省 90 % 以上,并支持任意位置、動態壓縮的復雜場景。

實驗覆蓋 RAG、多輪對話、長文摘要三大任務,加速比 6–30× 全面領先,為“大模型+知識庫”在 web-scale、Agent 等延遲敏感場景落地提供了可工程化、可擴展的新范式。

??https://arxiv.org/pdf/2509.01092??

??https://github.com/simulanics/REFRAG??

本文轉載自???CourseAI???,作者:CourseAI

已于2025-9-16 07:30:53修改
收藏
回復
舉報
回復
相關推薦
一区二区在线视频| 无吗不卡中文字幕| 国产精品欧美久久| 精品人妻一区二区色欲产成人| 亚洲区小说区图片区qvod| 91久久线看在观草草青青| 9l视频自拍9l视频自拍| 亚欧洲精品视频| 韩国毛片一区二区三区| 97人人爽人人喊人人模波多| 亚洲午夜精品久久久久久高潮| av日韩一区| 一本大道久久精品懂色aⅴ| 亚洲欧美日韩另类精品一区二区三区| 亚洲精品国产精| 青青草97国产精品免费观看无弹窗版| 大胆人体色综合| 国产jk精品白丝av在线观看| 2021年精品国产福利在线| 在线观看免费一区| 欧洲精品一区二区三区久久| 日本在线免费网| 久久先锋资源网| 国产在线98福利播放视频| 中文字幕在线观看视频网站| 欧美成人午夜| 色悠悠久久88| 自拍偷拍视频亚洲| 人体久久天天| 精品久久久久久亚洲综合网| 国产精欧美一区二区三区白种人| 在线能看的av网址| 亚洲国产色一区| 大桥未久一区二区三区| lutube成人福利在线观看| kk眼镜猥琐国模调教系列一区二区| 91中文字幕在线| 亚洲一区二区影视| 日韩国产欧美在线观看| 欧美自拍大量在线观看| 日韩欧美视频在线免费观看| 欧美二区不卡| 欧美猛交免费看| 亚洲av鲁丝一区二区三区| 97人人精品| 中文字幕少妇一区二区三区| 97在线观看免费视频| 牛牛影视久久网| 亚洲国产成人av在线| 大尺度在线观看| 国产一区二区三区亚洲| 精品久久久久久无| 免费黄色三级网站| 久久九九热re6这里有精品| 精品免费国产二区三区| 中文字幕一区二区三区人妻在线视频 | 日本福利午夜视频在线| 91美女福利视频| 免费日韩电影在线观看| 国产午夜在线观看| 国产喷白浆一区二区三区| 欧洲成人一区二区| av在线1区2区| 亚洲婷婷综合久久一本伊一区 | 免费高清在线观看| 最新热久久免费视频| 国产在线拍揄自揄拍无码| 2024最新电影在线免费观看| 亚洲在线观看免费| 国产黄页在线观看| 大胆人体一区| 欧美揉bbbbb揉bbbbb| 小早川怜子一区二区三区| 精品精品视频| 亚洲成色www8888| 中日韩精品一区二区三区| 精品久久美女| 久久网福利资源网站| 久草视频免费播放| 国产精品久久777777毛茸茸 | 伊人伊人伊人久久| 国产精品精品软件男同| 韩日欧美一区| 国产成人高潮免费观看精品| 亚洲一二区视频| 成人性生交大片免费| 久久久久久欧美精品色一二三四| 国产精品四虎| 一区二区三区在线观看欧美| 欧美成人精品欧美一级乱| 美女久久久久久| 亚洲第一av在线| 欧美波霸videosex极品| 自由日本语亚洲人高潮| 91a在线视频| 91美女精品网站| aaa亚洲精品| 一级二级三级欧美| 福利影院在线看| 欧美日韩在线一区二区| 中国一级特黄录像播放| 日韩成人精品一区二区| 久久久久久久久久婷婷| 啪啪小视频网站| 成人一区在线看| 亚洲精品一区二区三| www.综合网.com| 欧美日本在线看| theav精尽人亡av| 91精品国产成人观看| 日韩免费在线播放| 欧美综合视频在线| 亚洲人成网站在线| 午夜免费一区二区| 欧美xxxx在线| 欧美精品午夜视频| 一区二区视频网| 91视频精品在这里| www.国产二区| 成人自拍视频| 最新国产精品拍自在线播放 | 亚洲淫性视频| 在线观看欧美日本| 精品人妻少妇嫩草av无码| 欧美欧美天天天天操| 91精品久久久久久久久青青 | 久久久精品视频在线观看| 中文字幕一区二区人妻电影| 成人丝袜视频网| 粉嫩av一区二区三区天美传媒| 精品欧美日韩精品| 亚洲男人天堂网| 精品国产免费观看| 成人福利电影精品一区二区在线观看| 香蕉视频在线网址| 成人免费一区| 伊人伊成久久人综合网小说| 欧美brazzers| 国产午夜精品一区二区三区四区| 丰满少妇久久久| 91亚洲无吗| 欧美精品第一页在线播放| 国产青青草视频| 亚洲色图制服丝袜| 婷婷激情综合五月天| 97视频精品| 亚洲va久久久噜噜噜| 成人video亚洲精品| 欧美一级高清片| 欧美精品一区二区蜜桃| 国产不卡在线视频| 成人在线播放网址| 加勒比中文字幕精品| 欧美综合激情网| 麻豆av电影在线观看| 在线免费观看日本一区| 婷婷综合在线视频| 久久99最新地址| 麻豆一区二区三区在线观看| 亚洲精选av| 98精品国产高清在线xxxx天堂| 五月天激情婷婷| 色8久久人人97超碰香蕉987| 日韩一区二区a片免费观看| 欧美a级一区二区| avove在线观看| 国产suv精品一区二区四区视频| 性色av一区二区三区| 九色国产在线观看| 欧美精品免费视频| 久久国产露脸精品国产| 99re8在线精品视频免费播放| av动漫在线观看| 日本不卡免费一区| 91传媒视频在线观看| 日本熟妇毛耸耸xxxxxx| 粉嫩一区二区三区性色av| 国产精品网站免费| 国产欧美一区二区精品久久久| 国产精品小说在线| 日本h片在线| 亚洲人成电影网| 国产免费叼嘿网站免费| 亚洲国产成人91porn| 国产免费一区二区三区网站免费| 九九精品视频在线看| 国产二区视频在线| 成人一级毛片| 国产欧美一区二区三区另类精品 | av男人的天堂av| 国精产品一区一区三区mba视频| 日本黄大片在线观看| 亚洲综合小说图片| 亚洲影院高清在线| 欧美18av| 久久久在线观看| 麻豆网站在线免费观看| 亚洲精品av在线| 一级片视频网站| 日韩欧美国产激情| 精品99在线观看| 日本一区二区三级电影在线观看| 午夜性福利视频| 免费高清成人在线| 成人免费毛片网| 欧美日韩网址| 亚洲欧美成人一区| 日韩精品a在线观看91| 成人高清视频观看www| 在线播放高清视频www| 欧美精品一区二区免费| av免费在线一区二区三区| 亚洲国产欧美一区| 国产黄a三级三级看三级| 欧美午夜电影一区| 国产午夜在线播放| 亚洲综合色丁香婷婷六月图片| 69xxx免费| 久久久久久一二三区| 好吊操视频这里只有精品| 久久精品国产免费| 日韩肉感妇bbwbbwbbw| 久久99伊人| 免费成人在线视频网站| 激情五月***国产精品| 久久香蕉视频网站| 久久久久久免费视频| 亚洲国产午夜伦理片大全在线观看网站| 国产无遮挡裸体免费久久| 99视频在线播放| 日韩精品成人| 91精品久久香蕉国产线看观看| 日韩黄色在线| 国产精品久久久久77777| 偷拍精品精品一区二区三区| 4388成人网| 老司机深夜福利在线观看| 久久久久久久久久久免费精品 | 亚洲精品国产精品乱码不99| 小嫩苞一区二区三区| 国产精品看片你懂得| 亚洲精品视频网址| 日本一区二区动态图| 亚洲第一视频区| 欧美国产精品中文字幕| 人妻视频一区二区| 国产女主播一区| 亚洲欧洲综合网| 综合欧美亚洲日本| 四虎免费在线视频| 亚洲综合视频在线| 91超碰中文字幕久久精品| 视频一区二区三区国产 | 国产大片aaa| 图片区日韩欧美亚洲| 国产精品久久久久久久妇| 都市激情亚洲色图| 精产国品一区二区| 欧美性videosxxxxx| 911美女片黄在线观看游戏| 欧美精品在线观看一区二区| 国产精品无码AV| 欧美本精品男人aⅴ天堂| 免费观看成年人视频| 亚洲精品国产品国语在线| 欧美777四色影视在线 | xxxx在线视频| 欧美综合第一页| 福利精品一区| 亚洲永久在线观看| 国产成人高清精品免费5388| 老司机精品福利在线观看| 欧美日韩激情在线一区二区三区| 一本一本a久久| 国内在线观看一区二区三区| 国产69精品久久久久久久| 爽好多水快深点欧美视频| 天天色天天综合网| 不卡区在线中文字幕| 国产肥白大熟妇bbbb视频| 亚洲欧洲一区二区三区| 国产小视频在线看| 日本二三区不卡| 国产强被迫伦姧在线观看无码| 亚洲精品一区二区三区影院| 国产永久av在线| 美日韩精品免费观看视频| 日韩欧美一中文字暮专区| 国产欧美日韩中文| 免费福利视频一区| 中国一区二区三区| 一本久久综合| 亚洲三级在线观看视频| 91网站在线播放| 91人妻一区二区三区蜜臀| 欧美日韩中文字幕| 国产欧美一级片| 亚洲天堂影视av| 激情av在线| 国产精品一区二区三区毛片淫片| 卡一精品卡二卡三网站乱码| 久久免费看毛片| 鲁大师成人一区二区三区| 少妇欧美激情一区二区三区| 国产亚洲综合av| 国产系列精品av| 欧美日韩一区二区欧美激情 | xfplay精品久久| 国产一二三区精品| 欧日韩精品视频| 香港一级纯黄大片| 欧美老妇交乱视频| 久久天天久久| 日韩和欧美的一区二区| 99精品国产福利在线观看免费 | 超碰成人在线观看| 懂色av粉嫩av蜜臀av| 免费在线观看日韩欧美| 一二三不卡视频| 性做久久久久久久久| 国产农村妇女毛片精品| 日日骚久久av| 欧美精品高清| 欧美精品一区二区三区在线四季| 激情视频一区| 涩视频在线观看| 亚洲精品中文在线观看| 亚洲专区在线播放| 伊人伊成久久人综合网小说| 日韩欧美看国产| 欧美日韩国产一二| 国产亚洲午夜| www.自拍偷拍| 欧美日韩国产精品专区| 人人妻人人澡人人爽久久av | 成人av电影在线网| 伊人365影院| 亚洲成色777777女色窝| 77thz桃花论族在线观看| 国产精品国产精品国产专区蜜臀ah | 一区二区三区| 9999在线观看| 激情亚洲综合在线| 免费国产羞羞网站美图| 91精品黄色片免费大全| 大片免费在线看视频| 亚洲精品欧美日韩专区| 亚洲美女视频| 苍井空张开腿实干12次| 亚洲线精品一区二区三区| 性生活视频软件| 久久免费少妇高潮久久精品99| 这里视频有精品| 日韩a级在线观看| 成人黄色国产精品网站大全在线免费观看| 欧美极品aaaaabbbbb| 精品美女一区二区| 天堂中文最新版在线中文| 欧美日韩一区二 | 8888四色奇米在线观看| 国产精自产拍久久久久久| 欧美oldwomenvideos| 成人性生交视频免费观看| 亚洲尤物视频在线| 亚洲 小说区 图片区 都市| 国产成人av在线| 99久久久久| www.四虎在线| 日韩欧美999| 国产人成网在线播放va免费| 3d动漫啪啪精品一区二区免费| 国内精品美女在线观看| 成人h动漫精品一区| 欧美吻胸吃奶大尺度电影| 伊人影院蕉久影院在线播放| 精品一区二区三区自拍图片区| 三级成人在线视频| 婷婷久久综合网| 日韩成人在线视频观看| 51一区二区三区| 欧美日韩中文字幕在线播放| 97久久人人超碰| 97精品人妻一区二区三区| 久久久久久国产精品| 国产一区二区三区四区五区传媒| 超碰91在线播放| 欧美午夜影院在线视频| 日本在线观看| 久久精品中文字幕一区二区三区| 久久99精品国产.久久久久| 国产在线视频二区| 在线日韩精品视频| av一级亚洲| 手机版av在线| 色综合咪咪久久| 免费在线看黄网站| 久久手机视频| 丁香桃色午夜亚洲一区二区三区| 欧美一区二区三区久久久| 欧美老少配视频|