精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型前綴緩存技術,有望將服務成本降低90% 原創

發布于 2025-2-17 10:47
瀏覽
0收藏

大模型應用程序中的提示詞重復率高達70%。前綴緩存機制能夠將推理成本降低達90%,顯著優化性能并節約資金。

是不是總感覺ChatGPT響應緩慢?

大家可能沒有留意,大模型應用程序的提示詞重復率高達70%,問天氣、問翻譯和問節日安排的內容大量出現,且每次都要消耗算力進行處理。這樣的情況在分布式集群的各節點上被無數次放大,白白燒掉寶貴的能源和金錢。

為此,Anthropic日前詳細介紹了如何利用提示詞緩存技術將推理成本降低90%。其實不少開源大模型運行時(包括vLLM、TRT-LLM和SGLang等)都擁有自動前綴緩存(也稱上下文緩存)功能,負責將相同前綴請求中的輸入提示詞自動緩存起來。

前綴緩存的工作原理

為了更好地理解前綴緩存,我們先來聊聊大模型推理的工作原理。

推理過程在宏觀上分為兩個步驟:

  • 通過正向傳遞處理給定的輸入標記序列,即預填充階段
  •  解碼階段,從首個token連續生成至最后一個token,且當前token依賴于上一token。

大模型前綴緩存技術,有望將服務成本降低90%-AI.x社區

圖一

由于此過程的自回歸屬性(即新token依賴于前一token),因此有效的內存管理非常重要。多數大模型會采取為中間狀態保留KV緩存的做法。與簡單提示詞或語義緩存的不同之處在于,其不會將全文輸入和輸出保存在數據庫內,因為這樣就只有完全匹配(或者幾乎完全相同的查詢)才能立即命中緩存并收到響應。

在預填充階段,在大模型處理token時會計算“注意力”,即每個token與其他token的關系。計算過程會為每個token生成鍵-值矩陣。如果不經任何KV緩存,那么模型每次回顧此前token時都需要重新計算這些矩陣。KV緩存在設計上只支持一次生成,即只會在生成一條輸出的過程中捕捉中間狀態。

如果有兩條具有相同前綴的請求,該怎么處理?

KV緩存的基本思路啟發并衍生出了前綴緩存,確保在生成包含相同前綴的提示詞時給出不同的響應。簡單類比一下,假設已經計算過2 * 6的結果,那么對于2 * 6 * 3 * 5 這個新問題,可以直接復用之前的答案,避免在序列中重復計算。

這對應用程序有何幫助?

我們可以使用以下最佳實踐來充分發揮前綴緩存的優勢:

為提示詞結構設計策略

可以將系統提示詞、基礎指令或者共享上下文等常量元素放在提示詞的開頭(圖二),從而為多條查詢建立可復用基礎。其他動態或特殊內容則可放在末尾。

大模型前綴緩存技術,有望將服務成本降低90%-AI.x社區

圖二

對請求進行重新分組

將共享通用結構/前綴的請求捆綁在一起(圖三)。例如,在處理以常見問候語或稱呼開頭的多條客戶查詢時,可以嘗試將它們分為一組,盡可能提高計算過程的緩存和復用率。

大模型前綴緩存技術,有望將服務成本降低90%-AI.x社區

圖三

監控緩存利用率

另外,需要注意跟蹤緩存利用率。

包括命中率與未命中率:

  • 找出哪些前綴比其他一般前綴更重要
  • 識別緩存未命中的模式

依托這些見解,就能優化提示詞結構以獲得最佳性能。

簡單示例

以下示例為當多條查詢共享相同的上下文時,前綴緩存如何優化大模型推理。我們使用一份簡單的員工數據庫表,并對其中內容進行不同查詢。

Python
import time
from vllm import LLM, SamplingParams

# A small table containing employee information
LONG_PROMPT = """You are a helpful assistant that recognizes content in markdown tables. Here is the table:

| ID | Name          | Department | Salary  | Location    | Email                |
|----|---------------|------------|---------|-------------|---------------------|
| 1  | Alice Smith   | Engineering| 85000   | New York    | alice@company.com   |
| 2  | Bob Johnson   | Marketing  | 65000   | Chicago     | bob@company.com     |
| 3  | Carol White   | Sales      | 75000   | Boston      | carol@company.com   |
| 4  | David Brown   | Engineering| 90000   | Seattle     | david@company.com   |
| 5  | Eve Wilson    | Marketing  | 70000   | Austin      | eve@company.com     |
"""

def get_generation_time(llm, sampling_params, prompts):
    start_time = time.time()
    output = llm.generate(prompts, sampling_params=sampling_params)
    end_time = time.time()
    print(f"Output: {output[0].outputs[0].text}")
    print(f"Generation time: {end_time - start_time:.2f} seconds")

# Initialize LLM with prefix caching enabled
llm = LLM(
    model='lmsys/longchat-13b-16k',
    enable_prefix_caching=True
)

sampling_params = SamplingParams(temperature=0, max_tokens=50)

# First query - will compute and cache the table
get_generation_time(
    llm,
    sampling_params,
    LONG_PROMPT + "Question: What is Alice Smith's salary? Your answer: Alice Smith's salary is "
)

# Second query - will reuse the cached table computation
get_generation_time(
    llm,
    sampling_params,
    LONG_PROMPT + "Question: What is Eve Wilson's salary? Your answer: Eve Wilson's salary is "
)

運行以上代碼,即可查詢不同查詢間的實際時間差異。第二條查詢明顯更快,因為其復用了緩存中的表上下文。具體時間將根據硬件和設置而有所浮動。

總結

前綴緩存是一項強大的大模型應用優化技術。實施上述最佳實踐將幫助開發人員顯著降低推理成本,且不致影響響應質量。參考示例也表明其操作難度極低,推薦大家馬上在自己的應用程序中試一試。

原文標題:??90% Cost Reduction With Prefix Caching for LLMs?,作者:Mahak Shah

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
视频一区二区在线播放| 久久久久久久国产精品毛片| 精品123区| 国产精品视频免费看| 91久久精品国产91性色| 久久久美女视频| 精品中文一区| 欧美日本一区二区三区| 国产精品自拍片| 粉嫩一区二区三区国产精品| 国产一区二区美女| 97精品一区二区三区| 国产精品69久久久久孕妇欧美| 免费欧美网站| 欧洲视频一区二区| xxxx18hd亚洲hd捆绑| 又爽又大又黄a级毛片在线视频| 成人av在线播放网站| 国产精品一区二区三区毛片淫片| 久久一二三四区| 日韩成人综合| 亚洲精品视频二区| 黄页网站在线看| 国产精品xxx| 欧美性少妇18aaaa视频| 黄色一级视频播放| av在线天堂| 26uuu久久综合| 国产精品久久久久免费| 96日本xxxxxⅹxxx17| 久久先锋影音| 九九热最新视频//这里只有精品| 卡一卡二卡三在线观看| 亚洲精品aaaaa| 精品国产99国产精品| 超碰成人在线播放| 九色成人搞黄网站| 日本精品视频一区二区| 久久视频这里有精品| 欧美黑人猛交| 亚洲日本在线视频观看| 亚洲春色在线| a天堂中文在线| 久久精品一区二区三区四区| 精品综合在线| 蜜桃av鲁一鲁一鲁一鲁俄罗斯的| 国产精品一卡二卡| 亚洲一区二区中文字幕| 国产欧美熟妇另类久久久| 青草av.久久免费一区| 国产精品久久久久久亚洲调教| 九九热在线免费观看| 亚洲深夜福利| 午夜精品视频在线| 久久久精品免费看| 亚欧成人精品| 国产成人鲁鲁免费视频a| 亚洲精品中文字幕乱码三区91| 亚洲影院在线| 国产精品69av| 亚洲视频久久久| 久久电影国产免费久久电影| 国产色视频一区| 亚洲综合精品国产一区二区三区 | 午夜精品www| 青青操国产视频| 亚洲视频碰碰| 欧美亚洲在线视频| 日韩三级一区二区| 日韩电影一区二区三区四区| 国产精品视频内| 99久久精品无免国产免费| 国产黑丝在线一区二区三区| 成人欧美一区二区| 香蕉久久国产av一区二区| 久久人人爽爽爽人久久久| 天堂√在线观看一区二区 | 九九热99久久久国产盗摄| 国产污视频在线观看| 国产日韩高清一区二区三区在线| 国产成人黄色av| 中文字幕永久在线视频| 国产麻豆日韩欧美久久| 国产精品国产亚洲精品看不卡15| 亚洲区小说区图片区| 欧美激情资源网| 超碰超碰超碰超碰超碰| 一本大道色婷婷在线| 欧美亚洲一区二区在线| 青娱乐国产精品视频| 国产乱人伦丫前精品视频| 亚洲人成啪啪网站| 日韩欧美国产成人精品免费| 一本不卡影院| 成人福利在线观看| 天堂在线视频网站| 欧美国产精品专区| 搞av.com| 日本一区二区中文字幕| 亚洲激情免费观看| 国产日产在线观看| 亚洲永久视频| 亚洲综合第一页| 国产福利第一视频在线播放| 亚洲精品欧美激情| 色哟哟精品视频| 日韩一区二区三区精品视频第3页| 亚洲欧美成人在线| 黄色一级视频免费| 蜜臀a∨国产成人精品| 精品国产一区二区三区四区精华| 日本成a人片在线观看| 欧美日韩国产色视频| 亚洲高清在线不卡| 精品日产免费二区日产免费二区| 久久青草福利网站| 国产美女裸体无遮挡免费视频| 91浏览器在线视频| 成人精品视频在线播放| 欧美久久久网站| 亚洲欧美综合另类中字| 日韩av电影网址| 国产精品一区二区免费不卡| 日本一区视频在线| 免费h视频在线观看| 日韩精品一区二区三区四区| 毛片视频免费播放| 日韩av不卡在线观看| 你懂的视频在线一区二区| 波多野结衣精品| 日韩一区二区精品葵司在线| 丁香六月激情综合| 日韩综合小视频| 久久精品二区| 理论不卡电影大全神| 精品国产一二三区| 欧美成人aaa片一区国产精品| 美日韩一区二区| 日产精品一线二线三线芒果| 亚洲黄色免费av| 日韩精品在线免费观看视频| www.日本精品| 91在线丨porny丨国产| 成人网站免费观看入口| 成人av激情人伦小说| 久久久久久久国产| 高潮毛片7777777毛片| 一个色妞综合视频在线观看| 欧美性猛交xx| 黄色在线成人| 精品婷婷色一区二区三区蜜桃| 超免费在线视频| 精品国产免费人成电影在线观看四季| 久久久精品视频在线 | 90岁老太婆乱淫| 亚洲欧美激情诱惑| 日本成人三级| 欧美亚洲二区| 欧美xxxx做受欧美| www.成人免费视频| 亚洲成在线观看| 大黑人交xxx极品hd| 快she精品国产999| 污视频在线免费观看一区二区三区| 久久xxx视频| 久久综合伊人77777| 好吊色一区二区三区| 精品女厕一区二区三区| 波多野在线播放| 精品一区二区在线播放| www.国产二区| 小说区图片区色综合区| 国产精品日韩电影| 亚洲资源一区| 精品亚洲国产视频| 一级成人免费视频| 亚洲国产另类av| 国产呦小j女精品视频| 日本成人超碰在线观看| 路边理发店露脸熟妇泻火| 鲁大师精品99久久久| 国产精品黄色影片导航在线观看| www久久日com| 亚洲乱码一区二区| 国产乱淫片视频| 欧美日韩视频免费播放| 开心激情五月网| 成人av午夜电影| 天天操狠狠操夜夜操| 国自产拍偷拍福利精品免费一| 欧美另类一区| 婷婷视频一区二区三区| 日韩免费视频在线观看| 羞羞的视频在线观看| 亚洲欧美国产日韩中文字幕| 国产露脸91国语对白| 日韩欧美中文免费| 青青草手机在线视频| 国产亚洲精品7777| 黑人性生活视频| 日韩福利电影在线观看| 精品视频在线观看一区二区| 精品日本12videosex| 国产精品手机在线| 久久女人天堂| 欧美在线视频免费播放| 国产成人在线视频免费观看| 亚洲深夜福利网站| 人妻无码中文字幕免费视频蜜桃| 欧美日韩免费高清一区色橹橹| 亚洲激情视频一区| 亚洲欧美日韩国产一区二区三区 | 全球成人中文在线| 在线播放免费av| www.亚洲一区| freemovies性欧美| 亚洲视频网站在线观看| 欧美视频一二区| 欧美一级欧美一级在线播放| 中文精品久久久久人妻不卡| 欧美日韩亚洲精品内裤| 久久久久久天堂| 亚洲美女一区二区三区| 中文国语毛片高清视频| 中文字幕成人av| 亚洲理论片在线观看| va亚洲va日韩不卡在线观看| 不卡的一区二区| 国产麻豆一精品一av一免费| 手机av在线免费| 免费成人美女在线观看.| 免费观看成人在线视频| 欧美一级视频| 女性女同性aⅴ免费观女性恋| 红桃视频欧美| 国产精品视频一二三四区| 伊人久久大香线蕉综合四虎小说 | 欧美欧美欧美欧美| 国产男人搡女人免费视频| 一本色道久久综合亚洲aⅴ蜜桃| 青青草成人av| 欧美丝袜第一区| 久久久精品视频网站| 色综合色狠狠天天综合色| 国产区一区二区三| 一本大道av一区二区在线播放| 日本中文字幕在线| 色综合久久中文字幕综合网| 日韩 国产 欧美| 色综合久久天天综合网| 美女黄页在线观看| 欧美日韩卡一卡二| av中文字幕免费| 亚洲第一区中文99精品| 亚洲欧美综合一区二区| 亚洲天堂开心观看| 尤物网址在线观看| 九九久久久久久久久激情| 久久久123| 久久久婷婷一区二区三区不卡| 中文字幕系列一区| 国产精品一区二区三区成人| 中文字幕日本一区| 999视频在线观看| 粉嫩的18在线观看极品精品| 精品国产一区二区三区久久久久久| 亚洲区小说区| 亚洲国产日韩欧美| 欧美在线看片| www.爱色av.com| 日韩电影一区二区三区四区| 亚洲三级在线观看视频| 国产成人午夜视频| 久久人人爽人人爽人人片| 国产人妖乱国产精品人妖| 极品色av影院| 亚洲3atv精品一区二区三区| 亚洲不卡在线视频| 在线播放中文字幕一区| www.99视频| 国产一区二区三区久久精品| 麻豆tv在线| 91国产视频在线播放| 成人福利一区二区| 国产精品播放| av中文一区| 亚洲色成人www永久在线观看| 午夜在线播放视频欧美| 日本一二三区在线| 久久久.com| 久久久国产成人| 欧美综合一区二区| 性一交一乱一乱一视频| 亚洲欧美一区二区三区在线| 黄色在线视频网站| 日韩av电影免费观看高清| 欧美黄色一级| 日本午夜精品电影| 黄色亚洲大片免费在线观看| 三上悠亚在线一区二区| 99精品视频在线免费观看| 欧美a级片免费看| 色综合一个色综合| 丰满熟妇人妻中文字幕| 日韩在线中文字| 天堂av中文在线观看| 97人人模人人爽人人喊38tv| 精品国产乱码久久久| 欧美黑人经典片免费观看| 国产一区视频网站| 少妇视频在线播放| 欧美性高潮在线| 日本高清视频www| 欧美另类xxx| 成人综合日日夜夜| 相泽南亚洲一区二区在线播放 | 91免费观看视频在线| 欧美日韩免费做爰视频| 欧美电影一区二区| 91官网在线| 国产成人精品在线| 亚洲人成伊人成综合图片| 欧美久久在线观看| 国产盗摄视频一区二区三区| 天天操天天摸天天舔| 91福利精品第一导航| 外国精品视频在线观看| 另类视频在线观看| 青青伊人久久| 亚洲bbw性色大片| 日韩激情在线观看| 亚洲图片另类小说| 色婷婷综合久久久中文一区二区| 亚洲人在线观看视频| 97在线视频免费看| 动漫视频在线一区| 色综合咪咪久久| 色综合久久久久久| 久久久久在线观看| 77成人影视| 国产爆乳无码一区二区麻豆| 韩国av一区二区三区在线观看| 午夜激情福利电影| 欧美一区二区在线视频| av免费在线免费| 97av自拍| 亚洲无线一线二线三线区别av| 欧美午夜精品一区二区| 亚洲国产综合人成综合网站| 亚洲毛片欧洲毛片国产一品色| 欧美激情按摩在线| www国产精品| 日本国产在线播放| 91片黄在线观看| 亚洲国产av一区二区三区| 国产午夜精品全部视频播放| 九色成人搞黄网站| 中文字幕一区二区三区有限公司| 韩国av一区二区三区| 国产精品成人免费观看| 欧美精品一区二区三区蜜桃视频| 国产美女高潮在线| 视频一区三区| 国内精品第一页| 日韩黄色在线视频| 亚洲人精品午夜在线观看| 外国电影一区二区| 国产欧美综合一区| 成人在线综合网| 日韩在线视频不卡| 搡老女人一区二区三区视频tv| 电影一区二区三区久久免费观看| 国产性生活免费视频| www国产精品av| 91九色蝌蚪91por成人| 欧美极品第一页| 国产永久精品大片wwwapp| 亚洲成人天堂网| 亚洲一区二区三区四区五区黄| 日本v片在线免费观看| 成人黄色免费片| 亚洲人成久久| 欧日韩不卡视频| 亚洲精品一区二区在线观看| 日韩免费va| 日韩一级免费看| 国产网红主播福利一区二区| 国产成人久久精品77777综合| 欧美在线影院在线视频| 无需播放器亚洲| 国产肉体xxxx裸体784大胆| 欧美日韩性生活| 僵尸再翻生在线观看| 伊人情人网综合| 久久日韩粉嫩一区二区三区| 99国产精品久久久久久久成人| 欧美专区日韩视频| 伊人久久大香线蕉精品组织观看| 国产精品成人一区二区三区电影毛片| 91麻豆精品久久久久蜜臀 |