精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

蘋果讓大模型學會偷懶:更快吐出第一個token,準確度還保住了

人工智能 新聞
近日,蘋果和 Meta AI 的一個研究團隊提出了一種新方法,可在保證準確度不明顯下降的同時,將 Llama 2 預填充階段的推理速度提升到原來的 2 倍以上,這或許能為 Llama 3.1 的加速提供一些啟發。他們把這種方法稱為 LazyLLM,即懶惰大型語言模型。

Llama 3.1 剛剛發布,你是否已經嘗試了呢?就算你的個人計算機是最近的頂尖配置,運行其中最小的 8B 版本可能也依然會有明顯延遲。為了提升模型的推理效率,研究者想出了多種多樣的方法,但其中很多都會讓模型犧牲一些準確度。

近日,蘋果和 Meta AI 的一個研究團隊提出了一種新方法,可在保證準確度不明顯下降的同時,將 Llama 2 預填充階段的推理速度提升到原來的 2 倍以上,這或許能為 Llama 3.1 的加速提供一些啟發。他們把這種方法稱為 LazyLLM,即懶惰大型語言模型。

圖片

  • 論文標題:LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference
  • 論文地址:https://arxiv.org/abs/2407.14057

那么他們是怎么讓 LLM 偷懶的呢?要理解他們的方法,我們首先需要知道標準的基于 prompt 的 LLM 推理過程是怎樣的。簡單來說,該過程分為兩個階段:預填充和解碼,如圖 1 所示。

圖片

在預填充階段,模型計算和保存 prompt 中每個 token 的 KV 緩存,并預測首個 token。我們將預填充階段所耗費的時間稱為「首個 token 時間(TTFT)」。

預填充階段之后是解碼階段。在這個階段,模型再次使用緩存的 KV 來迭代式地解碼下一個 token,直到滿足停止標準。

在預填充階段,所有 Transformer 層都會使用 prompt 中的所有 token。當 prompt 較長時,TTFT 可能很慢,因為當前最佳的基于 Transformer 的 LLM 既深又寬,并且計算注意力的成本會隨 prompt 中 token 數量而呈二次增長。舉個例子,Llama 2(7B 版本)堆疊了 32 層 Transformer,模型維度為 4096。在這種情況下,TTFT 需要的 walltime 是每個后續解碼步驟的 21 倍,在 LongBench 基準上這些時間大約占用了總生成時間的 23%。

因此,要讓 LLM 推理高效進行,優化 TTFT 是非常關鍵的步驟。

盡管 LLM 推理優化方面是一個活躍的研究領域,但很多方法關注的重心都是提升解碼階段的推理速度。研究者很少關注 TTFT 的改進。一些基于壓縮的研究成果可通過減少 LLM 的大小隱式地提升 TTFT。

另一個研究方向是在靜態的 Transformer 架構下實現對 TTFT 的改進。對于這個研究方向,很自然會引出一個問題:在生成首個 token 時,所有 prompt token 都必不可少嗎?

圖 2 給出了在 LongBench 基準上的 LLM 分析結果。

圖片

可以看到,對于首個生成的 token,輸入 token 的注意力分數非常稀疏,這說明輸入 prompt 中的許多 token 是多余的,就算移除也不會影響到下一 token 預測。這一觀察正是該團隊提出 LazyLLM 的基礎。

LazyLLM 的優勢包括適用范圍廣、無需訓練、效果好。圖 3 對比了標準 LLM 與 LazyLLM。

圖片

LazyLLM

圖 4 展示了 LazyLLM 的整體框架。

圖片

從完整上下文開始,LazyLLM 會逐漸對 token 進行剪枝,從而逐漸減少得到最終模型所使用的計算數量。請注意,LazyLLM 允許模型在不同的生成步驟選取不同的 token 子集,即便它們中的一些可能在之前的步驟中被剪枝了。相比于靜態剪枝(一次性對所有 token 進行剪枝),動態剪枝會在每個生成步驟對下一 token 預測進行優化,這有助于維持模型的性能表現。

漸進式 token 剪枝

之前也有一些研究成功使用過 token 剪枝來優化 LLM 推理。但是,這些方法需要積累預測前幾個 token 的完整注意力圖,以便在剪枝開始之前分析 prompt token 的重要性。也因此,它們不適合用于降低 TTFT,因為它們在預填充階段仍需要計算所有 KV 緩存。

相較之下,LazyLLM 「很懶」,會從推理的第一輪迭代(預填充步驟)開始,只計算對預測下一 token 重要的 token。

在第一輪迭代中,一大關鍵難題是確定各個 token 的重要性。受之前已有研究(其中表明 token 隱藏狀態會在穿過 Transformer 層時發生演進)的啟發,該團隊的解決方案是在每個生成步驟使用逐層 token 剪枝。具體來說,他們是使用各層的注意力圖來確定輸入 token 對將要預測的 token 的重要性。

在計算了 token 的置信度分數之后,另一個難題是確定剪枝 token 的閾值。

具體來說,對于不同的層和不同的任務,該閾值可能會隨注意力分數的變化而改變。該團隊的解決思路是使用 top-k 百分位數選取策略。具體來說,如果一個 token 的置信度分數小于輸入 token 中的第 k 個百分位數,便將其剪枝掉。一旦 token 被剪枝去掉了,它就不再參與所有后續層的計算。

也就是說,后續層使用的 token 是之前層所使用 token 的子集。

后面的實驗表明,剪枝層的位置和剪枝的 token 數量不同時,也會導致性能發生變化。具體來說,對于同一 Transformer 層,隨著被剪枝去掉的 token 越來越多,模型的性能也會逐漸下降。

他們還發現,相比于早期層的剪枝,在后期層執行剪枝時會得到更好的性能,這說明后期層對 token 剪枝的敏感度更低。為了更好地平衡速度與準確度,該團隊使用了如圖 4 所示的漸進式剪枝法,從而在早期層保留更多 token,然后在 token 流向后期層的過程中逐漸減少 token 的數量。

Aux Cache(輔助緩存)

預填充階段沒有 KV 緩存,每個 token 都表示成隱藏狀態。因此,可通過移除已被剪枝 token 的隱藏狀態來實現漸進式 token 剪枝。但是,要將漸進式 token 剪枝擴展到后續的解碼步驟,卻并不簡單。原因是每個解碼步驟都會使用預填充階段計算的 KV 緩存來計算注意力。由于 LazyLLM 是在預填充階段執行漸進式 token 剪枝,因此在某一層被剪枝的 token 的 KV 不會出現在下一層的 KV 緩存中。

這里提醒一下,LazyLLM 框架允許在每一步讓每個生成步驟從完整的輸入 token 序列中挑選一個不同的 token 子集,無論它們是否已在之前的步驟中被剪枝。舉個例子,在接下來的解碼步驟中,那些在 KV 緩存中不存在的已被剪枝的 token 可能會被重新選取出來用于計算注意力。在這種情況下,模型無法檢索到這些 token 的 KV 緩存。

對此,一個基于直覺的解決方案是再讓這些 token 通過該 Transformer 的起點。但是,這會導致對同一 token 的重復計算,并最終減慢整體的生成速度。

為解決這個難題,該團隊在原有的 KV 緩存之外引入了另一種緩存:Aux Cache(輔助緩存)。

如果已被剪枝 token(如圖 4 中 T4 和 T7)的 KV 并未出現在后續層的 KV 緩存中,則會由 Aux Cache 保存它們的隱藏狀態以供后續迭代檢索。

如圖 4 所示,在每個解碼步驟,每個 Transformer 層首先會檢索過去 token 的 KV 緩存(如果存在的話)。對于那些不在 KV 緩存中的 token,則直接從其前一層的 Aux Cache 中檢索它們的隱藏狀態,而不必再次經過之前的層。Aux Cache 可確保每個 token 在每個 Transformer 層中最多被計算一次,還能確保 LazyLLM 最慢時也比標準 LLM 快。

實驗

該團隊在兩個大型語言模型上檢驗了這種「懶惰」新方法:Llama 2 7B 和 XGen 7B。作為對比的標準 LLM 是同樣的公開發布的預訓練檢查點模型,同時不進行任何附加訓練。

實驗基準是 LongBench,這是一個針對長內容理解的多任務基準。LongBench 基準包含 16 個數據集,涉及 6 個任務,包括單文檔問答、多文檔問答、總結、少樣本學習、合成任務和代碼補全。

評估指標是每種方法在 TTFT 加速與準確度權衡方面的效果和效率。

結果

表 1 給出了 LazyLLM、標準 LLM 和其它基線方法的 TTFT 加速和準確度結果。

圖片

在此表中,baseline 是指標準 LLM 推理。random token drop 是指對 token 執行隨機剪枝。static token pruning 是指在預填充階段基于前面幾個 Transformer 層的注意力方法來對輸入 token 執行一次性剪枝。Prompt Compression 就是 prompt 壓縮方法,也就是使用 LLM 去除輸入上下文中的冗余。

從表 1 可以看到,LazyLLM 在 TTFT 加速方面全面優勝,同時準確度方面的下降基本可以忽略不計。需要指出,使用 LLM 來壓縮 prompt 需要大量計算。因此,即使 Prompt Compression 能讓推理速度更快,但其實際的 TTFT 卻比標準 LLM 還長。

對總體生成速度的影響

為了評估新方法對總體生成速度的影響,該團隊分析了計算使用的 prompt token 百分比和生成加速情況,見表 2。

圖片

可以看到,LazyLLM 計算使用的 token 的占比總是低于 100%,這說明 LazyLLM 在生成結束時也沒有用完 prompt 中的所有 token,但理論上講該模型可以使用所有 token。這能為不同任務的整體生成過程提供額外的加速。

不同層的丟棄率

該團隊也分析了剪枝層的位置和被剪枝 token 的數量的影響。結果見圖 6。

圖片

可以看到,當在同一 Transformer 層進行剪枝時,留下的 token 越少,模型的性能越差。這也符合我們的直觀認知。此外,相比于在更前期 Transformer 層執行剪枝,在后期層進行剪枝會得到更好的性能,這說明后期層對 token 剪枝的敏感度更低。

基于這些觀察,可以說漸進式 token 剪枝的效果得到了證明。

漸進式 KV 增長

最后,該團隊也嘗試了理解使用 token 剪枝邏輯的模型的內部情況。具體來說,他們想要了解 prompt token 中的累積使用比例以及相應的不被使用的比例。這種「累積 token 使用量」可以等價地定義成每一步的 KV 緩存 大小。圖 7 給出了 LazyLLM 的每個階段這些累積的 prompt token 使用量。

圖片

該結果支持這一假設:許多 token 永遠不會被模型選擇(即便理論上講模型可以使用 prompt 中的所有 token。

考慮到模型依然能維持執行任務的準確度,因此可以得出結論:模型可以有效地丟棄不影響輸出質量的 token。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-01-14 13:51:18

2021-04-06 08:11:19

微信APP騰訊

2022-01-24 15:07:59

量子

2019-01-04 08:16:55

物聯網產品物聯網IOT

2025-05-26 08:40:00

2025-06-16 09:40:48

2015-02-06 09:54:29

蘋果Android

2023-02-13 09:32:37

模型訓練

2017-10-13 15:59:24

iPhone機器學習iOS

2023-10-14 17:24:49

2011-03-21 14:24:13

Debian 6

2011-03-03 21:04:08

bug程序員

2010-07-30 14:58:06

Flex應用

2013-01-14 09:44:58

JavaScriptJSJS框架

2012-02-08 11:15:38

HibernateJava

2021-04-07 13:38:27

Django項目視圖

2023-09-21 22:43:17

Django框架

2024-06-11 07:05:34

2015-09-11 11:08:49

ios9測試版
點贊
收藏

51CTO技術棧公眾號

亚洲欧美日韩精品在线| 日韩精品中文字幕一区| 日本不卡在线播放| 亚洲天堂777| 自拍日韩欧美| 亚洲国产又黄又爽女人高潮的| 黄色动漫在线免费看| 成人在线视频成人| 黄色小说综合网站| 97视频在线观看视频免费视频 | 欧美一级片免费观看| 中文在线最新版天堂| 午夜久久美女| 亚洲色图狂野欧美| wwwww在线观看| 英国三级经典在线观看| 一区精品在线播放| 狠狠色综合网站久久久久久久| 99成人精品视频| 亚洲欧美综合| 在线观看成人黄色| 性农村xxxxx小树林| 黄色精品视频| 亚洲国产精品视频| 一本色道婷婷久久欧美| 色欲av伊人久久大香线蕉影院| 青青青爽久久午夜综合久久午夜| 欧美极品在线播放| 正在播放国产对白害羞| 大香伊人久久精品一区二区| 欧美日韩成人一区二区| 播放灌醉水嫩大学生国内精品| 日本不卡不卡| 久久欧美一区二区| 国产精品视频在线免费观看 | 777xxx欧美| 国产淫片av片久久久久久| 欧美亚洲天堂| 亚洲品质自拍视频网站| 天堂社区 天堂综合网 天堂资源最新版| 亚洲av无码乱码在线观看性色| 蜜桃视频在线观看一区| 日本国产欧美一区二区三区| 激情综合网五月天| 一区二区三区网站 | 亚洲bt欧美bt日本bt| 国内av在线播放| 久久电影一区| 97久久久免费福利网址| 久久这里只有精品国产| 亚洲午夜精品一区 二区 三区| 一区二区三区四区精品| 国产麻豆天美果冻无码视频| 国产精品香蕉| 亚洲成人久久久| 亚洲美女精品视频| 亚洲精品在线a| 日韩一区二区中文字幕| 日韩av加勒比| 日韩中文字幕视频网| 91精品在线免费观看| 久久婷婷综合色| 成人交换视频| 欧美日韩久久不卡| 污污的视频免费| 四虎永久精品在线| 欧美精品日韩综合在线| 在线免费黄色网| 国产精品美女久久久久人| 欧美久久高跟鞋激| 黄色a级三级三级三级| 国产精品美女久久久久| 欧美成人三级电影在线| 无码国产精品一区二区免费式直播| 日韩精品一区二区三区免费视频| 日韩一区二区免费在线观看| 69xxx免费视频| 啪啪国产精品| 伊人成人开心激情综合网| a级黄色免费视频| 久久久久国产精品| 国产做受高潮69| 麻豆成人免费视频| 久久精品国产亚洲高清剧情介绍 | 日韩在线视频一区二区三区| 精品国产一区二区精华| 亚洲一区二区三区四区五区六区| 免费一区二区| 精品国偷自产在线视频99| 欧美黑人一级片| 一区二区三区国产在线| 国产精品劲爆视频| av免费在线观看不卡| 97se亚洲国产综合自在线观| 日韩精品伦理第一区| 黄色网在线看| 五月天亚洲婷婷| 九热视频在线观看| 亚洲午夜免费| 亚洲午夜久久久影院| 日韩在线中文字幕视频| 99pao成人国产永久免费视频| 国产成人精品电影久久久| 国产丝袜在线视频| 91小视频免费观看| 日本一区二区免费高清视频| av免费不卡国产观看| 欧美日韩午夜在线| 99久久免费看精品国产一区| 色婷婷一区二区三区| 久久久久久久久久久人体| 国产精品欧美综合| aaa亚洲精品| 久久久一二三四| 亚洲成人不卡| 欧美精品一区二区三区在线| wwwww黄色| 国产一区二区高清| 亚洲xxxx在线| 日本免费在线观看| 日韩欧美a级成人黄色| 国产男女无遮挡猛进猛出| 国产精品三级| 97精品视频在线观看| 国产成人久久精品77777综合 | 婷婷社区五月天| 日韩中文字幕不卡| 国产原创精品| 日本欧美电影在线观看| 欧美三级视频在线| 国产全是老熟女太爽了| 国产一区二区三区四区老人| 国产欧美精品一区二区三区介绍| 欧美日韩在线精品一区二区三区激情综| 亚洲激情第一区| 99久久99精品| 手机亚洲手机国产手机日韩| 国产成一区二区| 九色视频在线播放| 欧美日韩亚洲精品一区二区三区| 欧美69精品久久久久久不卡| 91精品国产91久久久久久密臀| 国产精品ⅴa在线观看h| 日韩精品在线一区二区| 久久免费看少妇高潮v片特黄 | 国产精品x453.com| 国产精品久久色| 国产网站在线播放| 色综合视频在线观看| 亚洲欧美色图视频| 久久久久久久波多野高潮日日| 国内精品视频免费| 乱馆动漫1~6集在线观看| 亚洲国产成人久久| 日韩免费视频网站| 99久久久国产精品| 哪个网站能看毛片| 欧美激情在线免费| 国产精品高潮呻吟久久av黑人| 久久久pmvav| 色天天综合色天天久久| 免费在线观看污| 日韩电影免费在线| 在线视频欧美一区| 国产精品麻豆| 九九热精品在线| 国产成人手机在线| 精品动漫一区二区| 人妻大战黑人白浆狂泄| 日韩精品一卡二卡三卡四卡无卡| 日韩久久久久久久| 日韩成人在线一区| 欧美精品日韩三级| 天天操天天爱天天干| 欧美日韩在线看| 日韩视频在线观看免费视频| 一级片中文字幕| 欧美电影免费观看| 精品视频一区在线视频| 一区二区三区在线观看av| 久久久天堂av| 亚洲精品在线视频播放| 狠狠久久婷婷| 日本精品视频一区| 国内不卡的一区二区三区中文字幕 | 成人av资源网站| 免费在线观看日韩视频| 日韩精品永久网址| 99热国产免费| 久久uomeier| 久久久www成人免费精品| 国产综合在线播放| 日本乱码高清不卡字幕| 日日噜噜夜夜狠狠久久波多野| 成人精品免费看| 午夜免费精品视频| 国产精品大片| 天堂精品一区二区三区| 一区二区三区欧洲区| 日本韩国欧美精品大片卡二| 国产美女在线观看| 日韩精品在线私人| 国产人妻精品一区二区三| 精品欧美国产一区二区三区| 2014亚洲天堂| 久久综合999| 国产伦精品一区二区三区妓女下载 | 欧美交换国产一区内射| 国产日韩欧美不卡在线| 女同性αv亚洲女同志| 日韩高清中文字幕一区| 欧美一区二区视频在线播放| 久久国产电影| 激情小说综合网| 只有精品亚洲| 国产成人一区二| 丁香花视频在线观看| 中文字幕亚洲欧美日韩2019| 天天干免费视频| 欧美一区二区三区啪啪| 免费观看日批视频| 精品久久久香蕉免费精品视频| 欧美日韩色视频| 国产偷国产偷精品高清尤物| 中文字幕人妻一区二区三区| 国产制服丝袜一区| 15—17女人毛片| 久久午夜av| 女人天堂av手机在线| 一区二区三区午夜视频| 性刺激综合网| 伊人成综合网yiren22| 国产色综合一区二区三区| 亚洲高清在线一区| 成人两性免费视频| 国产亚洲精彩久久| 国产成人精品999| 韩国久久久久久| 91高清免费在线观看| 成人av影院在线观看| 欧美大片免费观看| 成人在线app| 久久国产精品亚洲| 国产激情视频在线观看| 久久国产一区二区三区| 自拍视频在线免费观看| 色综合伊人色综合网站| a黄色在线观看| 一区二区三区日韩在线| 国产高清在线观看| 在线成人免费网站| 日本中文字幕在线播放| 神马国产精品影院av| 91caoporn在线| 久久久精品免费| 久草免费在线观看| 欧美成人精品三级在线观看| 黄色大片在线播放| 九九热最新视频//这里只有精品| 手机在线免费观看av| 久久久久久一区二区三区 | 国产成人精品国内自产拍免费看| 久久久人成影片一区二区三区在哪下载| 人人做人人澡人人爽欧美| 电影一区二区三区| 国产精品久久久一区| 4438五月综合| 国产66精品久久久久999小说| 久久香蕉网站| 欧美三日本三级少妇三99| 精品国产视频| 亚洲第一综合网站| 1024日韩| 国产偷人视频免费| 精品制服美女丁香| 国产av一区二区三区传媒| 91原创在线视频| 亚洲女同二女同志奶水| 亚洲欧美日韩成人高清在线一区| 国产真人真事毛片| 日本大香伊一区二区三区| 97国产精品久久久| 亚洲激情视频在线播放| 91在线不卡| 97国产在线视频| 国产欧美在线观看免费| 国产美女精品久久久| 亚洲制服欧美另类| 中文字幕久久综合| 亚洲美女黄网| 高潮一区二区三区| 99精品国产91久久久久久 | 异国色恋浪漫潭| 一级做a爱片性色毛片| 精品成人av一区| 日韩手机在线观看| 欧美网站一区二区| 中文字幕在线视频免费| 在线不卡免费av| 日本精品久久久久久| 精品一区二区三区三区| av在线电影院| 久久久久久久久久久久av| 国产在线精彩视频| 国产精品99久久久久久人| 午夜视频一区二区在线观看| 美乳视频一区二区| 97视频热人人精品免费| 久久精品免费一区二区| 欧美aaaaa成人免费观看视频| 人妻体体内射精一区二区| 91蝌蚪porny| 九九九久久久久久久| 国产网站一区二区三区| 国产一级久久久| 在线观看免费一区| 婷婷综合激情网| 综合国产在线视频| 亚洲欧洲自拍| 91久久大香伊蕉在人线| 日韩福利视频一区| 中文精品视频一区二区在线观看| 一区视频在线看| 国产三级三级三级看三级| 国产福利一区在线| jizz中文字幕| 色综合天天做天天爱| 亚洲av无码乱码国产精品久久| 日韩成人免费视频| 男女在线观看视频| 成人中心免费视频| 日韩欧美网站| 欧美女人性生活视频| 国产成人av电影在线播放| 一级片一级片一级片| 色综合天天综合色综合av| 国产草草影院ccyycom| 在线播放日韩精品| 在线看片福利| 久久精品国产一区二区三区日韩 | 免费av中文字幕| 精品国产91乱码一区二区三区| 中文字幕在线免费| 国产成人鲁鲁免费视频a| 亚州国产精品| 99在线免费视频观看| 国产+成+人+亚洲欧洲自线| 免费黄色一级网站| 久久久电影一区二区三区| 久久久久久久久久久影院| 日韩视频一区二区三区 | 韩国毛片一区二区三区| 福利视频第一页| 91国模大尺度私拍在线视频| 蜜芽tv福利在线视频| 777午夜精品福利在线观看| 亚洲国产高清在线观看| 欧美日韩dvd| 国产成人精品一区二区三区四区 | 成人在线免费观看91| 看欧美ab黄色大片视频免费| 久久综合成人精品亚洲另类欧美| 日韩免费视频网站| 亚洲欧美在线x视频| 乡村艳史在线观看| 日韩欧美99| 美国十次了思思久久精品导航| 波多野结衣一二三四区| 欧美日本免费一区二区三区| 无遮挡的视频在线观看| 91香蕉电影院| 欧美fxxxxxx另类| 色诱av手机版| 欧美性猛xxx| 电影在线高清| 97视频资源在线观看| 亚洲一本视频| 亚欧洲乱码视频| 欧美视频自拍偷拍| 蜜桃视频在线观看www社区 | 欧美不卡一区二区三区| 国产一二区在线| 国产精品区免费视频| 国产午夜精品一区二区三区欧美| 一级黄色片网址| 555www色欧美视频| 中文字幕有码在线观看| 国产一区二区免费在线观看| 一区二区日韩免费看| 少妇高潮惨叫久久久久| 欧美一区二区三区免费在线看 | 综合亚洲自拍| www.com污| 一区二区成人在线观看| 神马午夜精品95| 国产精品成人v| 午夜国产一区| 日本少妇高潮喷水xxxxxxx| 91精品欧美一区二区三区综合在| 人在线成免费视频|