精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LLM推理提速2.8倍,CMU清華姚班校友提出「投機式推理」引擎SpecInfer,小模型撬動大模型高效推理

人工智能 新聞
近日,來自卡耐基梅隆大學(CMU)的 Catalyst Group 團隊發布了一款「投機式推理」引擎 SpecInfer,可以借助輕量化的小模型來幫助大模型,在完全不影響生成內容準確度的情況下,實現兩到三倍的推理加速。

隨著 ChatGPT 的出現,大規模語言模型(LLM)研究及其應用得到學術界和工業界的廣泛關注。一方面,開源的 LLM 模型不斷涌現,比如 OPT、BLOOM、LLaMA 等,這些預訓練模型的推出極大地促進了 LLM 的相關研究,使得 LLM 可以被應用于解決愈發復雜的實際問題。利用這些開源模型,快速構建一套基于 LLM 的應用服務已經變得愈發容易,但 LLM 面臨著高昂的計算和存儲需求,其成本也令人望而卻步。

另一方面,以羊駝家族(如 Alpaca、Vicuna、Guanaco)為代表的,經過微調或蒸餾的小型化 LLM 也成為了當下的研究焦點之一,在多項測評中都展現出了優異的表現;此外,以 Quantization、LoRA、Offloading 為代表的多項系統優化技術使得以更低的資源需求部署這些 LLM 成為可能。但天下沒有免費的午餐,有關證據表明 [1],這些小型化的 LLM 以及面向低資源場景的系統優化技術往往都會帶來模型質量的下降,影響最終應用的效果。

因此,如何在保證模型輸出質量的前提下,讓 LLM 推理變得高效和廉價,已經成為了 MLSys 領域非常重要的研究問題。近日,來自卡耐基梅隆大學(CMU)的 Catalyst Group 團隊發布了一款「投機式推理」引擎 SpecInfer,可以借助輕量化的小模型來幫助大模型,在完全不影響生成內容準確度的情況下,實現兩到三倍的推理加速。

  • 論文鏈接:https://arxiv.org/abs/2305.09781
  • 項目地址:https://github.com/flexflow/FlexFlow/tree/inference

論文作者之一、CMU 助理教授 Zhihao Jia 表示:「生成式大規模語言模型不僅推理效率低下而且部署成本很高;它們小型化的版本具有速度和價格上的優勢,但是也會影響生成內容的質量;而 SpecInfer 可以實現這兩方面的雙贏。」

圖片

同樣來自 CMU Catalyst Group 的助理教授 Tianqi Chen 也表示:「SpecInfer 可以適用于云上的 LLM 部署等場景,讓 LLM 推理更加可擴展。」

圖片

研究現狀

目前 LLM 推理主要依賴于自回歸式(auto-regressive)的解碼(decoding)方式,每步解碼只能夠產生一個輸出 token,并且需要將歷史輸出內容拼接后重新作為 LLM 的輸入,才能進行下一步的解碼。考慮到這種數據依賴,現有 LLM 推理系統如 FasterTransformer 會采用一種增量式解碼(incremental decoding)技術,將已經解碼的 token 對應的 key/value 進行緩存,避免重新計算。但是,這類系統仍然面臨兩個關鍵的缺陷:1)由于逐 token 計算的解碼范式,算子并行度有限,GPU 硬件資源難以被充分利用;2)當序列過長時,KV-cache 空間消耗過大,有限的 GPU 顯存無法承載。因此,當面對超大規模的 LLM 推理時(如 GPT-4 32K tokens),現有系統往往面臨資源利用低效,推理延遲過高的問題。

圖片

Incremental Decoding 示意圖

為了解決上述問題,研究者提出了一種「投機式」推理引擎 SpecInfer,其核心思想是通過計算代價遠低于 LLM 的 “小模型” SSM(Small Speculative Model)替代 LLM 進行投機式地推理(Speculative Inference),每次會試探性地推理多步,將多個 SSM 的推理結果匯聚成一個 Speculated Token Tree,交由 LLM 進行驗證,通過高效的樹形解碼算子實現并行化推理,驗證通過的路徑將會作為模型的推理結果序列,進行輸出。

總體上來說,SpecInfer 利用了 SSM 的內在知識幫助 LLM 以更低廉的計算成本完成了主要的推理過程,而 LLM 則在一定程度上破除了逐 token 解碼的計算依賴,通過并行計算確保最終輸出的結果完全符合原始的推理語義。

圖片

SpecInfer 工作流程

系統設計

圖片

SpecInfer 系統架構

可學習推測器(Learning-based Speculator)

Speculator 的主要作用是利用 SSM 快速產生對 LLM 未來輸出的推測結果,SSM 可以是(微調后)小版本的 LLM(如 LLaMA 7B),也可以是量化或蒸餾的小規模 LLM,還可以是可供檢索的知識庫(如參考文本)亦或是用戶的自定義函數。總之,SSM 的輸出結果越接近 LLM,驗證時才會更容易通過,整體的推理效率才會更高。

為此,SpecInfer 引入集成學習的思想,將多個 SSM 的結果融合,提高輸出的差異化程度。為了盡可能提高匹配率,Speculator 提出了 Collective Boost-Tuning 方法,即在一個公開的通用數據集(如 OpenWebText)上,從一個較弱的 SSM 開始進行微調,將匹配程度較低的序列不斷從數據中過濾,交由新的 SSM 來學習,持續多次,提高整體的推測質量;此外,Speculator 還引入了一個可學習的調度器(scheduler)來決定選用哪些 SSM 以獲得更長的匹配序列長度。

Token 樹驗證器(Token Tree Verifier)

SSM 的推理速度優勢是 SpecInfer 能夠加速推理的前提,但另一個不可或缺的因素就是 LLM 對并行化推理的支持。在 SpecInfer 中,LLM 并不直接作為推理引擎產生輸出 token,但是它需要對 Speculator 中 SSM 產生的 token 進行驗證,確保輸出內容符合 LLM 的推理語義。

在 SpecInfer 中,SSM 產生的輸出序列會被組織成 token tree 的樹形結構,避免冗余的存儲開銷。為了能夠在 token tree 上進行并行化的驗證,SpecInfer 提出了一種樹形注意力(Tree Attention)計算方法,通過構造的 mask 矩陣和基于深度優先的 KV-cache 更新機制,Verifier 可以在不增加額外存儲的同時,盡可能并行化樹中每一條路徑的解碼過程。相比于樸素的逐序列或逐 Token 的解碼方式,樹形解碼可以同時在內存開銷和計算效率上達到最優。

圖片

Tree-based Decoding 示意圖

大規模 LLM 和小規模 SSM 協同工作

圖片

Speculative Inference 執行 Timeline 對比

大規模的 LLM 在參數量上通常可以達到小規模 SSM 的幾十倍甚至上百倍,而 SSM 相比于 LLM,在推理速度上,基于通常的系統實現,也有數倍到數十倍的性能優勢,SpecInfer 結合了 SSM 極低的推理延遲以及 LLM 的并行驗證能力,大幅降低了較為耗時的 LLM 推理次數,最終可以在保證推理結果質量的情況下顯著提升模型推理速度。

系統實現

SpecInfer 基于 FlexFlow 系統實現,支持用戶自定義模型結構,導入模型參數,兼容主流深度學習框架的 operator 或 layer 抽象,現已支持常規的 GPT、LLaMA 等多種主流基礎模型。值得注意的是,FlexFlow 是一款面向分布式場景的深度學習系統,由來自 CMU、Stanford、MIT、NVIDIA 等機構的研究人員共同維護,是機器學習系統領域最早提出 “自動并行” 的工作之一 (MLSys’19, ICML’18) [2,3],也是最早將計算圖優化以及自動并行優化集成進行聯合優化的工作 (Unity, OSDI’22) [4]。

借助于 FlexFlow 的自動并行能力,SpecInfer 可以自動完成大規模 LLM 的最優分布式部署。與此同時,SpecInfer 還可以支持 Offloading 操作,以較低的成本擴展模型的規模。SpecInfer 通過獨特的「投機式推理」機制,可以大幅降低 LLM 所需的推理步數,從而減小分布式場景的網絡通信開銷,緩解 Offloading 場景下的 PCIe 傳輸帶寬瓶頸。

實驗結果

圖片

端到端推理延遲

端到端實驗:使用 LLaMA-7B 作為 LLM,LLaMA-160M 作為 SSM,在五個對話數據集上進行了測試,相比于依賴于增量式解碼的 LLM,SpecInfer 可以使推理延遲降低 1.9-2.8 倍。

圖片

單次推理平均步長(LLM:OPT-13B + SSMs:OPT-125M)

圖片

單次推理平均步長(LLM:LLaMA-7B + SSMs:LLaMA-160M)

匹配長度測試:分別使用 OPT 和 LLaMA 系列模型,測試 SpecInfer 中 LLM 的平均驗證通過序列長度,可以看出,隨著 SSM 數量的提升,在各個對話數據集上,LLM 的驗證通過長度均會得到提升,以 5 個 SSM 為例,OPT 和 LLaMA 在 5 個數據集上平均可達 3.68 和 2.67,相比于僅使用單一 SSM,分別提升 26.4% 和 24.8%。

更多更詳細的實驗結果可以參考論文原文:https://arxiv.org/abs/2305.09781

總結

SpecInfer 是首個基于「推測式解碼」的分布式 LLM 推理引擎,通過集成多個小模型,以及基于 token tree 的原創系統實現優化,可以幫助現有的主流 LLM 減少內存訪問需求,實現兩到三倍的無損推理加速,大幅降低推理成本。

作者介紹


圖片

SpecInfer 項目的指導老師是 Zhihao Jia,他目前在卡耐基梅隆大學計算機學院擔任助理教授。他的研究興趣主要包括面向機器學習、量子計算以及大規模數據分析的系統研究。此前他曾畢業于清華大學的姚班,博士畢業于 Stanford 大學,師從 Alex Aiken 和 Matei Zaharia,曾獲 Stanford Arthur Samuel Best Doctoral Thesis Award,NSF CAREER Asward 以及來自 Amazon, Google, Meta, Oracle, 以及 Qualcomm 的多項研究獎項,個人主頁:https://www.cs.cmu.edu/~zhihaoj2/。

孵化 SpecInfer 項目的主要是 CMU 的 Catalyst Group 實驗室,該實驗室由 Zhihao Jia 與 Tianqi Chen(陳天奇)在 CMU 共同主持,致力于集成來自于機器學習算法、系統、硬件等多方面的優化技術,構造自動化的機器學習系統。此前,該實驗室還推出了 MLC-LLM [5] 等開源項目,推進 LLM 大模型相關系統的研究和應用。實驗室主頁:https://catalyst.cs.cmu.edu。

圖片

論文的共同一作分別是 Xupeng Miao(博士后研究員),Gabriele Oliaro(博一)以及 Zhihao Zhang(博一),均來自于 CMU Catalyst Group 團隊。其中,Xupeng Miao 博士畢業于北京大學,主要研究方向包括機器學習系統、數據管理和分布式計算,曾獲 VLDB2022 最佳可擴展數據科學論文獎、2022 年 ACM 中國優博獎、2022 年世界人工智能大會(WAIC)云帆獎等榮譽,個人主頁:https://hsword.github.io。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-12-11 15:40:32

PyTorch代碼大模型

2023-05-22 15:17:02

谷歌AI

2024-01-15 08:17:00

模型技術

2024-02-01 08:34:30

大模型推理框架NVIDIA

2024-09-09 08:31:15

2025-04-24 10:26:40

2025-11-03 08:15:00

2025-05-08 09:10:30

2023-06-20 13:44:49

清華推理

2025-10-17 17:50:01

大模型推理AI

2024-07-19 09:59:31

2025-07-08 03:11:00

2023-01-05 09:33:37

視覺模型訓練

2025-04-07 09:23:00

大模型LLM推理

2024-07-08 12:18:13

2024-10-21 12:30:52

2025-04-08 09:16:00

推理模型AI

2024-10-12 10:57:39

2024-06-12 11:48:55

2025-06-11 14:39:50

AILLMMistral
點贊
收藏

51CTO技術棧公眾號

国产亚洲精品成人| 日韩欧美视频免费在线观看| 天堂中文在线网| 青青草国产成人a∨下载安卓| 欧美日韩aaa| 日韩极品视频在线观看| 黄色片在线看| 国产不卡在线视频| 国产精品av电影| 久久黄色小视频| 成人激情诱惑| 亚洲第一页自拍| 亚洲精品综合在线观看| 乡村艳史在线观看| 亚洲美女视频在线观看| 日本一区二区视频| 美女久久精品| 香蕉久久一区二区不卡无毒影院| 日本精品一区二区三区视频 | 亚洲二区视频在线| 日本一区视频在线播放| 欧美一级特黄aaaaaa大片在线观看| 免费试看一区| 久久免费在线观看视频| jlzzjlzz亚洲女人| 亚洲国语精品自产拍在线观看| 国产91精品久久久久久久| 少妇人妻好深好紧精品无码| 视频一区国产| 欧美欧美欧美欧美首页| 999精品网站| 国产亚洲欧美日韩在线观看一区二区 | 免费日韩中文字幕| 色呦呦在线资源| 亚洲欧美自拍偷拍| 视频一区不卡| 男女污污视频在线观看| 成人国产电影网| 7777精品伊久久久大香线蕉语言| 依依成人在线视频| 日本不卡一区二区| 日本91av在线播放| 日韩免费视频一区二区视频在线观看| 欧美日韩一卡| 久久电影一区二区| 91精品国产高清一区二区三蜜臀| 欧美激情成人| 精品国偷自产在线| 免费精品在线视频| 欧美成人激情| 色偷偷av一区二区三区| 特级西西人体高清大胆| 久久中文字幕av| 色阁综合伊人av| 国精品人伦一区二区三区蜜桃| 日本大胆欧美| 亚洲免费成人av电影| 人妻体内射精一区二区| 亚洲福利网站| 中文字幕国产日韩| 久久夜色精品国产亚洲aⅴ| www国产视频| 奇米777国产一区国产二区| 亚洲成人xxx| 亚洲天堂资源在线| 极品美女一区二区三区| 一色桃子一区二区| 国精产品一区一区| 亚洲国产日韩欧美在线| 欧美激情第6页| 国产一区二区99| 免费在线看成人av| 91在线观看免费观看| 亚洲第一色网站| 99久久国产综合精品色伊| 欧美日韩日本网| 日本中文字幕在线看| 亚洲精品国产一区二区精华液 | 日韩免费高清av| 美女搡bbb又爽又猛又黄www| 欧美日韩另类图片| 中文字幕精品一区久久久久| 97在线观看免费高| 亚洲精选国产| 国产欧美中文字幕| 欧美视频久久久| 国产日韩欧美不卡| 麻豆视频传媒入口| 日韩电影免费观看高清完整版| 精品视频色一区| 中文字幕在线视频播放| 欧美精品一区二区三区精品| 久久电影一区二区| 欧美在线观看不卡| 国产一区二区三区在线观看免费| 国产一区在线观| 日本视频在线观看| 欧美色xxxx| www.桃色.com| 黑人操亚洲人| 91av国产在线| 国产成人精品免费看视频| 91尤物视频在线观看| 色中文字幕在线观看| 黄色在线免费观看网站| 911精品国产一区二区在线| 熟妇高潮精品一区二区三区| 久久久久国产| 国产精品大陆在线观看| 人妻丰满熟妇av无码区hd| 国产精品毛片无遮挡高清| 国产精品网站免费| 999精品嫩草久久久久久99| 亚洲欧美另类人妖| 国产性猛交普通话对白| 麻豆91在线播放免费| 欧美成人免费在线| 国产www视频在线观看| 欧美日本乱大交xxxxx| 青青草福利视频| 亚洲精品护士| 5566中文字幕一区二区| 免费高清完整在线观看| 日本高清不卡aⅴ免费网站| 男男一级淫片免费播放| 欧美精品国产一区| 成人免费自拍视频| 最新真实国产在线视频| 在线亚洲一区二区| 亚洲综合色一区| 美女视频一区免费观看| 精品视频一区二区| xxx在线免费观看| 精品国产一区二区三区久久久蜜月 | 成人免费在线观看入口| 成人免费毛片播放| 亚洲动漫精品| 日本一区二区不卡| 可以在线观看的黄色| 精品久久久久久久久久国产 | 亚洲视频免费在线观看| 欧美日韩精品区别| 99视频精品全国免费| 国产欧美欧洲在线观看| yjizz视频网站在线播放| 欧美最新大片在线看| 中文字幕av久久爽一区| 蜜臂av日日欢夜夜爽一区| 亚洲精品成人自拍| 91精品在线免费视频| 久久精品久久久久久国产 免费| 在线观看日批视频| 亚洲视频综合在线| 欧美一区午夜精品| 欧美久久在线观看| 国产精品黄网站| 欧美精品www| 婷婷色在线视频| 一本色道久久综合亚洲aⅴ蜜桃| 女同毛片一区二区三区| 欧美亚洲三级| 日本中文不卡| 韩国精品视频在线观看| 久久久久www| 丰满人妻一区二区| 狠狠躁夜夜躁人人爽超碰91| 国产精品揄拍100视频| 日韩精品午夜视频| 欧美日韩在线免费观看视频| 日韩精品视频在线看| 欧美精品福利视频| 国产在线观看免费网站| 欧美久久久久中文字幕| 欧美激情国产精品免费| 波多野结衣精品在线| 青青在线免费观看视频| 亚洲国产老妈| 久久香蕉综合色| 91麻豆精品国产综合久久久 | 成人午夜又粗又硬又大| 妞干网在线免费视频| 99久精品视频在线观看视频| 国产精品污www一区二区三区| 成人私拍视频| 久久久精品影院| 日本天堂在线| 8x福利精品第一导航| 久久久久久久久久影院| 中文字幕日韩精品一区| 亚洲 欧美 日韩在线| 天堂久久一区二区三区| 日本在线视频www色| 女同久久另类99精品国产| 国产精品欧美久久久| 国产白丝在线观看| 日韩在线视频线视频免费网站| 粉嫩av一区二区夜夜嗨| 欧美三级电影精品| 日本熟妇毛茸茸丰满| 国产精品成人一区二区艾草| 成人区人妻精品一区二| 九九**精品视频免费播放| 91国视频在线| 欧美成人高清| 亚洲精品在线视频观看| 国内自拍欧美| 亚洲精品日韩av| 久久xxx视频| 欧美亚洲在线视频| 人人澡人人添人人爽一区二区| 一本色道久久综合亚洲精品小说 | 日本国产高清不卡| 任你弄在线视频免费观看| 色噜噜狠狠狠综合曰曰曰| 无码精品一区二区三区在线| 91麻豆精品国产综合久久久久久 | 欧美一区二区成人6969| 波多野结衣一区二区三区四区| 亚洲综合视频在线观看| 午夜激情福利电影| 国产欧美精品在线观看| 亚洲欧美日本一区| 成人免费观看视频| 三上悠亚 电影| 国产真实乱对白精彩久久| 亚洲激情在线观看视频| 久久福利一区| 男人的天堂99| 另类激情亚洲| 毛片一区二区三区四区| 国产欧美另类| 熟女少妇在线视频播放| 黄色欧美日韩| 激情六月天婷婷| 欧美福利电影在线观看| 中文字幕久久综合| 色天天综合网| 日本成人性视频| 真实国产乱子伦精品一区二区三区| 亚洲国产欧洲综合997久久| 国产剧情一区| 神马一区二区影院| 欧美一级本道电影免费专区| 欧美日韩精品一区| 国产探花在线精品| 亚洲v日韩v欧美v综合| 欧美精品尤物在线观看| 水蜜桃亚洲精品| 外国成人免费视频| 欧洲金发美女大战黑人| 欧美在线网址| 国产二区视频在线| 中文精品视频| 日日碰狠狠丁香久燥| 男女视频一区二区| 激情在线观看视频| 国产不卡一区视频| 国产精品一区二区入口九绯色| 久久久久久免费| 91n在线视频| 一区二区三区欧美日| 欧美日韩中文视频| 日韩欧美999| 在线视频 中文字幕| 欧美一区二区视频在线观看2020 | 91极品女神在线| 精品国产免费人成网站| 国产精品久久中文| 老司机亚洲精品一区二区| 国产伦精品一区二区三区免 | 中文字幕av一区二区| 老司机福利在线视频| 欧美极品少妇xxxxⅹ喷水 | 成人精品视频在线| 丁香一区二区| 欧美在线激情| 欧美精品99| 亚洲乱码国产一区三区| 激情成人综合网| 国产三级国产精品| 自拍偷拍亚洲激情| 国产无遮挡呻吟娇喘视频| 欧美日韩一区 二区 三区 久久精品 | 丰满诱人av在线播放| 日本在线精品视频| 欧美大片91| 日本一区二区三区免费看| 亚洲女同中文字幕| 韩国日本在线视频| 国产精品性做久久久久久| caopeng视频| 一区二区三区中文字幕电影| 日韩熟女一区二区| 日韩精品一区二区三区三区免费| 黄色av免费在线看| 久久久亚洲国产| 亚洲伦理网站| 免费观看国产成人| 欧美日韩视频| 天天影视色综合| 国产午夜精品一区二区三区视频| 欧美日韩在线观看成人| 欧美性一二三区| 丝袜视频国产在线播放| 欧美疯狂xxxx大交乱88av| 最新日韩一区| 欧美日韩精品免费在线观看视频| 欧美全黄视频| 在线观看免费不卡av| 久久精品亚洲精品国产欧美kt∨| 久久精品这里只有精品| 欧美日高清视频| 国产高清一区在线观看| 97人人模人人爽人人喊中文字| 图片一区二区| 视频在线99re| 人人爽香蕉精品| 国产一二三四五区| 日韩欧美视频一区二区三区| 亚洲成人中文字幕在线| 欧美成人精品激情在线观看| 黄页免费欧美| 先锋影音日韩| 日韩av中文字幕一区二区| 91av在线免费| 欧美日韩激情网| 色呦呦视频在线| 色综合男人天堂| 蜜桃在线一区| 热久久最新网址| 国产精品一区二区三区四区| 日本少妇aaa| 欧美久久久影院| 成人区精品一区二区不卡| 国产在线日韩在线| 91亚洲国产成人久久精品| 成人免费在线观看视频网站| 久久伊人中文字幕| 日韩电影在线观看一区二区| 亚洲人成电影在线播放| 不卡福利视频| 日韩一本精品| 奇米色777欧美一区二区| 中文字幕欧美激情极品| 欧美丝袜自拍制服另类| a黄色在线观看| 成人乱人伦精品视频在线观看| 999精品一区| 三大队在线观看| 亚洲国产成人一区二区| 免费91麻豆精品国产自产在线观看| 小说区图片区亚洲| 日韩不卡视频一区二区| 国产91对白在线观看九色| 久久久久久久久久91| 亚洲国产欧美一区二区三区同亚洲 | 天堂中文在线观看视频| 2019亚洲男人天堂| 国产一区二区三区不卡视频网站 | 9l国产精品久久久久麻豆| 中国一级特黄毛片| 永久免费精品影视网站| 国产va免费精品观看精品| 日本人妻伦在线中文字幕| av在线综合网| 中文字幕 欧美激情| 不卡伊人av在线播放| 欧美1区2区3区4区| japanese23hdxxxx日韩 | 成人性生交大片免费看无遮挡aⅴ| 欧美视频在线观看免费网址| 伦理片一区二区三区| 国产精品天天狠天天看| 亚洲国产一成人久久精品| 国产麻豆剧传媒精品国产av| 欧美日韩亚洲精品内裤| 在线免费观看的av网站| 波多野结衣精品久久| 久久国产免费| 男人的天堂久久久| 亚洲欧美成人网| 日韩中文在线| 黄色免费网址大全| 夜夜嗨av一区二区三区中文字幕| 欧美男男激情freegay| 91人成网站www| 香蕉久久a毛片| 538精品在线视频| 亚洲欧美国产日韩中文字幕| japansex久久高清精品| 国产精品无码av在线播放| 国产精品久久毛片av大全日韩| 国产成人三级在线观看视频| 国产精品免费网站| 一本色道久久综合一区| 日本黄色免费片| 亚洲美腿欧美激情另类| 9999久久久久| 中文字幕在线视频精品| 91国偷自产一区二区三区观看|