精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

如何高效部署大模型?CMU最新萬字綜述縱覽LLM推理MLSys優化技術

人工智能 新聞
近日,CMU Catalyst 團隊推出了一篇關于高效 LLM 推理的綜述,覆蓋了 300 余篇相關論文,從 MLSys 的研究視角介紹了算法創新和系統優化兩個方面的相關進展。

在人工智能(AI)的快速發展背景下,大語言模型(LLMs)憑借其在語言相關任務上的杰出表現,已成為 AI 領域的重要推動力。然而,隨著這些模型在各種應用中的普及,它們的復雜性和規模也為其部署和服務帶來了前所未有的挑戰。LLM 部署和服務面臨著密集的計算強度和巨大的內存消耗,特別是在要求低延遲和高吞吐量的場景中,如何提高 LLM 服務效率,降低其部署成本,已經成為了當前 AI 和系統領域亟需解決的問題。

來自卡內基梅隆大學的 Catalyst 團隊在他們的最新綜述論文中,從機器學習系統(MLSys)的研究視角出發,詳細分析了從前沿的 LLM 推理算法系統的革命性變革,以應對這些挑戰。該綜述旨在提供對高效 LLM 服務的當前狀態和未來方向的全面理解,為研究者和實踐者提供了寶貴的洞見,幫助他們克服有效 LLM 部署的障礙,從而重塑 AI 的未來。

論文鏈接:https://arxiv.org/abs/2312.15234

該論文的第一作者是卡內基梅隆大學的 Xupeng Miao(苗旭鵬)博士后研究員,合作者還包括 Tianqi Chen 和 Zhihao Jia 助理教授。此外,其他學生作者也均來自于 CMU Catalyst Group 實驗室,該實驗室由 Zhihao Jia 與 Tianqi Chen(陳天奇)在 CMU 共同主持,致力于集成來自于機器學習算法、系統、硬件等多方面的優化技術,構造自動化的機器學習系統。此前,該實驗室還推出了 SpecInfer, MLC-LLM, SpotServe [ASPLOS‘24] 等開源項目,推進 LLM 大模型相關系統的研究和應用。實驗室主頁:https://catalyst.cs.cmu.edu。

綜述概覽

該綜述系統地審視了現有 LLM 推理技術,覆蓋了 300 余篇相關論文,從算法創新系統優化兩個方面展開介紹。論文以此為基礎,對現有工作設計了一套清晰且詳盡的分類法,突出了各種方法的優勢和局限性,逐類別搜集整理并介紹了每種方法的相關論文。除此之外,論文還對當前的主流 LLM 推理框架在系統設計與實現方面進行了深入的對比和分析。最后,作者對未來如何繼續提高 LLM 推理效率進行了展望,在技術層面提出了六大潛在發展方向

分類法

圖片

算法創新

這一節對提出的各種算法和技術進行了全面分析,旨在改進大規模 Transformer 模型推理的原生性能缺陷,包括解碼算法架構設計、和模型壓縮等等。

圖片

解碼算法:在這一部分中,我們回顧了在圖 2 中展示的幾種 LLMs 推理優化過程的新穎解碼算法。這些算法旨在減少計算復雜度,并提高語言模型推理在生成任務中的總體效率,包括:

  • 非自回歸解碼:現有 LLMs 的一個主要限制是默認的自回歸解碼機制,它逐個順序生成輸出 token。為解決這一問題,一種代表性的工作方向是非自回歸解碼 [97, 104, 108,271],即放棄自回歸生成范式,打破單詞依賴并假設一定程度的條件獨立性,并行解碼輸出 token。然而,盡管這類方法解碼速度有所提高,但大多數非自回歸方法的輸出質量仍不如自回歸方法可靠。
  • 投機式推理:另一類工作是通過投機執行思想 [47] 實現并行解碼。自回歸 LLM 推理過程中的每個解碼步驟都可以被視為帶有條件分支的程序執行語句,即決定接下來生成哪個 token。投機式推理 [51, 155] 先使用較小的草稿模型進行多步解碼預測,然后讓 LLM 同時驗證這些預測以實現加速。然而,將投機解碼應用于 LLMs 時仍然存在一些實際挑戰,例如,如何使解碼預測足夠輕量且準確,以及如何借助 LLMs 實現高效的并行驗證。SpecInfer [177] 首次引入基于 tree-based speculative decoding 和 tree attention,并提出了一個低延遲 LLM 服務系統實現,該機制也被后續多個工作 [48, 118, 168, 185, 229, 236, 274, 310] 直接采用。
  • 提前退出:這類方法主要利用 LLMs 的深層多層結構,在中間層提前推出推理,中間層輸出可以通過分類器轉化成輸出的 token,從而降低推理開銷 [117, 147, 163, 167, 234, 272, 282, 291, 308],它們也被稱為自適應計算 [68, 219]。
  • 級聯推理:這類方法級聯了多個不同規模的 LLM 模型,用于分別處理不同復雜度的推理請求,代表性工作包括 CascadeBERT [157] 和 FrugalGPT [53]。

架構設計:

  • 配置縮小:直接縮小模型配置。
  • 注意力簡化:最近出現了很多研究工作,它們主要是將之前的長序列高效注意力機制 [240] 應用在 LLM 上,以縮短上下文,減少 KV 緩存,以及注意力復雜度,同時略微降低解碼質量(如滑動窗口 [129, 299]、哈希 [198]、dilated [74]、動態選擇等等)。表 1 中總結了一些近期的熱門方法和之前的工作之間的對應關系。

圖片


  • 激活共享:這類方法主要是通過共享 attention 計算的中間激活來降低推理內存開銷,代表性工作包括 MQA [220] 和 GQA [32]。
  • 條件計算:這類方法主要是指稀疏專家混合模型(Sparse MoE),比如最近大火的 Mistrial 7Bx8 模型就屬于此類。
  • 循環單元:盡管 Transformer 已經替代了 RNN 模型,但考慮到注意力機制的二次復雜性,人們始終未曾放棄將 recurrent unit 機制重新引入 LLM 的嘗試,比如 RWKV [200]、RetNet [235],以及狀態空間模型 [91, 102, 103, 176] 等等。

模型壓縮:

  • 知識蒸餾:這類方法以大型的教師模型為監督,訓練一個小型的學生模型。大多數之前的方法都在探索白盒蒸餾 [106, 133, 214, 233, 255],需要訪問整個教師模型的參數。由于基于 API 的 LLM 服務(如 ChatGPT)的出現,一些黑盒蒸餾模型吸引了很多關注 [238,59, 273, 201, 313],這些模型通常具有更少的模型參數,與原始 LLMs(如 GPT-4 [195])相比,在各種下游任務上表現出了相當的性能。
  • 網絡剪枝:過去幾年中,網絡剪枝方法 [180, 215, 215] 已被廣泛研究,但并非所有方法都可以直接應用于 LLMs,需要考慮重新訓練可能帶來的過高計算成本,以及評估剪枝是否可以在底層系統實現上取得效率提升。大致上可以分為結構化剪枝 [80, 149, 174, 216, 172] 和半結構化稀疏化 [40, 87, 232, 251, 276] 等。

系統優化

本節研究 LLM 推理系統優化技術,以加速 LLM 推理,而不改變 LLM 計算語義。這一工作的目標是通過改進用于大型語言模型推理的底層系統和框架來提高系統效率,包括低比特量化、并行計算、內存管理、請求調度、和內核優化等等,詳細內容可以參見論文原文。

軟件框架

圖片

論文還對一些目前最先進的基于 GPU 的開源 LLM 推理系統進行了深入的分析,并從多個方面總結了它們在設計與實現傷的差異。

未來方向

  • 專用硬件加速器的發展:生成型 LLM 服務效率的顯著提升可能在很大程度上依賴于專用硬件加速器的發展和提升,尤其是軟硬協同設計方法。例如,讓內存單元更加接近處理單元,或是針對 LLM 算法數據流優化芯片架構,這些硬件優化可以在很大程度上為 LLM 推理在軟件層面帶來便利和機會。
  • 高效有效的解碼算法:開發更高效的解碼算法可以顯著提高服務效率。受對實時應用更快生成速度的需求驅動,一個有前途的方向是廣義的投機式推理(generalized speculative inference),不僅會帶來顯著加速,同時保持相同的生成質量。正如 SpecInfer 中所指出的,廣義的投機式推理中,用于生成草稿 token 的小模型可以被替換為任何快速的 token 生成方法,比如自定義函數、召回方法、甚至早停機制和非自回歸解碼等等。
  • 長上下文 / 序列場景優化:隨著應用場景變得更加復雜,處理更長的上下文或序列的需求不斷增長。服務長序列負載的 LLM 需要解決算法和系統兩方面的挑戰。在算法方面,它們依然面臨長度泛化失效問題,甚至可能出現 “loss in the middle” 的情況。目前的解法主要是通過召回增強、序列壓縮和緩存來盡可能縮短序列長度并保存相關信息。
  • 探索替代基礎架構:盡管 Transformer 模型和自注意力機制目前主導著 LLM 領域,但探索替代架構是未來研究的一個有前景的方向。例如,一些最新研究探索了無注意力方法,使用純 MLP(多層感知機)架構來替代注意力機制,可能會改變目前 LLM 推理優化的格局。
  • 在復雜環境中的部署探索:隨著 LLM 應用的擴展,探索并優化它們在各種復雜環境中的部署成為一個關鍵的未來方向。這一探索不僅限于傳統的基于云的部署,還包括邊緣計算、混合計算(cloud+edge)、去中心化計算以及廉價的可搶占資源等。
  • 特定需求的自動適應:應用特定需求的多樣性創造了一系列創新的 LLM 服務優化機會,例如模型微調(parameter-efficient fine-tuning)、向量數據庫檢索、多模態負載等等。這些獨特的挑戰也要求將 LLM 服務技術自動且順利地集成到現有 IT 基礎設施中,將優化空間擴展到整個 LLM 生命周期。

總結

總的來說,該綜述不僅是對當前 LLM 服務優化研究的全面概述,也為未來在這一領域的探索和發展指明了方向。通過深入了解這些先進的解決方案,研究者和實踐者可以更好地理解和應對在實際應用中部署大型語言模型時面臨的挑戰。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-05-30 14:17:00

模型推理

2025-05-08 09:10:30

2024-07-31 14:08:00

2024-04-07 14:28:48

邊緣計算LLM人工智能

2025-01-07 13:22:58

2025-04-22 07:00:00

2025-06-11 02:30:00

2024-03-07 12:31:29

AI技術

2024-09-09 08:31:15

2025-10-11 02:25:00

2025-04-07 09:23:00

大模型LLM推理

2024-04-28 15:04:08

自動駕駛視覺

2024-02-01 08:34:30

大模型推理框架NVIDIA

2025-06-05 11:49:21

AI模型數據

2025-07-08 03:11:00

2018-01-02 09:17:57

2025-11-17 08:00:00

LLMAWQGPTQ

2025-07-04 09:06:00

2025-08-08 09:02:00

AI架構模型

2022-06-02 15:31:26

深度學習AI
點贊
收藏

51CTO技術棧公眾號

中文字幕精品www乱入免费视频| 亚洲h精品动漫在线观看| 国产精品午夜一区二区欲梦| 欧美三级日本三级| 精品自拍偷拍| 欧美日韩在线电影| 国产精品69久久久| 美州a亚洲一视本频v色道| 久久99精品国产麻豆不卡| 欧美高清性猛交| 精品熟妇无码av免费久久| 7777精品| 欧美日韩视频在线一区二区| 无码粉嫩虎白一线天在线观看| 岛国视频免费在线观看| 国产suv一区二区三区88区| 日韩av黄色在线观看| 国产黄色片在线免费观看| 在线日本制服中文欧美| 欧美一区二区在线观看| 国产成人av影视| 好看的中文字幕在线播放| 中文字幕免费在线观看视频一区| 国产精品国模大尺度私拍| 怡红院男人天堂| 夜夜嗨网站十八久久| 久久精品电影网站| jizz中文字幕| 欧美调教在线| 日韩精品综合一本久道在线视频| 少妇一级淫免费放| 色偷偷色偷偷色偷偷在线视频| 亚洲精品日日夜夜| 亚洲欧美日韩在线综合| 蜜桃免费在线| 91影院在线观看| 高清不卡日本v二区在线| 中文字幕在线观看高清| 久久久成人网| 456亚洲影院| 日本少妇激情舌吻| 欧美日韩99| 久久av红桃一区二区小说| 日本黄区免费视频观看| 国产一区国产二区国产三区| 亚洲精品美女在线| 天堂www中文在线资源| 一区二区三区免费在线看| 欧美疯狂性受xxxxx喷水图片| av无码精品一区二区三区| 中文日产幕无线码一区二区| 福利一区福利二区微拍刺激| www在线观看免费| jizz一区二区三区| 午夜精品福利视频网站| 免费国产黄色网址| 九色porny丨国产首页在线| 亚洲成a人片在线不卡一二三区| 毛片在线视频观看| 青春草视频在线| 亚洲综合色视频| 人妻夜夜添夜夜无码av| 97人澡人人添人人爽欧美| 亚洲成人免费在线| 日本一道本久久| 在线成人av观看| 欧美性猛片xxxx免费看久爱| 久久久精品麻豆| 精品69视频一区二区三区| 欧美日本韩国一区| 小日子的在线观看免费第8集| 日韩精品一级| 亚洲黄色在线观看| 日韩精品无码一区二区三区久久久| 九色精品国产蝌蚪| 中文字幕视频一区二区在线有码| 69夜色精品国产69乱| 激情国产一区| 国产成人精品999| 97精品人妻一区二区三区| 国产乱色国产精品免费视频| 国产欧美日韩一区| 成年人在线免费观看| 成人欧美一区二区三区| 少妇大叫太大太粗太爽了a片小说| 成人爽a毛片免费啪啪动漫| 狠狠躁夜夜躁久久躁别揉| 手机在线成人免费视频| 蜜桃在线一区| 亚洲视频国产视频| 婷婷久久综合网| 亚洲乱码久久| 国产噜噜噜噜噜久久久久久久久 | 日韩不卡av在线| 99热国内精品永久免费观看| 久久久久久网址| 国产精华7777777| 国产一区二区精品久久| 精品国产免费人成电影在线观...| 国产精品ⅴa有声小说| 亚洲精品videosex极品| 欧美一级片中文字幕| 亚洲国产精品免费视频| 亚洲全黄一级网站| 国产探花在线播放| 日韩国产欧美在线播放| 高清视频在线观看一区| 亚洲欧美视频一区二区| 午夜视频一区二区| 日本一本在线视频| 欧美精品久久久久久| 久久久在线免费观看| 一区二区www| 久久综合久久鬼色| 妺妺窝人体色www看人体| 99精品在免费线偷拍| 亚洲成av人影院在线观看| 久久精品亚洲a| 久久精品天堂| 精品国产中文字幕| 欧美色图天堂| 69堂成人精品免费视频| 一级片手机在线观看| 99国产精品| 97免费高清电视剧观看| 日本在线免费中文字幕| 欧亚一区二区三区| www.av欧美| 亚洲毛片av| 成人在线视频电影| 最新国产在线拍揄自揄视频| 欧美日韩大陆一区二区| 国产一二三四区在线| 欧美一级二区| 精品午夜一区二区三区| 91九色在线播放| 欧美va亚洲va国产综合| 欧美成人综合色| 国产在线不卡一区| 中文字幕一区二区三区有限公司| 韩日一区二区| 一区二区三区四区精品| 亚洲成人av影片| 久久婷婷国产综合精品青草| 日本三级免费网站| 青青一区二区| 国产91精品久久久久久| 亚洲aaaaaaa| 大荫蒂欧美视频另类xxxx| 男男做爰猛烈叫床爽爽小说| 日韩视频二区| 国新精品乱码一区二区三区18| 最新av在线播放| 日韩欧美一级片| 久久精品久久国产| 99re热视频这里只精品| 国产精品va无码一区二区| 美女视频亚洲色图| 琪琪第一精品导航| 精华区一区二区三区| 色婷婷综合五月| 天堂网av2018| 国内一区二区在线| 日本香蕉视频在线观看| 国产精品网在线观看| 69久久夜色精品国产69| 国内在线免费高清视频| 欧美日韩视频不卡| 国产av无码专区亚洲av毛网站| 国产不卡在线视频| 久久综合九色综合88i| 亚洲图区在线| 国产精品自拍网| 国产经典三级在线| 亚洲欧美在线看| 中文字幕永久在线视频| 一区二区三区不卡视频在线观看| 毛茸茸free性熟hd| 久久人人精品| 黄色网zhan| 欧美三级电影在线| 国产情人节一区| 精品精品导航| 亚洲色图av在线| 国产精品无码久久久久成人app| 夜夜揉揉日日人人青青一国产精品| 少妇被狂c下部羞羞漫画| 久久久xxx| 黄色片免费在线观看视频| 人人香蕉久久| 91精品综合久久久久久五月天| 国产黄色大片在线观看| 国产一区二区三区直播精品电影| 国产日韩免费视频| 精品国产鲁一鲁一区二区张丽| 第一次破处视频| 成人小视频在线| jizzzz日本| 99国产精品视频免费观看一公开 | 蜜臀久久99精品久久久久久| 麻豆精品在线播放| 18岁网站在线观看| 91精品啪在线观看国产18 | 日韩精品久久久久久久电影99爱| 动漫美女被爆操久久久| 免费在线观看一区| 97精品一区二区三区| 黄色小网站在线观看| 国产视频一区在线| 性一交一乱一伧老太| 欧美亚洲综合网| 在线观看日韩中文字幕| 亚洲精品国产精品乱码不99| 亚欧精品视频一区二区三区| 成人a区在线观看| 图片区乱熟图片区亚洲| 视频一区视频二区中文| 国产伦精品一区二区三区四区视频_| 欧美在线观看视频一区| 玖玖玖精品中文字幕| 亚洲精品v亚洲精品v日韩精品| 国产一区红桃视频| 日韩免费小视频| 97香蕉超级碰碰久久免费的优势| 国产黄色在线观看| 色偷偷91综合久久噜噜| 成人免费在线视频网| 亚洲精品一区二区三区婷婷月| 国产黄色一区二区| 91麻豆精品国产91久久久更新时间| 丰满人妻老熟妇伦人精品| 午夜不卡av免费| 青青草免费av| 一区二区三区视频在线观看| 中文字幕电影av| 自拍偷拍亚洲综合| 二区三区四区视频| 亚洲欧美在线高清| 午夜成人亚洲理伦片在线观看| 欧美国产日韩在线观看| b站大片免费直播| 久久久久综合网| www.av欧美| 国产日本欧洲亚洲| 黄大色黄女片18免费| 欧美极品少妇xxxxⅹ高跟鞋| www在线观看免费视频| 国产亚洲精品超碰| 少妇无套高潮一二三区| 国产精品美女久久久久av爽李琼| 国产视频三区四区| 中文一区二区完整视频在线观看| 免费看的黄色网| 国产精品久久久久久一区二区三区| 一区二区三区在线观看免费视频| 国产日韩在线不卡| 99久久99久久精品免费| 中文字幕亚洲成人| 国产精品白嫩白嫩大学美女| 亚洲国产精品一区二区www在线| 免费在线视频一区二区| 亚洲国产精品嫩草影院| 色婷婷在线观看视频| 在线免费视频一区二区| 岳乳丰满一区二区三区| 日韩欧美高清dvd碟片| 日本免费不卡视频| 一区二区三区视频免费| 二区三区四区高清视频在线观看| 九九久久综合网站| av中文资源在线资源免费观看| 欧美在线中文字幕| 97欧美成人| 成人av资源| 蜜桃一区二区| 国产树林野战在线播放| 亚洲欧洲日本一区二区三区| 午夜视频在线瓜伦| 国产麻豆精品视频| 丰满少妇在线观看资源站| 国产精品久久久久天堂| 九九久久免费视频| 在线观看欧美日本| 国产视频第一页| 亚洲男人天天操| www免费在线观看| 日本精品一区二区三区在线| 日本免费成人| 久久久久久九九九九| 欧美电影免费观看高清| 日日摸日日碰夜夜爽无码| 美洲天堂一区二卡三卡四卡视频| 久久综合在线观看| 久久久综合激的五月天| 91精品国产闺蜜国产在线闺蜜| 亚洲成人在线网站| 亚洲一区二区三区网站| 亚洲成人黄色在线观看| 免费大片黄在线观看视频网站| 91av成人在线| 99视频有精品高清视频| 欧美lavv| 欧美体内she精视频在线观看| 色七七在线观看| av中文字幕一区| 老湿机69福利| 欧美三级一区二区| 欧美日韩激情视频一区二区三区| 欧美精品做受xxx性少妇| 日韩精品免费观看视频| 国产伦精品一区二区三区四区视频| 手机在线电影一区| av黄色在线网站| 成人高清免费观看| 亚洲精品一区二区三区在线播放| 黑人巨大精品欧美一区二区| 精品人妻伦一二三区久久 | 精品国产百合女同互慰| 日韩精品成人av| 国产91色在线免费| 亚洲+小说+欧美+激情+另类 | 91香蕉国产视频| 日韩欧美国产骚| 污污的视频网站在线观看| 欧美乱妇40p| 在线观看亚洲精品福利片| 视频在线精品一区| 噜噜噜91成人网| 久久精品老司机| 午夜激情综合网| 人人妻人人澡人人爽精品日本| 九九久久久久99精品| 精品一区二区三区视频在线播放| 亚洲精品8mav| 秋霞电影网一区二区| 人妻视频一区二区| 欧美亚洲一区三区| 永久免费av在线| 成人免费网视频| 天天射天天综合网| 日韩av.com| 亚洲欧洲综合另类| 国产不卡精品视频| 欧美激情一级欧美精品| 在线精品国产亚洲| 久草视频这里只有精品| 成人a免费在线看| 天天插天天操天天干| 亚洲精品久久在线| 亚洲精品福利电影| 欧美日韩中文国产一区发布| 日本中文字幕不卡| 超碰人人干人人| 制服丝袜亚洲色图| 青草影视电视剧免费播放在线观看| 99久久精品免费看国产四区| 国产精品v欧美精品v日本精品动漫| 亚洲av无码久久精品色欲| 亚洲自拍偷拍欧美| 偷拍自拍在线| 国产成人精品一区二区| 日韩理论电影大全| 丰满少妇中文字幕| 亚洲高清免费观看高清完整版在线观看 | 日韩视频精品在线观看| wwwwww日本| 欧美午夜不卡在线观看免费| 黄色在线论坛| 国产精品成人一区二区三区| 亚洲一区区二区| 日本成人免费在线观看| 欧美成人a视频| 成人动漫一区| 日本女人高潮视频| 91香蕉视频在线| 亚洲天堂aaa| 久久久久久久一区二区| 一道本一区二区三区| 中文字幕永久有效| 亚洲观看高清完整版在线观看| 黄色美女网站在线观看| 91色中文字幕| 亚洲在线日韩| 精品自拍偷拍视频| 日韩成人黄色av| 99精品视频在线免费播放| 欧美在线观看成人| 成人免费在线视频| 欧美黄色小说| 999热视频在线观看| 三级不卡在线观看| 欧美人妻精品一区二区免费看| 亚洲欧美第一页| 伊人精品综合| www日韩在线观看| 亚洲成人一二三| 国内精品久久久久久野外| 奇米影视首页 狠狠色丁香婷婷久久综合| 精品一区二区三区久久久| 中文字幕在线观看视频网站|