精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

舍棄CUDA編程!CMU等用幾十行代碼將LLM編譯成巨型內核,推理延遲可降6.7倍

人工智能 新聞
近日,CMU 助理教授賈志豪(Zhihao Jia)團隊創新玩法,推出了一個名為「Mirage Persistent Kernel(MPK)」的編譯器,可以自動將 LLM 轉化為優化的巨型內核(megakernel),從而將 LLM 推理延遲降低 1.2 到 6.7 倍。

在 AI 領域,英偉達開發的 CUDA 是驅動大語言模型(LLM)訓練和推理的核心計算引擎。

不過,CUDA 驅動的 LLM 推理面臨著手動優化成本高、端到端延遲高等不足,需要進一步優化或者尋找更高效的替代方案。

近日,CMU 助理教授賈志豪(Zhihao Jia)團隊創新玩法,推出了一個名為「Mirage Persistent Kernel(MPK)」的編譯器,可以自動將 LLM 轉化為優化的巨型內核(megakernel),從而將 LLM 推理延遲降低 1.2 到 6.7 倍。

2025-06-20_091419 (1)_副本.jpg

  • GitHub 地址:https://github.com/mirage-project/mirage/tree/mpk
  • 博客地址:https://zhihaojia.medium.com/compiling-llms-into-a-megakernel-a-path-to-low-latency-inference-cf7840913c17

MPK 將 LLM 推理延遲推近硬件極限。在單個 A100-40GB GPU 上,MPK 將 Qwen3-8B 每個 token 的延遲從 14.5 毫秒 (vLLM/SGLang) 降低到 12.5 毫秒,逼近基于內存帶寬計算得出的 10 毫秒理論下限。

image.png

MPK 的易用性很強,你只需要幾十行 Python 代碼就能將 LLM 編譯成一個高性能巨型內核,實現快速推理,整個過程無需 CUDA 編程。

image.png

評論區對 MPK 的看法也很正向,并提出了一些未來的延展方向。

image.png

引入 MPK 的必要性

降低 LLM 推理延遲最有效的方法之一,是將所有計算和通信融合進一個單一的巨型內核,也稱為持續內核。 

在這種設計中,系統僅啟動一個 GPU 內核來執行整個模型 —— 從逐層計算到 GPU 間通信 —— 整個過程無需中斷。這種方法提供了以下幾個關鍵的性能優勢:

  • 消除內核啟動開銷:通過避免重復的內核調用,即使是在多 GPU 環境下,也能消除內核啟動開銷;
  • 實現跨層軟件 pipeline 允許內核在計算當前層的同時,開始為下一層加載數據;
  • 重疊計算與通信:由于巨型內核可以同時執行計算操作和 GPU 間通信,從而隱藏通信延遲。

盡管有這些優勢,將 LLM 編譯成巨型內核仍然極具挑戰性。

現有的高級 ML 框架 —— 如 PyTorch、Triton 和 TVM,它們本身并不支持端到端巨型內核生成。此外,現代 LLM 系統由各種不同的專用內核庫構建而成:用于通信的 NCCL 或 NVSHMEM,用于高效注意力計算的 FlashInfer 或 FlashAttention,以及用于自定義計算的 CUDA 或 Triton。

這種碎片化使得將整個推理 pipeline 整合進一個單一的、統一的內核變得非常困難。

那么能否通過編譯自動化這個過程呢?受到這個問題的啟發,來自 CMU、華盛頓大學、加州大學伯克利分校、英偉達和清華大學的團隊開發出了 MPK—— 一個編譯器和運行時系統,它能自動將多 GPU 的 LLM 推理轉換為高性能的巨型內核。MPK 釋放了端到端 GPU 融合的效能優勢,同時只需要開發者付出極小的手動努力。

MPK 的優勢

MPK 的一個關鍵優勢在于:通過消除內核啟動開銷,并最大程度地重疊跨層的計算、數據加載和 GPU 間通信,實現了極低的 LLM 推理延遲。

下圖 1 展示了 MPK 與現有 LLM 推理系統在單 GPU 和多 GPU 配置下的性能對比(具體可見上文)。

image.png

除了單 GPU 優化,MPK 還將計算與 GPU 間通信融合進一個單一的巨型內核。 這種設計使得 MPK 能夠最大程度地重疊計算與通信。因此,MPK 相對于當前系統的性能提升隨著 GPU 數量的增加而增大,使其在多 GPU 部署場景下尤為高效。

MPK 的工作原理

MPK 的工作原理包括以下兩大部分

  • Part 1:MPK 編譯器,其將 LLM 的計算圖轉化為優化的任務圖;
  • Part 2:MPK 運行時系統,該系統在單個巨型內核內執行任務圖,以實現高吞吐量與低延遲。

編譯器 —— 將 LLM 轉化為細粒度任務圖

LLM 的計算過程通常表示為計算圖,其中每個節點對應一個計算算子(如矩陣乘法、注意力機制)或集合通信原語(如 all-reduce),邊表示算子間的數據依賴關系。現有系統通常為每個算子啟動獨立的 GPU 內核。

然而,這種「單算子單內核」的執行模型難以實現 pipeline 優化,因為依賴關系是在整個內核的粗粒度層面強制執行的,而非實際數據單元層面。

典型案例如矩陣乘法(matmul)后接 all-reduce 操作:現有系統中,all-reduce 內核必須等待整個 matmul 內核完成。而實際上,all-reduce 的每個數據分塊僅依賴 matmul 輸出的局部結果。這種邏輯依賴與實際依賴的錯配,嚴重限制了計算與通信的重疊潛力。

下圖 2 展示了 MPK 編譯器將 PyTorch 定義的 LLM 計算圖轉化為優化細粒度任務圖,最大化暴露并行性。右側展示次優方案 —— 其引入不必要的數據依賴與全局屏障,導致跨層流水線優化機會受限。

image.png

為了解決此問題,MPK 引入的編譯器可將 LLM 計算圖自動轉化為細粒度任務圖。該任務圖在子內核級別顯式捕獲依賴關系,實現更激進的跨層流水線優化。

具體來講,在 MPK 任務圖中(如圖 2 所示):

  • 任務(矩形表示),代表分配給單個 GPU 流式多處理器(SM)的計算 / 通信單元。
  • 事件(圓形表示),表示任務間的同步點。
  • 觸發機制,每個任務發出指向觸發事件的邊,該事件在關聯任務全部完成后激活。
  • 依賴機制,每個任務接收來自依賴事件的邊,表明事件激活后任務立即啟動。

任務圖使 MPK 能夠發掘計算圖中無法實現的 pipeline 優化機會。例如,MPK 可以構建優化任務圖 —— 其中每個 all-reduce 任務僅依賴于生成其輸入的對應 matmul 任務,從而實現分塊執行與計算通信重疊。

除生成優化任務圖外,MPK 還通過 Mirage 內核超優化器自動為每個任務生成高性能 CUDA 實現,確保任務在 GPU 流式多處理器(SM)上高效執行。

Part 2:運行時 —— 在巨型內核中執行任務圖

MPK 包含內置 GPU 運行時系統,可在單個 GPU 巨型內核內完整執行任務圖。這使得系統能在推理過程中無需額外內核啟動的情況下,實現任務執行與調度的細粒度控制。

為了實現此機制,MPK 在啟動時將 GPU 上所有流式多處理器(SM)靜態分區為兩種角色:即工作單元(Worker)和調度單元(Scheduler)。

工作 SM 與調度 SM 的數量在內核啟動時固定配置,且總和等于物理 SM 總數,從而徹底避免動態上下文切換開銷。

工作單元

每個工作單元獨占一個流式多處理器(SM),并維護專屬任務隊列。其執行遵循以下高效簡潔的循環流程:

  • 獲取任務:從隊列中提取下一待執行任務。
  • 執行計算:運行任務(如矩陣乘法 / 注意力機制 / GPU 間數據傳輸)。
  • 事件觸發:任務完成后通知觸發事件。
  • 循環執行:重復上述過程。

該機制既保障了工作單元的持續滿載運行,又實現了跨層和跨操作的異步任務執行。

調度單元

調度決策由 MPK 的分布式調度單元處理,每個調度單元運行于單個線程束(warp)上。由于每個流式多處理器(SM)可以容納多個線程束,因此單 SM 最多可并發運行 4 個調度單元。每個調度單元維護激活事件隊列,并持續執行以下操作:

  • 事件出隊:移除依賴已滿足的激活事件(即所有前置任務均已完成)。
  • 任務啟動:調度依賴該激活事件的任務集。

這種分布式調度機制在實現跨 SM 可擴展執行的同時,最小化協同開銷。

事件驅動執行

下圖 3 展示了 MPK 的執行時間線,其中每個矩形代表一個在工作單元上運行的任務;每個圓圈代表一個事件。當一個任務完成時,它會遞增其對應觸發事件的計數器。當事件計數器達到預設閾值時,該事件被視為已激活,并被加入調度單元的事件隊列。隨后,調度單元會啟動所有依賴于該事件的下游任務。

這種設計實現了細粒度的軟件流水線化,并允許計算與通信之間重疊,比如

  • 矩陣乘法(Matmul)任務可以與來自不同層的注意力任務并行執行。
  • 一旦有部分 matmul 結果可用,即可開始 Allreduce 通信。

由于所有的調度和任務切換都發生在單一內核上下文內,任務間的開銷極低,通常僅需 1-2 微秒,從而能夠高效地執行多層、多 GPU 的 LLM 工作負載。

image.png

下一步計劃

團隊對 MPK 的愿景是使巨型內核編譯既易于使用又具備高性能。目前,你只需幾十行 Python 代碼(主要用于指定巨型內核的輸入和輸出)即可將一個 LLM 編譯成一個巨型內核。此方向仍有廣闊的探索空間,目前正在積極攻關的一些關鍵領域包括如下:

  • 支持現代 GPU 架構。下一個里程碑是將 MPK 擴展到支持下一代架構,例如 NVIDIA Blackwell。一個主要挑戰在于如何將線程束專業化,這是新型 GPU 的一項關鍵優化技術,與 MPK 的巨型內核執行模型相集成。
  • 處理工作負載動態性。 MPK 目前構建的是靜態任務圖,這限制了它處理動態工作負載(如 MoE 模型)的能力。團隊正在開發新的編譯策略,使 MPK 能夠在巨型內核內部支持動態控制流和條件執行。
  • 高級調度與任務分配。 MPK 在任務級別解鎖了新的細粒度調度能力。雖然當前的實現使用簡單的輪詢調度在流式多處理器(SM)之間分配任務,但團隊看到了在高級調度策略(如優先級感知或吞吐量優化策略)方面令人興奮的機會,可應用于諸如延遲服務等級目標(SLO)驅動的服務或混合批處理等場景。

團隊相信,MPK 代表了在 GPU 上編譯和執行 LLM 推理工作負載方式的根本性轉變,并熱切期待與社區合作,共同推動這一愿景向前發展。

該項目也在快速迭代中,非常歡迎有興趣的伙伴加入contribute。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2018-10-31 14:00:05

LispJavaScript編程語言

2021-08-18 08:00:00

Emscripten開發技術

2024-06-12 15:59:59

前端JavaScrip識別

2021-05-18 14:25:30

Linux運維Linux系統

2024-06-21 14:47:52

2022-03-14 09:57:30

Python代碼

2023-12-06 18:09:01

2018-10-16 14:30:22

Python微信朋友圈

2020-11-08 14:44:37

VSCode代碼編碼

2022-07-07 15:50:19

Python開發功能

2018-07-13 16:26:46

編程語言Python微信

2023-06-25 13:31:44

2023-05-30 14:17:00

模型推理

2015-04-15 09:28:45

JavaScript熱門工具

2009-09-10 13:17:50

matlab函數

2023-06-06 14:00:39

代碼模型

2009-12-16 10:15:58

VS2003編譯

2022-03-23 15:32:38

Python開發代碼

2022-01-25 12:51:58

Python代碼證件照

2023-05-23 14:06:53

微軟研究
點贊
收藏

51CTO技術棧公眾號

国产精东传媒成人av电影| av网站免费在线观看| 久久这里只有| 按摩亚洲人久久| 乱码一区二区三区| 免费观看欧美大片| 亚洲女与黑人做爰| 精品欧美一区二区精品久久| 中文无码av一区二区三区| 中文字幕一区二区av| 亚洲精品国产精品久久清纯直播| 黄色三级视频在线| 欧美xxx黑人xxx水蜜桃| 国产网站一区二区三区| 国产精品对白刺激久久久| 成人午夜精品视频| 亚洲福利一区| 日韩在线观看免费av| 欧美成人精品一区二区综合免费| jizz亚洲女人高潮大叫| 亚洲观看高清完整版在线观看| 日韩精品一区二区三区丰满 | 美女尤物久久精品| 久久视频在线免费观看| 三级网站在线免费观看| 一区二区三区亚洲变态调教大结局 | av日韩电影| 亚洲精品乱码久久久久久日本蜜臀| 欧美精品在线一区| 国精品人妻无码一区二区三区喝尿| 蜜臀av一区二区| 欧美专区中文字幕| 精品少妇爆乳无码av无码专区| 久久一区二区中文字幕| 亚洲男子天堂网| 超碰caoprom| 精品久久久久久久久久岛国gif| 欧美在线一二三四区| 黄色片视频在线免费观看| 欧美14一18处毛片| 亚洲女爱视频在线| 亚洲精品日韩在线观看| 国产精品一区在线看| 92国产精品观看| 成人欧美一区二区三区视频xxx| 国产精品午夜福利| 久久狠狠亚洲综合| 国产精品啪视频| 亚洲av无码不卡| 欧美资源在线| 欧美一级免费看| 久久久久久久久久影院| 99国产精品自拍| 97碰在线观看| 青青草av在线播放| 亚洲美女91| 久久久久久久久久久网站| 黄色一级视频免费观看| 欧美三级不卡| 久久久久久网址| 国产一级二级三级| 亚洲理伦在线| 日韩美女激情视频| 国产午夜无码视频在线观看| 久久资源在线| 国产精品久久久久久久天堂| 在线观看一二三区| 久久99精品视频| 91精品在线国产| 国产按摩一区二区三区| 国产福利精品一区| 精品亚洲欧美日韩| 你懂得在线网址| 中文字幕va一区二区三区| 亚洲午夜精品一区二区三区| 国产三区在线观看| 亚洲图片欧美一区| 97在线播放视频| 色香欲www7777综合网| 欧美午夜精品免费| 被黑人猛躁10次高潮视频| a看欧美黄色女同性恋| 亚洲精品一区二区三区蜜桃下载 | 视频免费一区二区| 亚洲成av人乱码色午夜| 欧美特黄一区二区三区| 日韩成人激情| 欧美黑人巨大xxx极品| 国产成人自拍视频在线| 视频一区二区三区入口| 成人有码在线视频| 欧美自拍偷拍第一页| 久久精品亚洲一区二区三区浴池| 在线观看一区欧美| free性m.freesex欧美| 色网综合在线观看| 中文字幕在线观看视频www| 女人抽搐喷水高潮国产精品| 一区二区三区亚洲| 免费一级全黄少妇性色生活片| 一本色道久久综合| 成人激情黄色网| 天天躁日日躁狠狠躁伊人| 日本一区二区综合亚洲| wwwwww欧美| 欧美国产日韩电影| 亚洲缚视频在线观看| 人妻无码一区二区三区免费| 亚洲狼人精品一区二区三区| 成人网在线免费看| 日韩av成人| 亚洲另类中文字| 国产情侣av自拍| 成人激情自拍| 中文字幕日韩av| 国产视频91在线| 国产在线视频精品一区| 欧美日本韩国在线| 丰满大乳少妇在线观看网站| 欧美日韩国产高清一区二区三区| 欧美一区在线看| 欧美高清激情brazzers| 影音先锋黄色资源| 在线精品小视频| 国产精品久久久久免费a∨| 好吊视频一区二区三区| 国产精品嫩草久久久久| 成人一区二区三| 噜噜噜天天躁狠狠躁夜夜精品 | 精品无码国产污污污免费网站 | 国产色视频在线播放| 网曝91综合精品门事件在线| 久久99精品国产99久久6尤物| 综合久久中文字幕| www国产成人| 亚洲人精品午夜射精日韩 | 日韩午夜三级在线| 免费看一级黄色| 日韩av网站免费在线| 蜜桃av噜噜一区二区三区| 九色91在线| 欧美成人三级电影在线| 欧洲猛交xxxx乱大交3| 裸体在线国模精品偷拍| 色一情一区二区三区四区 | 精品麻豆一区二区三区| 欧美日韩中文精品| 亚洲色图第四色| 日韩国产精品久久| 欧美国产综合视频| 欧美xxx视频| 亚洲久久久久久久久久| 亚洲高清毛片一区二区| 2023国产一二三区日本精品2022| 好吊妞无缓冲视频观看| 日韩伦理一区二区三区| 欧美一区二粉嫩精品国产一线天| 午夜小视频在线播放| 欧美日韩国产精品| 激情综合丁香五月| 久久久精品网| 特级西西444www大精品视频| 欧美成人一二区| 久久视频这里只有精品| 国产成人三级在线播放| 亚洲综合男人的天堂| 国产十八熟妇av成人一区| 亚洲美女少妇无套啪啪呻吟| 久久婷婷开心| 欧洲一级精品| 日韩一区二区欧美| 亚洲AV午夜精品| 午夜国产精品影院在线观看| 少妇真人直播免费视频| 秋霞成人午夜伦在线观看| 亚洲精品一卡二卡三卡四卡| 粉嫩av国产一区二区三区| 欧美成人三级视频网站| 色婷婷av一区二区三| 欧美日韩一区二区三区| 日本免费www| 国产99精品在线观看| 欧美s码亚洲码精品m码| 日韩成人激情| 国产精品日韩欧美一区二区三区| 在线视频超级| 久久香蕉国产线看观看av| 高h震动喷水双性1v1| 欧美午夜激情小视频| 肉色超薄丝袜脚交69xx图片| 成人自拍视频在线观看| 国产无套粉嫩白浆内谢的出处| 亚洲高清影视| 欧美 日韩 国产在线| 69堂精品视频在线播放| 久久久久久久国产精品视频| 波多野结衣在线网站| 日韩欧美一区二区视频| 亚洲黄色免费观看| 1000精品久久久久久久久| 亚洲激情 欧美| 久久99最新地址| a在线视频观看| 久久精品青草| 欧美一级爱爱| 国内精品麻豆美女在线播放视频 | 日韩第一区第二区| 国产不卡在线观看| 日韩特级毛片| 精品国产欧美成人夜夜嗨| 男人的天堂av高清在线| 日韩精品专区在线影院观看 | 日韩欧美不卡在线观看视频| av一级在线观看| 一区二区三区四区乱视频| 国产传媒国产传媒| 成人动漫av在线| 日本中文字幕在线不卡| 日韩**一区毛片| 国产a级片网站| 欧美在线网址| 中文字幕久精品免| 精品国产一区一区二区三亚瑟| 国产伦精品一区二区| 精品国产乱码一区二区三区| 国产精品久久久久秋霞鲁丝| 欧美极度另类| 国内精品视频久久| 1stkiss在线漫画| 中文字幕一区日韩电影| 国产在线自天天| 日韩精品日韩在线观看| 国产91绿帽单男绿奴| 欧美一二三区在线观看| 亚洲综合一区中| 在线观看区一区二| 欧美一区二区三区不卡视频| 午夜久久久影院| 久久精品国产亚洲av麻豆色欲| 亚洲三级在线看| 777777国产7777777| 国产精品网曝门| 免费黄色在线网址| 中文字幕av在线一区二区三区| 国产精品美女高潮无套| 国产偷v国产偷v亚洲高清| 久久久久亚洲av无码专区桃色| 99久久精品免费看国产免费软件| av在线播放网址| 粉嫩aⅴ一区二区三区四区五区| 日本成人xxx| 国产一区二区精品久久91| 日本高清一区二区视频| 久久99国产精品久久99果冻传媒| gogogo高清免费观看在线视频| 九九在线精品视频| 亚洲热在线视频| 国产成人精品免费一区二区| 激情黄色小视频| 国产美女视频一区| 在线中文字日产幕| 99在线精品视频| 国产中年熟女高潮大集合| 国产日韩欧美精品电影三级在线| 久久久久亚洲AV成人无在| 亚洲欧洲av在线| 黄色一级片在线| 欧美日韩国产在线| 亚洲综合成人av| 宅男噜噜噜66一区二区66| 草草视频在线播放| 日韩第一页在线| 成人好色电影| 九九久久久久99精品| 女人高潮被爽到呻吟在线观看| 国产91色在线|免| www.久久爱.com| 国产尤物91| 精品久久久久久久久久久aⅴ| 在线视频福利一区| 一区在线视频| 国产三级三级三级看三级| 国产一区二区三区在线观看免费| 欧美做受高潮中文字幕| 久久理论电影网| 91免费公开视频| 午夜天堂影视香蕉久久| 做爰视频毛片视频| 精品少妇一区二区三区| 精品亚洲综合| 欧美丰满老妇厨房牲生活| 日韩中文影院| 999国产在线| 欧美日韩中文一区二区| 香港三级日本三级a视频| 久久国产99| japan高清日本乱xxxxx| 久久久久久综合| 全网免费在线播放视频入口| 欧美日韩中文在线观看| 国产乱码一区二区| 亚洲精品中文字幕av| 呦呦在线视频| 国产精品久久久av久久久| 粉嫩久久久久久久极品| 麻豆中文字幕在线观看| 鲁大师成人一区二区三区| 韩国三级hd中文字幕有哪些| 亚洲国产精品高清| 亚洲精品视频在线观看免费视频| 欧美日韩国产成人在线免费| 亚洲欧美丝袜中文综合| 欧美精品在线免费| 99九九久久| 美国av一区二区三区| 午夜精品av| 日韩成人精品视频在线观看| 久久久噜噜噜久久人人看 | 国产视频一区在线观看一区免费| 777一区二区| 久久久精品天堂| 日韩特黄一级片| 欧美一卡二卡在线| 欧美精品videos另类| 国产精品久久久久久久久久久久久久 | 欧美精选一区二区| 欧美日韩影视| 韩剧1988在线观看免费完整版| 免费精品一区| 在线视频福利一区| 麻豆极品一区二区三区| 免费一级做a爰片久久毛片潮| 精品成人乱色一区二区| 亚洲精品久久久蜜桃动漫| 欧美成人久久久| 国产精品一区二区美女视频免费看 | 日韩资源在线| 性亚洲最疯狂xxxx高清| 99久久人爽人人添人人澡| 欧美日韩中文字幕在线播放| 久久97超碰国产精品超碰| 国产午夜精品福利视频| 色综合天天综合网国产成人综合天 | 欧美一区二区三区久久久| 亚洲激情自拍图| 免费看男女www网站入口在线| 国产综合动作在线观看| 亚洲国产精品一区| 午夜免费福利影院| 亚洲mv在线观看| 五月激情婷婷综合| 5566日本婷婷色中文字幕97| 欧美精品密入口播放| 男女激情无遮挡| 久久久久亚洲蜜桃| 免费av中文字幕| www.国产一区| 欧美电影在线观看一区| 精品成在人线av无码免费看| 粉嫩高潮美女一区二区三区 | 欧美日本在线播放| 里番在线观看网站| 成人亚洲激情网| 国产真实久久| 色欲av无码一区二区三区| 在线亚洲+欧美+日本专区| 在线观看免费黄色| 91成人免费视频| 99热精品在线观看| 无码国产69精品久久久久同性| 欧美亚洲国产一区二区三区va| 调教视频免费在线观看| 北条麻妃高清一区| 国产欧美午夜| 美国美女黄色片| 日韩一级黄色片| 成人欧美magnet| 中文字幕中文字幕在线中一区高清| 国产成人精品三级| 99久久精品国产亚洲| 日韩视频免费观看| 盗摄牛牛av影视一区二区| 成年人小视频网站| 国产精品第一页第二页第三页 | 精品视频久久久| 欧美网站免费| 欧美精品自拍视频| 欧美国产视频在线| 亚洲av无码国产精品永久一区| 国产69久久精品成人| 91欧美日韩| 免费无码一区二区三区| 欧美三级韩国三级日本一级| 欧美6一10sex性hd| 日本在线观看一区二区| 国产精品一区二区久激情瑜伽| 亚洲天堂一区在线| 久久精品这里热有精品| 日本精品影院| 被黑人猛躁10次高潮视频|