精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Cursor為Blackwell從零構建MXFP8內核,MoE層提速3.5倍,端到端訓練提速1.5倍

人工智能 新聞
該團隊開發了一個自定義的 MXFP8 量化內核,他們稱這是目前用于 MoE 訓練的最快內核。

在構建更強大的 AI 模型的這場競賽中,傳統路徑很簡單:升級到最新最強大的硬件。但 Cursor 發現釋放下一代 GPU 的真正潛力遠非即插即用那么簡單。

在從 NVIDIA 的 Hopper H100s 升級到新旗艦 Blackwell B200s 后,該團隊遇到了一個「升級陷阱」:硬件性能翻倍,但實際訓練速度卻被 MoE 層的效率拖慢,新架構的設計反而放大了數據搬運和量化的開銷。

這就像給一輛賽車換上了動力翻倍的新引擎,卻發現原有的輪胎完全無法承載這股力量,導致速度反而下降。

他們的解決方案是回歸基礎,自己定制「賽車胎」:在 GPU 內核級別從零開始重寫整個混合專家(MoE)訓練層。

Cursor 不僅解決了瓶頸問題,還徹底釋放了 Blackwell 架構的潛能。通過拋棄對現有 CUDA 庫的依賴,他們能夠:

  • 直接針對 TMEM 的新特性設計數據流管線,避免無謂的寄存器搬運開銷;
  • 將量化與反量化邏輯融入內核計算流程,大幅壓縮了內存帶寬占用;
  • 優化 MXFP8 的 microscaling 實現,在保證訓練收斂質量的同時,把性能推到極限。

最終效果是:MoE 層在前向和反向傳播中都實現了 3.5 倍提速,端到端訓練速度在 Blackwell 上快了 1.5 倍,相比最初的 Hopper GPU 方案實現了 2 倍的加速。

飛書文檔 - 圖片

與 BF16 相比,MXFP8 MoE 的相對加速(歸一化為 1.0)。

Cursor 團隊在博客中詳細介紹了相關技術細節,并分享了他們的工程經驗和性能數據。

  • 博客地址:https://cursor.com/en/blog/kernels

為什么現有 MoE 內核在 Blackwell 上失效?

為了降低計算成本,模型訓練普遍采用低精度數據格式(如 FP8)。但簡單地將高精度數字(如 0.0001)轉換為 FP8 會導致其被四舍五入為零,丟失信息。

微縮放(MX)通過將張量(Tensor)分割成許多小數據塊(例如每 32 個元素一塊),并為每個塊計算一個獨立的縮放因子(scale factor)來解決這個問題。

MXFP8 量化示例:每個 1x32 塊共享一個縮放因子。

這樣,每個塊內的數據都能被有效縮放到 FP8 的可表示范圍內,從而在保留精度的同時享受低精度計算帶來的性能優勢。Cursor 使用的 MXFP8 就是這樣一種格式。

張量內存(TMEM)瓶頸

在 Hopper (H100) 架構上,張量核心的計算結果直接累積在寄存器中,后續的「反量化」等操作可以流暢地進行。

然而,Blackwell (B200) 引入了新的張量內存(TMEM)來存儲累加結果。這意味著任何自定義的算術操作都必須經歷一次低效的數據往返:TMEM → 寄存器 → CUDA 核心處理 → TMEM。

這種異步數據傳輸會在張量核心的計算管線中產生「氣泡」,大幅降低執行效率。更關鍵的是,盡管 Blackwell 的 FP8 張量核心吞吐量翻倍,其 CUDA 核心性能僅提升了約 33%,導致反量化速度嚴重滯后于計算速度。

該甘特圖截取自我們定制的 Blackwell 注意力核。第一行顯示了張量核心(QKT)的活動情況;第二行顯示了 CUDA 核心的活動情況(數據從 TMEM 加載至寄存器,然后執行 softmax)。從 TMEM 到寄存器的加載延遲,導致了張量核心出現流水線氣泡。

數據顯示,在特定配置下,Blackwell 上的反量化耗時是矩陣乘法本身的 1.76 倍,遠高于 Hopper 上的 1.03 倍。

Hopper 與 Blackwell 上的相對反量化成本。

被忽視的「量化稅」

除了 TMEM 瓶頸,數據「量化」過程本身也成了性能殺手。

以一個典型的 MoE 矩陣乘法為例,計算本身可能僅需 1.16 毫秒,但將輸入矩陣量化為 MXFP8 格式并寫回內存就需要搬運近 2.9 GB 的數據,耗時約 0.44 毫秒,占到計算時間的近 40%。

在反向傳播中,這個開銷因需要轉置-量化而翻倍,達到 0.88 毫秒,占比高達 76%。這意味著,如果優化不當,MXFP8 帶來的性能提升可能被完全抵消。

此外,現有的開源量化內核不僅帶寬利用率低,其生成的縮放因子(scale factor)布局還與 Blackwell 的硬件指令不兼容,需要額外的、拖慢性能的重塑操作。

Cursor 如何從零重寫MoE 層?

面對這些挑戰,并發現現有的開源庫(如 NVIDIA 的 TransformerEngine)并非最佳選擇,Cursor 團隊選擇放棄高層依賴,使用純 CUDA 和 PTX 匯編語言親自編寫 MoE 層的 GPU 代碼。

優化策略
  • 擁抱原生硬件指令

他們沒有與 TMEM 架構對抗,而是圍繞原生的 tcgen05.mma 指令構建內核。這使得 GPU 硬件自身能夠處理 MXFP8 所需的縮放,完全消除了 TMEM 和 CUDA 核心之間低效的數據移動。

  • 設計高效的數據流水線

他們實現了一個復雜的流水線,采用了諸如「Warp 專精」(將特定任務分配給不同的線程組)和 2-CTA(協同線程陣列)模式等技術。

Warp 專精將特定的任務分配給不同的線程組(Warp)。例如,Warp 0 負責從主內存加載數據到共享內存,Warp 1 負責加載縮放因子,Warp 2 負責將縮放因子從共享內存移至 TMEM,而 Warp 3 則專門負責啟動矩陣乘法計算。這使得各個環節可以高度并行。

2-CTA 模式允許兩個 GPU 流式多處理器(SM)協同完成單個矩陣乘法,通過共享 B 矩陣來減少內存流量,帶來了 15-20% 的性能提升。

  • 針對 MoE 工作負載進行優化

對于 MoE 訓練中特有的分組矩陣乘法,他們應用了一種名為「專家級超分組」的 L2 緩存優化啟發式算法。這確保了內存訪問模式保持高效,將標準矩陣乘法與分組矩陣乘法之間的性能下降限制在僅 4%。

「秘密武器」:量化內核與低精度配方

該團隊開發了一個自定義的 MXFP8 量化內核,他們稱這是目前用于 MoE 訓練的最快內核。微基準測試顯示,其內核持續的內存帶寬超過 6.2 TB/s,相比他們從現有開源工具測得的約 4.5 TB/s 有了顯著提升。

至關重要的是,他們的內核輸出的數據內存布局與 tcgen05.mma 指令所要求的完全一致,避免了其他工具所必需的、耗時的額外「重塑」步驟。

基于內存帶寬利用率的 MXFP8 量化內核比較(E4M3,32 塊大小的縮放)。

團隊還確定了一種特定的低精度「配方」,能夠在不影響訓練質量的情況下提供最高速度。通過使用元素類型為 FP8E4M3、塊大小為 32 的 MXFP8 格式,他們能夠使訓練損失的收斂情況與速度慢得多的 BF16 格式幾乎完全匹配。

團隊公布的訓練損失曲線顯示,兩種方法幾乎沒有區別,證明了性能的提升并未以犧牲準確性為代價。

BF16 與 MXFP8 訓練損失超過 10k 步:幾乎無法區分。

更多技術細節請閱讀原博客。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2021-02-17 13:20:51

forpandas語言

2020-05-01 12:35:31

C++Python編程

2018-03-28 14:10:10

GoPython代碼

2016-10-08 16:02:37

WIFIMegaMIMO系統

2021-03-18 15:29:10

人工智能機器學習技術

2016-03-21 10:16:06

RedisSpark大數據處理

2013-02-28 10:35:59

hadoop大數據Hortonworks

2014-09-25 21:53:30

戴爾

2022-08-09 09:10:31

TaichiPython

2013-09-24 09:40:41

Java圖形加速

2020-05-14 14:21:50

谷歌AI數據

2023-07-12 14:28:45

谷歌模型

2016-02-18 09:36:52

光纖wifi

2009-12-16 11:43:28

卡巴斯基NVIDIA Tesl

2025-06-03 17:37:49

模型訓練AI

2013-10-17 09:34:56

企業郵箱海外訪問提速

2021-05-17 09:57:42

Python 開發編程語言

2019-03-27 13:45:44

MySQL優化技巧數據庫

2010-12-01 14:36:16

趨勢科技Web信譽查詢

2022-07-18 17:37:27

字節跳動人工智能AI模型
點贊
收藏

51CTO技術棧公眾號

欧美成人二区| 九九热这里有精品视频| 欧美影视资讯| 国产精品久久久久久久久晋中 | 蜜臀久久99精品久久久画质超高清| 视频直播国产精品| 极品白嫩的小少妇| 91九色综合| 一区二区高清视频在线观看| 欧美一级二级三级九九九| 国产精品无码一区二区桃花视频| 亚洲国产免费| 久久精品国产96久久久香蕉| 国产麻豆天美果冻无码视频| 国产一区二区三区免费观看在线| 99精品女人在线观看免费视频| 日韩成人精品在线| 色综合久综合久久综合久鬼88| 成年人网站免费看| 精品国产乱码一区二区三区| 色婷婷亚洲婷婷| 欧美a级免费视频| yiren22综合网成人| 成人sese在线| 92国产精品久久久久首页| 免费看日批视频| 影音先锋久久久| yw.139尤物在线精品视频| 永久免费看mv网站入口78| 天堂精品在线视频| 在线不卡免费欧美| 亚洲精品一二三四五区| 一本大道色婷婷在线| 一区二区成人在线| 潘金莲一级淫片aaaaaa播放1| 黄色毛片在线观看| 91欧美一区二区| 国产精品一区二区不卡视频| 国产a级免费视频| 老鸭窝一区二区久久精品| 日本精品一区二区三区在线播放视频| 国产精品a成v人在线播放| 久久精品国内一区二区三区水蜜桃 | 欧美电影在线观看一区| 欧美日韩高清一区二区不卡 | 中文字幕av久久爽av| 三级电影一区| 深夜福利国产精品| 国产在视频线精品视频| 欧美一区三区| 一本色道久久88综合亚洲精品ⅰ | 国产精品不卡在线观看| 亚洲不卡一卡2卡三卡4卡5卡精品| 日本激情一区二区| 成人av在线资源| 国产精品一区二区三区在线| 日本激情视频网站| 成人av网站在线观看| 国产伦精品一区二区三区免 | 国产成人亚洲综合色影视| 成人国产在线视频| 一级全黄裸体免费视频| 精品一区二区三区的国产在线播放| 国产精品福利网| 国产精品无码粉嫩小泬| 蜜臂av日日欢夜夜爽一区| 国产欧美日韩精品专区| 亚洲一级在线播放| 乱一区二区av| 亚洲一区亚洲二区亚洲三区| 精品人妻久久久久一区二区三区| 国产一区二区不卡老阿姨| 成人深夜直播免费观看| 国产熟女一区二区三区五月婷| 精品一区二区久久久| 亚洲淫片在线视频| 亚洲欧美激情在线观看| 9i在线看片成人免费| 久久本道综合色狠狠五月| 黄色av网址在线免费观看| 国产色婷婷亚洲99精品小说| 宅男av一区二区三区| sm国产在线调教视频| 亚洲二区视频在线| av免费中文字幕| 老司机精品视频网| 日韩久久精品一区| 中文人妻一区二区三区| 日韩电影一区| 欧美精品在线免费| 看片网址国产福利av中文字幕| 每日更新成人在线视频| 国产欧美精品va在线观看| 亚洲精品网站在线| 国产午夜亚洲精品羞羞网站| 午夜探花在线观看| 国产资源在线观看入口av| 在线观看欧美黄色| 欧美日韩一区二区区| 日韩欧美在线精品| 日韩在线小视频| 久草免费新视频| 日本va欧美va精品| 国产欧美日韩综合一区在线观看| 黄色av网站在线| 亚洲影院久久精品| 天天影视综合色| 国偷自产av一区二区三区| 日韩精品免费一线在线观看| 亚洲熟妇一区二区三区| 888久久久| 日本一区二区在线播放| 国产农村老头老太视频| 久久久亚洲高清| 狠狠干视频网站| 美女写真久久影院| 日韩精品一区二区三区视频| 亚洲一区二区三区日韩| 欧美特黄一区| 成人网欧美在线视频| 久久精品蜜桃| 午夜精品爽啪视频| 青娱乐精品在线| 成人精品影院| 69影院欧美专区视频| 国产a级免费视频| 国产精品久久久久久亚洲伦| 免费毛片小视频| 亚洲精品一二三**| 久久久精品国产| 中国老头性行为xxxx| 96av麻豆蜜桃一区二区| 毛片av在线播放| 99国内精品久久久久| 伊人青青综合网站| 国产精品久久久久久人| eeuss鲁片一区二区三区在线观看 eeuss影院一区二区三区 | 日韩天堂在线视频| 蜜臀尤物一区二区三区直播| 99国内精品久久| 美女扒开大腿让男人桶| 日韩精品成人在线观看| 久久精品久久久久久国产 免费| 中文字幕1区2区3区| 国产亚洲一区字幕| 成熟老妇女视频| 神马香蕉久久| 91干在线观看| 性xxxxbbbb| 黄色精品一区二区| 少妇愉情理伦片bd| 亚洲情侣在线| 亚洲一区二区三区视频| 超碰在线caoporn| 91麻豆精品国产91久久久更新时间| 亚洲无人区码一码二码三码的含义| 男人的天堂成人在线| 久久一区二区三区欧美亚洲| 一区二区电影免费观看| 亚洲欧美在线x视频| www毛片com| 国产精品私人影院| www.污污视频| 女生裸体视频一区二区三区| 国产成人一区二区三区免费看| 日本aa在线| 亚洲成色777777女色窝| 国产污污视频在线观看| 久久久久99精品国产片| 蜜臀视频一区二区三区| 日韩免费在线| 成人av在线看| 成人国产精品久久久| 黄色在线观看网站| 日韩欧美国产系列| 国产无遮挡又黄又爽在线观看| av在线这里只有精品| 日本精品www| 91麻豆国产自产在线观看亚洲| 亚洲xxx自由成熟| 91九色美女在线视频| 日韩精品中文字幕久久臀| 午夜一级黄色片| 亚洲女厕所小便bbb| 欧亚乱熟女一区二区在线| 日韩有码一区二区三区| a级黄色片网站| 粉嫩久久久久久久极品| 国产suv精品一区二区| 欧美高清视频| 亚洲成色777777女色窝| 国模私拍一区二区| 夜夜嗨av一区二区三区| free性中国hd国语露脸| 蜜臀av国产精品久久久久| 日韩亚洲欧美一区二区| 九九久久电影| 亚洲一区二区自拍| av有声小说一区二区三区| 色综合视频一区中文字幕| 免费看男男www网站入口在线 | 久久久久久毛片| 色婷婷综合在线观看| av成人天堂| 中文字幕一区二区三区四区五区六区 | www.色天使| 国产精品一色哟哟哟| 一本大道熟女人妻中文字幕在线| 91精品福利| 欧美在线播放一区| 澳门精品久久国产| 国产久一一精品| 91福利在线免费| 久久久999精品视频| 欧美日韩视频精品二区| 欧美xxxx在线观看| 97超碰资源站| 日本二三区不卡| 久久精品国产亚洲av高清色欲 | 国产一级在线观看视频| 中文天堂在线一区| 免费的av网站| 国产成人精品亚洲午夜麻豆| 天天干天天玩天天操| 久久久久国产精品一区三寸| 福利视频一区二区三区四区| 91成人网在线观看| 亚洲精品成人久久久998| 免费成人结看片| 国产一区二区精品在线| 日韩一二三区| 亚洲free性xxxx护士白浆| 欧美色网在线| 日本精品久久电影| 超碰在线99| 久久久久久久久亚洲| 影音先锋男人资源在线| 久久久国产精品亚洲一区| 日韩免费啪啪| 一个人www欧美| 韩日视频在线| 亚洲人线精品午夜| 免费成人av电影| 亚洲精品美女免费| 天天色棕合合合合合合合| 欧美v日韩v国产v| 午夜精品小视频| 日韩欧美成人激情| 成人h动漫精品一区二区无码| 欧美久久久影院| 国产精品久久久久久免费| 欧美日韩精品一区二区三区 | 1区2区3区在线| 国内精品美女av在线播放| 国产精品国精产品一二| 久久久久久免费精品| 国产夫妻在线播放| 97色在线观看| 日韩欧美另类一区二区| 国产精品91在线观看| 成人开心激情| 国产美女扒开尿口久久久| 精品亚洲a∨| 成人免费网站在线| 亚洲网址在线观看| 精品视频导航| 国产午夜一区| 亚洲一区二区在| 女人天堂亚洲aⅴ在线观看| cao在线观看| 男人的天堂亚洲| 国产 porn| 国产一区二区三区美女| 中文字幕无人区二| 99国产精品99久久久久久| 免费看污片网站| 国产精品久久99| 麻豆chinese极品少妇| 欧美日韩久久久久| 中文字幕av影视| 日韩一级高清毛片| 天堂网在线中文| 亚洲天堂免费视频| 日本电影在线观看网站| 欧美高清电影在线看| 原纱央莉成人av片| 亚洲精品日产aⅴ| 欧美调教在线| 亚洲天堂电影网| 亚洲国产99| 毛片毛片毛片毛片毛片毛片毛片毛片毛片 | 亚洲欧洲www| 国产成人免费观看视频| 欧美亚洲高清一区二区三区不卡| 99久久精品日本一区二区免费| 亚洲成色777777在线观看影院| 草碰在线视频| 欧美大学生性色视频| 日本免费久久| 97久久天天综合色天天综合色hd| 亚洲第一福利社区| 精品一区二区成人免费视频 | 国产 欧美 自拍| 在线电影av不卡网址| 男女视频在线| 国产精品欧美一区二区三区奶水| 亚洲综合网狠久久| 亚洲免费精品视频| 夜夜嗨一区二区三区| 黄色小视频免费网站| 久久精品一区蜜桃臀影院| 九九热这里有精品视频| 欧美色男人天堂| 日本黄视频在线观看| 久久久av网站| 日韩成人高清| 精品视频第一区| 欧美破处大片在线视频| 人人干人人干人人| 91丝袜美腿高跟国产极品老师| 国产一区二区播放| 欧美午夜精品一区| 日韩毛片在线一区二区毛片| 欧美国产日韩一区二区在线观看| 国产一区精品福利| 品久久久久久久久久96高清| 亚洲三级电影在线观看| 波多野结衣三级视频| 自拍偷拍国产亚洲| 在线免费一级片| 日韩精品视频三区| 动漫一区二区| 97人人香蕉| 婷婷精品进入| 一级黄色特级片| 国产午夜精品一区二区三区嫩草 | 人人妻人人藻人人爽欧美一区| 亚洲国产aⅴ成人精品无吗| 99久久久久成人国产免费| 日韩一区二区在线视频| 777午夜精品电影免费看| 欧美久久电影| 丝袜亚洲精品中文字幕一区| 一二三不卡视频| 欧美日韩一区二区在线播放| 五月婷婷激情在线| 欧美亚洲成人精品| 精品一区免费| 999在线免费视频| 国产精品视频一二三| 国产99久久久久久免费看| 一区二区欧美久久| av成人亚洲| 一区二区三区四区| 黄色资源网久久资源365| 成人一级黄色大片| 日韩欧美中文字幕一区| 免费在线观看的电影网站| 国产一区在线观| 亚洲一区二区三区高清| 国产aⅴ激情无码久久久无码| 色婷婷综合久久久久中文一区二区| 免费在线看v| 国产区亚洲区欧美区| 亚洲电影影音先锋| 四虎永久免费观看| 黄网站色欧美视频| 免费在线国产| 成人在线视频网| 欧美va天堂| 国产中文字幕一区二区| 欧美在线999| av网站大全在线| 国产精品视频福利| 久久久久国产精品一区三寸| 永久免费毛片在线观看| 欧美一区二区免费| 美女网站在线看| 欧美一级爱爱| 国产九九视频一区二区三区| 日本亚洲色大成网站www久久| 亚洲欧美综合精品久久成人| 精品乱码一区二区三区四区| 妞干网在线播放| 久久久久国产精品免费免费搜索| 一区二区三区亚洲视频| 国语自产精品视频在线看抢先版图片| 先锋影音国产精品| 天天干天天色天天干| 欧美日韩国产激情| 欧美jizzhd欧美| 极品尤物一区二区三区| 蜜桃av一区二区| 天堂网av手机版| 久久在线免费视频| 亚洲性视频大全| 欧美精品 - 色网| 欧美日韩中文字幕在线| 免费在线看a| 欧美精品尤物在线|