精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DeepSeek開(kāi)源第三彈:驚人的300行代碼驅(qū)動(dòng)R1和V3的訓(xùn)練與推理,超越各種專家內(nèi)核

人工智能 新聞
這是由?DeepSeek-AI?團(tuán)隊(duì)精心打造的?FP8 通用矩陣乘法 (GEMM) 加速庫(kù),專為追求極致性能和代碼簡(jiǎn)潔而生。

DeepSeek開(kāi)源周第三彈!DeepSeek-AI 重磅發(fā)布高效FP8 GEMM庫(kù) DeepGEMM:極致性能,代碼精簡(jiǎn),助力V3/R1模型訓(xùn)練與推理!

簡(jiǎn)單來(lái)說(shuō)這是由 DeepSeek-AI 團(tuán)隊(duì)精心打造的 FP8 通用矩陣乘法 (GEMM) 加速庫(kù),專為追求極致性能和代碼簡(jiǎn)潔而生

圖片

我們一起來(lái)扒一扒:

Hopper GPU 上狂飆 1350+ FP8 TFLOPS!

在算力為王的 AI 時(shí)代,矩陣乘法 (GEMM) 的效率至關(guān)重要。DeepGEMM 正是為了解決這一痛點(diǎn)!它充分利用 NVIDIA Hopper 架構(gòu) GPU的強(qiáng)大算力,在 FP8 精度下,性能 高達(dá) 1350+ TFLOPS!這意味著更快的模型訓(xùn)練速度,更流暢的推理體驗(yàn),以及更低的計(jì)算成本!

DeepGEMM 不僅適用于傳統(tǒng)的 稠密模型,更完美支持 混合專家模型 (MoE) 的 GEMM 計(jì)算,無(wú)論是 DeepSeek-V3 還是 R1 模型,都能得到強(qiáng)力加速!

代碼極簡(jiǎn)!核心邏輯僅 300 行,堪比教程級(jí)!

你沒(méi)聽(tīng)錯(cuò)!DeepGEMM 的核心 kernel 函數(shù)代碼量?jī)H有 驚人的 ~300 行! DeepSeek-AI 團(tuán)隊(duì)秉持著 “大道至簡(jiǎn)” 的設(shè)計(jì)理念,在保證極致性能的同時(shí),力求代碼的 可讀性 和 可維護(hù)性。 即使是剛?cè)腴T(mén) CUDA 開(kāi)發(fā)的同學(xué),也能輕松理解 DeepGEMM 的實(shí)現(xiàn)原理,甚至可以作為學(xué)習(xí) Hopper FP8 矩陣乘法和優(yōu)化的絕佳教程!

無(wú)需編譯!完全 Just-In-Time (JIT) 編譯,即裝即用! ?

告別繁瑣的編譯過(guò)程!DeepGEMM 采用了 全 Just-In-Time (JIT) 編譯 技術(shù),所有 kernel 都在運(yùn)行時(shí)動(dòng)態(tài)編譯,無(wú)需在安裝時(shí)進(jìn)行任何預(yù)編譯。 這意味著你可以 即裝即用 DeepGEMM,省去了大量的配置和編譯時(shí)間,讓你可以更專注于模型開(kāi)發(fā)和實(shí)驗(yàn)。

DeepGEMM 的 JIT 設(shè)計(jì)還帶來(lái)了額外的優(yōu)勢(shì):它可以根據(jù)不同的 GEMM 形狀、block size 等參數(shù)進(jìn)行 動(dòng)態(tài)優(yōu)化,始終選擇最佳的 kernel 配置,保證在各種場(chǎng)景下都能發(fā)揮出最佳性能。

?? 硬核技術(shù)解析:DeepGEMM 的性能秘訣

DeepGEMM 在代碼簡(jiǎn)潔的同時(shí),性能卻能比肩甚至超越一些專家調(diào)優(yōu)的庫(kù),這背后離不開(kāi)一系列硬核技術(shù)的加持:

  • 精細(xì)粒度 Scaling (Fine-grained Scaling): DeepGEMM 采用了 DeepSeek-V3 論文中提出的精細(xì)粒度 scaling 技術(shù),更有效地利用 FP8 的動(dòng)態(tài)范圍,提升計(jì)算精度和性能
  • CUDA-core 雙層累加 (Two-level Accumulation): 為了解決 FP8 tensor core 累加精度不足的問(wèn)題,DeepGEMM 巧妙地使用了 CUDA-core 雙層累加技術(shù),保證了計(jì)算結(jié)果的準(zhǔn)確性
  • Persistent Warp-specialization (持久 Warp 特化): 借鑒 CUTLASS 的設(shè)計(jì)思想,DeepGEMM 的 kernel 進(jìn)行了 warp 特化,實(shí)現(xiàn)了數(shù)據(jù)移動(dòng)、tensor-core MMA 指令和 CUDA-core promotion 的高效重疊,最大化利用硬件資源
  • Tensor Memory Accelerator (TMA): DeepGEMM 充分利用 Hopper 架構(gòu)引入的 TMA 特性,加速 LHS、RHS 矩陣和 scaling factor 的加載,以及輸出矩陣的存儲(chǔ),實(shí)現(xiàn)更快的數(shù)據(jù)訪問(wèn)速度
  • 統(tǒng)一優(yōu)化 Block Scheduler 和 Rasterization (柵格化): DeepGEMM 采用統(tǒng)一的 block scheduler,并結(jié)合 Rasterization 技術(shù),提升 L2 cache 的復(fù)用率,進(jìn)一步優(yōu)化性能
  • FFMA SASS Interleaving: DeepGEMM 甚至深入到 SASS 匯編層面進(jìn)行優(yōu)化,通過(guò)調(diào)整 FFMA 指令的 interleaving 模式,提升 warp 級(jí)別的并行度,榨干硬件的每一絲潛力

DeepGEMM 雖然借鑒了 CUTLASS 和 CuTe 的一些概念,但它并沒(méi)有過(guò)度依賴于復(fù)雜的模板或代數(shù)庫(kù),而是更加注重 簡(jiǎn)潔性 和 易用性。 這使得 DeepGEMM 不僅是一個(gè)高性能的計(jì)算庫(kù),更是一個(gè)學(xué)習(xí) Hopper FP8 矩陣乘法和優(yōu)化的優(yōu)秀資源

?? 實(shí)測(cè)性能數(shù)據(jù):實(shí)力說(shuō)話! ??

DeepGEMM 的性能究竟如何?我們用數(shù)據(jù)說(shuō)話!在 DeepSeek-V3/R1 模型常用的各種 shape 上,DeepGEMM 都展現(xiàn)出了驚人的性能:

  • ? Normal GEMMs for dense models (稠密模型 GEMM)

M

N

K

Computation

Memory bandwidth

Speedup

64

2112

7168

206 TFLOPS

1688 GB/s

2.7x

64

24576

1536

289 TFLOPS

2455 GB/s

1.7x

...

...

...

...

...

...

4096

7168

2048

1025 TFLOPS

697 GB/s

1.1x

  • ? Grouped GEMMs for MoE models (contiguous layout) (MoE 模型 GEMM - 連續(xù)布局)

#Groups

M per group

N

K

Computation

Memory bandwidth

Speedup

4

8192

4096

7168

1297 TFLOPS

418 GB/s

1.2x

4

8192

7168

2048

1099 TFLOPS

681 GB/s

1.2x

...

...

...

...

...

...

...

8

4096

7168

2048

1093 TFLOPS

743 GB/s

1.1x

  • ? Grouped GEMMs for MoE models (masked layout) (MoE 模型 GEMM - Masked 布局)

#Groups

M per group

N

K

Computation

Memory bandwidth

Speedup

1

1024

4096

7168

1233 TFLOPS

924 GB/s

1.2x

1

1024

7168

2048

925 TFLOPS

968 GB/s

1.2x

...

...

...

...

...

...

...

4

256

7168

2048

815 TFLOPS

2047 GB/s

1.2x

從數(shù)據(jù)中可以看出,DeepGEMM 在各種矩陣 shape 下都表現(xiàn)出色,速度提升明顯! ??

快速上手 DeepGEMM:只需幾步!

想要體驗(yàn) DeepGEMM 的強(qiáng)大性能? 上手非常簡(jiǎn)單!

環(huán)境要求:

  • ? NVIDIA Hopper 架構(gòu) GPU (sm_90a)
  • ? Python 3.8+
  • ? CUDA 12.3+ (推薦 12.8+ 獲得最佳性能)
  • ? PyTorch 2.1+
  • ? CUTLASS 3.6+ (可以通過(guò) Git submodule 克隆)

安裝步驟:

  1. 1. 克隆 DeepGEMM 代碼庫(kù) (需要遞歸克隆 submodule):
git clone --recursive https://github.com/deepseek-ai/DeepGEMM.git
  1. 2. 創(chuàng)建 third-party 庫(kù)的符號(hào)鏈接 (CUTLASS 和 CuTe):
python setup.py develop
  1. 3. 測(cè)試 JIT 編譯:
python tests/test_jit.py
  1. 4. 測(cè)試所有 GEMM 實(shí)現(xiàn) (normal, contiguous-grouped, masked-grouped):
python tests/test_core.py
  1. 5. 安裝 DeepGEMM:
python setup.py install

安裝完成后,只需在你的 Python 項(xiàng)目中 import deep_gemm 即可開(kāi)始使用!

寫(xiě)在最后:

?? 項(xiàng)目地址:

https://github.com/deepseek-ai/DeepGEMM

DeepGEMM 現(xiàn)已以MIT許可方式正式開(kāi)源!

DeepGEMM 的靈感來(lái)自 CUTLASS 項(xiàng)目

責(zé)任編輯:張燕妮 來(lái)源: AI寒武紀(jì)
相關(guān)推薦

2025-02-26 11:16:18

2025-03-03 08:17:00

DeepSeek模型數(shù)據(jù)

2025-02-26 11:13:51

2025-02-26 10:24:51

2025-07-08 08:53:00

2025-09-02 10:17:07

2025-03-20 09:00:00

DeepSeek架構(gòu)V3/R1

2024-12-27 09:50:00

模型數(shù)據(jù)測(cè)試

2025-03-03 09:00:00

DeepSeekAI人工智能

2024-12-30 20:32:36

2025-03-12 13:55:05

2025-07-04 09:08:00

AI模型架構(gòu)

2025-01-27 12:30:07

2025-02-17 09:33:00

AI算法模型

2025-03-06 10:14:39

2025-01-21 11:53:53

2025-02-20 15:32:28

2025-02-03 14:17:27

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

这里只有精品丝袜| 精品久久久中文| 亚洲最大的av网站| 日本在线小视频| 奇米影视亚洲| 亚洲电影av在线| 牛夜精品久久久久久久| 中日韩高清电影网| 久久久久久黄色| 91欧美激情另类亚洲| 自拍偷拍欧美亚洲| 亚洲精品国产成人影院| 亚洲欧美日韩精品| 亚洲熟妇一区二区| 成人亚洲免费| 大伊人狠狠躁夜夜躁av一区| 欧美一级黄色录像片| 久久国产精品72免费观看| 欧美猛男男办公室激情| 欧美精品久久久久久久自慰| eeuss影院在线播放| 国产高清在线精品| 国产精品情侣自拍| 欧美一级视频免费观看| 综合天天久久| 日韩中文字幕在线| 色无极影院亚洲| 国产精品自在线拍| 91精品在线免费观看| 午夜免费福利在线| 亚洲日本天堂| 五月天网站亚洲| 亚洲小说欧美另类激情| 香蕉视频网站在线观看| 久久精品在线观看| 国产精品有限公司| 亚洲h视频在线观看| 久久成人久久爱| 国产精品成人一区二区| 特黄视频免费看| 夜久久久久久| 韩国福利视频一区| 国产无遮挡又黄又爽| 韩国一区二区三区在线观看| 欧美大片在线免费观看| 久草视频中文在线| 国产精品久久久久无码av| 自拍视频国产精品| 五月婷六月丁香| 欧美日韩亚洲在线观看| 国产一区二区三区精品久久久| 成人网站免费观看| 自拍偷拍精品| 亚洲视频欧洲视频| 我不卡一区二区| 欧美色图激情小说| 在线播放国产一区二区三区| 久久久免费看片| 久久国产亚洲精品| 久久精品亚洲国产| 欧美日韩成人免费观看| 欧美精品一级| 91国产一区在线| 可以在线观看av的网站| 久久精品中文| 国产精品美女主播在线观看纯欲| 免费在线观看av的网站| 经典一区二区三区| 亚洲精品欧美日韩| 黄片毛片在线看| 97久久超碰国产精品| 青青影院一区二区三区四区| 98在线视频| 亚洲日本在线视频观看| 国产一区二区片| 末成年女av片一区二区下载| 日本丰满少妇一区二区三区| 亚洲天堂2018av| 国内不卡的一区二区三区中文字幕| 日韩精品中文字幕在线一区| 熟女人妻在线视频| 第一社区sis001原创亚洲| 欧美精品一区二区三区国产精品| 国产精品6666| 免费成人av在线| 99re视频在线播放| 日av在线播放| 综合色天天鬼久久鬼色| 免费拍拍拍网站| 成人做爰免费视频免费看| 欧美一区二区在线看| 成熟妇人a片免费看网站| 国产中文精品久高清在线不| 久久色在线播放| 日韩精品在线免费看| 日韩av二区在线播放| 亚洲a∨日韩av高清在线观看| 少妇一区二区三区四区| 国产精品美女久久久久久2018 | 国产精品高潮呻吟| 免费人成自慰网站| 国外成人福利视频| 日韩电影免费观看在线观看| 日韩在线一卡二卡| 国产精品美女久久久| 91色在线观看| 国产高清美女一级毛片久久| 亚洲午夜激情网站| 一级黄色特级片| 亚洲国产网址| 欧美日产国产成人免费图片| 羞羞色院91蜜桃| 99视频精品全部免费在线| 亚洲一区二区三区四区中文| 午夜激情在线播放| 欧美成人video| 日本黄区免费视频观看| 亚洲一区成人| 波多野结衣久草一区| 在线毛片网站| 在线观看成人小视频| av网页在线观看| 欧美1区2区| 成人欧美一区二区三区黑人| 国产最新视频在线观看| 五月天亚洲婷婷| 波多野结衣办公室双飞| 综合天堂av久久久久久久| 国产在线一区二区三区| 国产在线免费观看| 日韩欧美高清在线视频| 久久久久亚洲AV成人无码国产| 91精品久久久久久久蜜月| 国产精品欧美一区二区| 国产福利在线| 91国产免费看| 色哟哟精品观看| 久久精品亚洲| 日韩精品国内| 天然素人一区二区视频| 亚洲欧美日韩爽爽影院| 国产精品久免费的黄网站| 9人人澡人人爽人人精品| 日韩精品视频在线观看视频| 亚洲小说春色综合另类电影| 色综合久久天天综线观看| 99精品人妻无码专区在线视频区| 自拍偷拍国产精品| 天堂在线一区二区三区| 欧美 日韩 国产 一区| 成人动漫视频在线观看完整版| 18av在线视频| 日韩精品在线一区二区| 精品亚洲永久免费| 99久久精品免费看| 动漫av网站免费观看| 免费看成人吃奶视频在线| 国产91免费看片| 黄色片在线免费观看| 欧美午夜片在线看| 91制片厂在线| 国产河南妇女毛片精品久久久| 国产一区二区三区在线免费| 动漫av一区| 热久久这里只有精品| 久草在线青青草| 欧美日韩一区国产| 动漫性做爰视频| 懂色av一区二区三区蜜臀 | 草美女在线观看| 日韩激情片免费| 久久久精品毛片| 成人免费在线视频| 野战少妇38p| 久久九九精品| 亚洲一区不卡在线| 视频一区日韩精品| 欧美亚洲另类激情另类| av在线首页| 日韩精品中午字幕| 久久国产视频精品| 国产精品盗摄一区二区三区| 蜜桃视频无码区在线观看| 制服诱惑一区二区| 午夜一区二区三视频在线观看| 美女国产精品久久久| 91国偷自产一区二区三区的观看方式| 大乳在线免费观看| 日韩视频一区二区三区在线播放| 国产黄色片免费看| 国产欧美一区二区在线| 91精品人妻一区二区三区四区| 国产日韩1区| 一级全黄肉体裸体全过程| 红杏成人性视频免费看| 国产精品十八以下禁看| 91黄页在线观看| 日韩中文娱乐网| 香蕉久久一区二区三区| 欧美精品久久久久久久久老牛影院 | 国产黄a三级三级三级| 日韩欧美福利视频| 久久中文字幕在线观看| 国产精品麻豆欧美日韩ww| 亚洲少妇中文字幕| 开心九九激情九九欧美日韩精美视频电影| 久久香蕉视频网站| 成人区精品一区二区婷婷| 国产一区二区免费电影| 国产欧美视频在线| 国产精品国语对白| 91av亚洲| 久久久久久国产免费| 久操视频在线免费播放| 亚洲深夜福利视频| 日韩一二三四| 精品国产一区二区三区久久久蜜月 | 日本欧美精品久久久| 亚洲色图日韩av| 亚洲国产成人91精品| 无码人妻精品一区二区蜜桃色欲 | 国产传媒一区| 91麻豆精品国产综合久久久 | 久草精品视频| 3d动漫精品啪啪一区二区三区免费 | 国产精品亚洲片夜色在线| 日产福利视频在线观看| 欧美国产第二页| 91在线中文| 久久精品视频网站| 快射av在线播放一区| 中文字幕无线精品亚洲乱码一区| 免费在线视频一级不卡| 亚洲精品第一国产综合精品| 亚洲精品国产精| 精品三级av在线| 亚洲av无码乱码国产麻豆 | 国产精品亚洲网站| 亚洲欧美在线成人| 国产精品久久久久久久久免费看 | 精品捆绑美女sm三区| 精品人妻一区二区三区浪潮在线| 制服丝袜成人动漫| av加勒比在线| 日韩亚洲欧美成人一区| 99国产精品一区二区三区| 日韩欧美一区二区在线视频| 国产视频在线观看免费| 日韩区在线观看| 亚洲AV无码精品自拍| 亚洲黄色片网站| 日韩欧美亚洲系列| 亚洲一级一级97网| 69av亚洲| 欧美成人手机在线| av在线网页| 欧洲精品久久久| 国产成人精品一区二三区在线观看 | 一区二区三区高清在线观看| 国产九区一区在线| 神马久久av| 日韩理论片在线观看| 日韩免费在线| 亚洲色图都市激情| 精品999成人| 99精品视频在线看| 免费观看在线色综合| 91福利免费观看| 成人综合在线观看| 精品人妻无码一区二区三区| 中文字幕 久热精品 视频在线 | freemovies性欧美| 久久久精品免费| gogo高清在线播放免费| 人妖精品videosex性欧美| abab456成人免费网址| 91麻豆国产语对白在线观看| 亚洲精品aⅴ| 欧美乱偷一区二区三区在线| 国产又粗又大又爽视频| 这里是久久伊人| 亚洲免费国产视频| 亚洲美女视频网| 欧美三级电影一区二区三区| 欧美日韩高清在线观看| 手机在线观看av网站| 国产精品视频精品| 日韩视频一二区| 狼狼综合久久久久综合网| 日韩精品电影| 草b视频在线观看| 久久不射中文字幕| 污污网站免费看| 成人国产免费视频| 日本在线观看网址| 午夜a成v人精品| 中文字幕av网站| 精品国产91乱码一区二区三区 | 尤物av无码色av无码| 蜜桃在线一区二区三区| 男人的天堂影院| 中文字幕第一区第二区| 日本少妇裸体做爰| 91精品国产综合久久久蜜臀图片| 午夜视频免费在线| 美日韩精品免费视频| 成人黄色免费网站| 精品国产一区二区三区四区精华| 国产精品99久久精品| 1024精品视频| 国产成a人亚洲| 懂色av粉嫩av蜜臀av一区二区三区| 欧美日韩国产精品专区| 国产成人精品毛片| 色婷婷综合久久久久中文字幕1| segui88久久综合9999| 成人精品视频99在线观看免费 | 91国在线高清视频| 久久成人羞羞网站| 公肉吊粗大爽色翁浪妇视频| 婷婷一区二区三区| 亚洲第一页视频| 精品国产拍在线观看| 四虎成人在线| 欧美日韩免费高清| 亚洲精品少妇| 亚洲av无码一区东京热久久| 亚洲毛片av在线| 在线视频1卡二卡三卡| 亚洲视频axxx| 国产精品高清乱码在线观看| 欧美欧美一区二区| 免费永久网站黄欧美| 国产国语性生话播放| 精品国产91久久久| 搡老岳熟女国产熟妇| 国外成人性视频| 国产成人精品福利| 亚洲国产成人精品无码区99| 国产成人精品免费视频网站| 加勒比av在线播放| 欧美一区二区三区色| 中文在线免费| av资源一区二区| 黄色亚洲免费| 色哟哟无码精品一区二区三区| 亚洲一区二区精品视频| 天堂中文在线看| 日韩av电影手机在线| 国产麻豆一区二区三区精品视频| 一本大道熟女人妻中文字幕在线 | 午夜剧场免费在线观看| 欧美电影在线免费观看| 麻豆影视国产在线观看| 1卡2卡3卡精品视频| 亚洲激情二区| 97人妻精品一区二区免费| 91国偷自产一区二区三区观看| 狠狠色噜噜狠狠色综合久 | 狠狠躁夜夜躁av无码中文幕| 欧美高跟鞋交xxxxhd| jizz久久精品永久免费| 日本免费不卡一区二区| 久久精品夜夜夜夜久久| 中文字幕在线2018| 美女999久久久精品视频| 亚洲国产一区二区三区网站| 久久综合色视频| 国产欧美精品一区| 精品欧美在线观看| 97在线看免费观看视频在线观看| 国产欧美一区二区精品久久久| 黄色手机在线视频| 一区二区三区色| 青青国产在线| 91精品国产自产在线观看永久| 欧美色一级片| 国产高清一区二区三区四区| 欧美久久久久久蜜桃| 成人爽a毛片免费啪啪动漫| 欧美日韩无遮挡| 精品一区二区国语对白| 日韩精品一区二区在线播放| 尤物九九久久国产精品的特点 | 久草视频在线免费看| 亚洲欧美国内爽妇网| 久久久久亚洲精品中文字幕| 色欲av无码一区二区人妻| **性色生活片久久毛片| 亚洲 欧美 精品| 国产日韩欧美日韩| 99国产精品视频免费观看一公开| 国产午夜福利一区| 精品99一区二区| 成人一级视频| 欧美日韩福利在线| 日韩美女视频一区| 久草在线网址| 国产亚洲情侣一区二区无| 久久99国产精品麻豆|