精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

清華開源混合精度推理系統(tǒng)MixQ,實(shí)現(xiàn)大模型近無損量化并提升推理吞吐

人工智能
MixQ同時(shí)量化權(quán)重和激活,使用低精度張量核心(INT8/INT4 Tensor Core)實(shí)現(xiàn)推理加速;同時(shí),MixQ提取激活中少量的離群值,使用高精度張量核心(FP16 Tensor Core)保持推理準(zhǔn)確性,通過系統(tǒng)優(yōu)化掩蓋高精度訪存開銷。

一鍵部署LLM混合精度推理,端到端吞吐比AWQ最大提升6倍!

清華大學(xué)計(jì)算機(jī)系PACMAN實(shí)驗(yàn)室發(fā)布開源混合精度推理系統(tǒng)——MixQ

MixQ支持8比特和4比特混合精度推理,可實(shí)現(xiàn)近無損的量化部署提升推理的吞吐。

圖片圖片

△圖1 MixQ吞吐與已有開源工作比較

MixQ同時(shí)量化權(quán)重和激活,使用低精度張量核心(INT8/INT4 Tensor Core)實(shí)現(xiàn)推理加速;同時(shí),MixQ提取激活中少量的離群值,使用高精度張量核心(FP16 Tensor Core)保持推理準(zhǔn)確性,通過系統(tǒng)優(yōu)化掩蓋高精度訪存開銷。

不僅保持推理的準(zhǔn)確性,而且通過使用低精度算力有效提升吞吐,充分發(fā)揮硬件計(jì)算潛力(圖1)

同時(shí),研究團(tuán)隊(duì)提供了基于VLLM和Tensorrt-LLM的混合精度推理,用戶可以方便地一鍵部署模型。

圖2 使用VLLM一鍵部署4比特和8比特混合精度量化并推理圖2 使用VLLM一鍵部署4比特和8比特混合精度量化并推理

MixQ已支持多個(gè)主流大模型LLaMA3,Qwen2,Baichuan2,ChatGLM等。據(jù)了解,目前MixQ開源技術(shù)已被清程極智等AI行業(yè)公司應(yīng)用在實(shí)際產(chǎn)品中。

該工作同時(shí)于高性能計(jì)算領(lǐng)域頂級(jí)國際會(huì)議SC’24發(fā)表,第一作者清華大學(xué)博士后陳逸東、通訊作者為翟季冬教授。

圖片圖片

研究背景:已有量化技術(shù)總結(jié)

量化的主要技術(shù)路線有兩條,第一條是權(quán)重量化。

權(quán)重量化的理論加速比是16/量化的比特?cái)?shù)。例如,將模型壓縮成為4bit,那么理論加速比為16/4=4倍。

然而,當(dāng)服務(wù)商面臨大量的用戶同時(shí)訪問時(shí),權(quán)重量化的系統(tǒng)吞吐會(huì)低于FP16的吞吐,其主要原因是權(quán)重量化計(jì)算過程中將低精度權(quán)重恢復(fù)成FP16然后計(jì)算,這導(dǎo)致權(quán)重量化并不使用低精度算力,當(dāng)場景表現(xiàn)為compute bound的時(shí)候,性能較低。

△圖3 用戶請(qǐng)求多權(quán)重量化吞吐低于FP16△圖3 用戶請(qǐng)求多權(quán)重量化吞吐低于FP16


第二條技術(shù)路線是量化權(quán)重和激活,使用低精度的張量核心來提升系統(tǒng)的吞吐。

直接將激活量化為低比特可能會(huì)出現(xiàn)較大的精度損失。其原因在于激活矩陣中存在離群值(圖4)。

一個(gè)有效的方法是SmoothQuant,主要思想是通過平滑激活矩陣來降低量化激活的誤差。

△圖4 激活矩陣中存在離群值△圖4 激活矩陣中存在離群值

混合精度量化則是一類全新的量化方法,該方案先做了一個(gè)矩陣分解,對(duì)絕大部分權(quán)重和激活用低比特存儲(chǔ),將離群值用FP16存儲(chǔ),分別做矩陣乘法。

圖片圖片

△圖5 混合精度量化示意圖△圖5 混合精度量化示意圖

混合精度量化的一個(gè)優(yōu)勢就是可以實(shí)現(xiàn)近乎無損精度的量化。使用混合精度量化的LlaMA模型在MMLU 20個(gè)領(lǐng)域上的數(shù)據(jù)集進(jìn)行推理準(zhǔn)確率測試表明,采用8bit混合精度量化后的準(zhǔn)確率下降不到0.1%

圖6 混合精度量化分類準(zhǔn)確率圖6 混合精度量化分類準(zhǔn)確率

不過,此前已有的混合精度量化的系統(tǒng)的性能普遍不高,主要瓶頸在針對(duì)離群點(diǎn)進(jìn)行查找、訪存和計(jì)算的開銷占比大。

以混合精度庫Bitsandbytes為例,實(shí)測試表明,Bitsandbytes在用戶請(qǐng)求數(shù)量為512時(shí)僅有1.08倍的加速。

圖7 Bitsandbytes的在LLaMA70B上的Kernel性能測試圖7 Bitsandbytes的在LLaMA70B上的Kernel性能測試

圖8 Atomic operator是混合精度推理系統(tǒng)的瓶頸之一圖8 Atomic operator是混合精度推理系統(tǒng)的瓶頸之一

那么,如何優(yōu)化對(duì)離群點(diǎn)的查找、訪存和計(jì)算的開銷呢?

MixQ的解決方案

MixQ的核心思想是基于離群點(diǎn)的局部性對(duì)混合精度的計(jì)算圖做等價(jià)變換,使得變換后的混合精度的計(jì)算圖可以避免離群點(diǎn)查找的額外開銷;在此基礎(chǔ)上,通過圖層融合和設(shè)計(jì)高效的混合精度數(shù)據(jù)結(jié)構(gòu)降低訪存開銷;最后通過CUTLASS生成高性能的混合精度算子,達(dá)到提升系統(tǒng)性能的效果。

MixQ的設(shè)計(jì)基于以下的觀察:

離群點(diǎn)的局部性。對(duì)LLM的激活矩陣分析發(fā)現(xiàn),在不同的decode階段的離群點(diǎn)的分布是有規(guī)律的

如圖9,紅色的點(diǎn)表示的是第一次出現(xiàn)的離群點(diǎn),綠色的點(diǎn)表示的是重復(fù)出現(xiàn)的離群點(diǎn),隨著decode的進(jìn)行,多數(shù)離群點(diǎn)出現(xiàn)在了固定的channel。

圖9 decode階段離群點(diǎn)的分布規(guī)律

因此,研究人員得到一個(gè)重要的結(jié)論:在大部分的decode階段是不需要重復(fù)檢測離群點(diǎn)的,也就是說我們可以避免檢查離群點(diǎn)的開銷。

剩下的問題是,如何知道哪些時(shí)候不需要重復(fù)檢查離群點(diǎn)呢?這個(gè)答案就隱藏在量化系數(shù)中。

在量化的過程中需要對(duì)矩陣進(jìn)行amax的操作。因此,通過amax得到的結(jié)果可以判斷矩陣中是否存在離群點(diǎn)。如amax的值大于閾值,那矩陣中存在離群點(diǎn)。反之則不存在。

更重要的是,amax操作可以和前一個(gè)操作融合。這樣不僅以極低的代價(jià)檢測離群點(diǎn)的存在,還通過對(duì)圖層進(jìn)行融合來降低量化的開銷。

基于以上的分析,MixQ的設(shè)計(jì)使用了三個(gè)關(guān)鍵技術(shù):

一是對(duì)計(jì)算圖的等價(jià)變換

針對(duì)混合精度的計(jì)算邏輯進(jìn)行了等價(jià)變換以后,通過計(jì)算激活矩陣的amax的值,避免了檢測離群點(diǎn)的開銷。

圖片圖片

圖10 優(yōu)化混合精度的計(jì)算邏輯圖10 優(yōu)化混合精度的計(jì)算邏輯

二是設(shè)計(jì)混合精度數(shù)據(jù)結(jié)構(gòu)

MixQ將離群點(diǎn)“拼接”成了一個(gè)新的矩陣。這一方法相較于ATOM采用的重排列(reorder)具有更低的開銷。

圖11 MixQ:order-reserved數(shù)據(jù)結(jié)構(gòu)圖11 MixQ:order-reserved數(shù)據(jù)結(jié)構(gòu)

三是使用CUTLASS編寫高性能的混合精度的算子,這一關(guān)鍵技術(shù)的實(shí)現(xiàn)依賴于NVIDIA提供的高性能矩陣乘法模板CUTLASS 3.x。

MixQ在寄存器中反量化低精度的計(jì)算結(jié)果并與高精度的結(jié)果進(jìn)行相加。

圖12 融合dequantize、scale和add操作圖12 融合dequantize、scale和add操作

下面來看MixQ的實(shí)驗(yàn)結(jié)果,以LLaMA 70B為例。

在準(zhǔn)確率表現(xiàn)方面,MixQ的準(zhǔn)確率和Bitsandbytes一致。

圖13 MixQ的推理精度圖13 MixQ的推理精度

在性能表現(xiàn)方面,MixQ 8bit kernel是Bitsandbytes的1.9倍。

MixQ 4bit Kernel的性能達(dá)724TFLOPs,是FP16的3.13倍。

圖片圖片

△圖14 MixQ Kernel性能

端到端測試下,MixQ在batch=512相對(duì)Bitsandbytes和AWQ加速1.78和6倍。

圖片圖片

圖15 多batch測試;上:MIXQ的推理輸出(19.21it/s);下:FP16的推理輸出 (1圖15 多batch測試;上:MIXQ的推理輸出(19.21it/s);下:FP16的推理輸出 (1

項(xiàng)目地址:
[1]https://github.com/Qcompiler/MixQ_Tensorrt_LLM

[2]https://github.com/Qcompiler/MIXQ
[3]https://github.com/Qcompiler/vllm-mixed-precision


責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2025-06-16 14:41:07

模型開源AI

2025-08-29 01:15:00

大模型Arrow自適應(yīng)

2023-06-20 13:44:49

清華推理

2023-05-30 14:17:00

模型推理

2025-04-30 16:48:07

2022-06-01 16:47:53

AI模型開源

2024-08-13 14:20:00

模型數(shù)據(jù)

2025-09-15 09:43:33

分層推理模型循環(huán)網(wǎng)絡(luò)推理

2023-12-14 13:30:00

AI模型

2025-05-29 03:00:00

混合推理模型LHRMAI

2025-02-13 08:51:23

DeepSeek大模型

2025-10-14 08:58:00

2025-03-14 11:56:52

2025-01-15 10:28:21

2025-07-08 03:11:00

2023-01-05 09:33:37

視覺模型訓(xùn)練

2025-04-08 09:16:00

推理模型AI

2025-09-26 07:49:10

2024-09-23 08:20:00

模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

色综合天天做天天爱| av不卡在线观看| 中文字幕亚洲欧美日韩在线不卡| 一本色道久久亚洲综合精品蜜桃| 欧美激情午夜| 国产91精品一区二区| 日本aⅴ大伊香蕉精品视频| 国产7777777| 视频欧美一区| 在线观看免费亚洲| 国产制服91一区二区三区制服| 日韩永久免费视频| 久久超碰97中文字幕| 久久久久中文字幕2018| 亚洲一级黄色录像| 成人高潮视频| 欧美日韩免费在线视频| 99在线免费视频观看| 888av在线| 99久久免费国产| 亚洲精品日韩av| 亚洲成熟少妇视频在线观看| 欧美日韩国产成人精品| 在线观看欧美日韩国产| 国产毛片毛片毛片毛片毛片毛片| 成人黄色毛片| 欧美日韩国产一区二区| 50度灰在线观看| 成人资源www网在线最新版| 成人性生交大片免费| 国产欧美韩国高清| 69成人免费视频| 欧美三级特黄| 日韩中文字幕精品| 五月天精品视频| 国产丝袜一区| 日韩一区二区电影网| 免费涩涩18网站入口| 中文不卡1区2区3区| 亚洲午夜日本在线观看| 一区二区三区四区久久| 国产女人在线视频| 99re66热这里只有精品3直播| 92福利视频午夜1000合集在线观看| 亚洲av无码精品一区二区| 尹人成人综合网| 欧美激情久久久久| 懂色av懂色av粉嫩av| 91一区二区| 日韩在线播放av| 日本猛少妇色xxxxx免费网站| 亚洲免费福利一区| 日韩精品久久久久| 野花社区视频在线观看| 国产精品45p| 欧美成va人片在线观看| 自拍偷拍激情视频| 亚洲国产中文在线二区三区免| 欧美群妇大交群中文字幕| 亚洲国产精品毛片av不卡在线| 性欧美18xxxhd| 欧美日韩亚洲国产一区| 日日鲁鲁鲁夜夜爽爽狠狠视频97| 超碰资源在线| 欧美视频中文在线看| 又粗又黑又大的吊av| 蜜桃视频在线观看播放| 大荫蒂欧美视频另类xxxx| 97国产在线播放| 三妻四妾的电影电视剧在线观看| 欧美日韩午夜剧场| 男女爽爽爽视频| 欧美在线一级| 欧美一二三四在线| 欧美激情 亚洲| 亚洲日产av中文字幕| 一区二区三区视频免费在线观看| 亚洲第一综合网| 久久亚洲专区| 久久99久久久久久久噜噜| 久热这里只有精品在线| 国产偷自视频区视频一区二区| 日韩美女免费线视频| 中文字幕 自拍偷拍| 国产综合久久久久久鬼色| 99精品99久久久久久宅男| 天堂在线视频网站| 国产女人水真多18毛片18精品视频| 新呦u视频一区二区| 9191在线播放| 午夜欧美视频在线观看| 又色又爽又高潮免费视频国产| 91精品国产66| 日韩欧美综合在线| 特大黑人巨人吊xxxx| 日韩欧美高清| 久久久久久中文| 国模私拍一区二区| 高清久久久久久| 日韩高清dvd| 亚洲婷婷噜噜| 在线看国产一区| 亚洲欧洲日韩综合| 国产成人精品三级高清久久91| 久久香蕉频线观| 中文字幕一区在线播放| 国产乱码精品一区二区三区忘忧草 | 国内精品久久久久国产盗摄免费观看完整版| 久久久之久亚州精品露出| 中文字幕第2页| 99久久免费国产| 国产又粗又爽又黄的视频| 蜜桃视频m3u8在线观看| 欧美精品久久久久久久久老牛影院| 国产伦精品一区二区三区88av| 成人同人动漫免费观看| 91国产一区在线| 国产精品无码久久av| 2020国产精品自拍| bt天堂新版中文在线地址| 成人1区2区| 亚洲乱码国产乱码精品精| 久久久久性色av无码一区二区| 日韩av午夜在线观看| 国产伦精品一区二区三区照片| 第一福利在线| 欧美日韩亚洲视频一区| 午夜诱惑痒痒网| 日韩精品一区二区三区免费观看 | 久久97人妻无码一区二区三区| 免费一区二区视频| 久久精品人成| xxxx在线视频| 日韩精品中文字幕在线不卡尤物 | 日韩理论片在线| 亚洲高清在线免费观看| 亚洲精品播放| 国产91ⅴ在线精品免费观看| 国产自产一区二区| 亚洲狠狠丁香婷婷综合久久久| 亚州精品一二三区| 精品视频免费在线观看| 欧美制服第一页| 四虎影视在线播放| 亚洲午夜久久久久久久久电影网| 国产精品久久久久久9999| 成人免费在线观看av| 国产成人97精品免费看片| 天堂√在线中文官网在线| 亚洲va在线va天堂| 亚洲日本久久久| 影音先锋亚洲一区| 国产主播一区二区三区四区| 欧美xxxx少妇| 亚洲成人三级在线| 久久久久99精品| 不卡免费追剧大全电视剧网站| 久久男人资源站| 超碰成人福利| 97国产在线视频| 神马久久高清| 在线中文字幕一区| 激情高潮到大叫狂喷水| 久久69国产一区二区蜜臀| 一本一道久久a久久综合精品| 日韩国产大片| 欧美精品性视频| 亚洲免费不卡视频| 欧美视频在线观看免费网址| 一区二区黄色片| 蜜桃一区二区三区在线观看| 一本一本久久a久久精品综合妖精| 国产一区二区三区免费在线 | 久久精品美女| se69色成人网wwwsex| 久久精品久久久久| 亚洲精品无amm毛片| 欧美日韩一二三四五区| 在线免费观看视频| 狠狠色狠狠色综合系列| 国产xxxx振车| 欧美极品在线观看| 成人a视频在线观看| 国产丝袜视频在线播放| 精品视频久久久| 97国产精品久久久| 亚洲一区在线视频观看| 性欧美13一14内谢| 激情欧美日韩一区二区| cao在线观看| 波多野结衣的一区二区三区| 亚洲一区二区三区sesese| 蜜桃在线视频| 久久综合伊人77777蜜臀| 免费看黄色一级视频| 欧洲生活片亚洲生活在线观看| 欧美性生交大片| 99久久久精品| 一级黄色录像在线观看| 99riav国产精品| 中日韩在线视频| 欧美激情15p| 成人黄色片在线| 蜜臀久久精品| 欧美成在线观看| 春暖花开成人亚洲区| 精品成人私密视频| 在线观看中文字幕码| 精品二区三区线观看| 国产精品白丝喷水在线观看| 久久日一线二线三线suv| 日本成人xxx| 日韩av成人高清| 老太脱裤让老头玩ⅹxxxx| 国产精品成人a在线观看| 蜜桃成人在线| 成人三级毛片| 91久久久亚洲精品| 亚洲人免费短视频| 81精品国产乱码久久久久久| 岛国中文字幕在线| 中文字幕久久久| 亚欧在线观看视频| 成人福利视频在线看| 色一情一伦一子一伦一区| 右手影院亚洲欧美| 国产a精品视频| 青青草久久伊人| 日韩高清国产一区在线| www精品久久| 欧美成人亚洲| av不卡在线免费观看| 青青草原综合久久大伊人精品| 久久久久一区二区| 欧美日韩麻豆| 国产精华一区二区三区| 日韩区一区二| 成人午夜在线视频一区| a一区二区三区| 91国在线精品国内播放| 丁香高清在线观看完整电影视频| 插插插亚洲综合网| 免费在线观看av网站| 色琪琪综合男人的天堂aⅴ视频| 黄色片在线播放| 亚洲欧美日韩中文在线制服| 青青草手机在线| 亚洲跨种族黑人xxx| 三级av在线| 亚洲美女av黄| 黄色影院在线播放| 国产亚洲精品美女| 第一页在线观看| 日韩中文字幕免费| 菠萝蜜视频国产在线播放| 欧美成人免费小视频| 草莓福利社区在线| 欧美高清一级大片| xxxx在线视频| 欧美综合在线观看| se01亚洲视频| 国产精品视频xxx| 日韩深夜福利网站| 亚洲r级在线观看| 国产成人澳门| 麻豆av一区二区| 国产欧美一区二区精品久久久| 欧洲成人一区二区| 久久综合国产| 黑人巨茎大战欧美白妇| 影音先锋亚洲电影| 成年人网站大全| 美女性感视频久久| 性生活在线视频| 99精品视频中文字幕| 久久精品成人av| 国产精品激情偷乱一区二区∴| 日本在线一级片| 亚洲福中文字幕伊人影院| 二区视频在线观看| 欧美日韩的一区二区| 亚洲精品18在线观看| 日韩激情视频在线| 午夜小视频在线| 欧美俄罗斯性视频| 欧美粗大gay| 国产自产女人91一区在线观看| 最新精品在线| 日本在线免费观看一区| 亚洲精品久久| 欧美v在线观看| 精品一区二区三区视频| 最新版天堂资源在线| 国产婷婷精品av在线| 国产一二三四区| 精品久久久久久亚洲精品| 伊人网站在线观看| 亚洲成人精品在线| av在线收看| 久久免费国产视频| 国产精品麻豆成人av电影艾秋| eeuss一区二区三区| 精品国内自产拍在线观看视频| 成人在线免费高清视频| 丝袜美腿亚洲一区| 91精品国产高清91久久久久久| 久久久蜜臀国产一区二区| 国产精品久久久精品四季影院| 欧美性jizz18性欧美| 精品久久在线观看| 亚洲性av在线| 91吃瓜在线观看| 亚洲aa在线观看| 精品色999| 免费在线a视频| 国产jizzjizz一区二区| 少妇太紧太爽又黄又硬又爽小说| 亚洲福利视频三区| 国产精品一区二区黑人巨大| 亚洲精选中文字幕| 国产美女精品写真福利视频| 亚洲专区国产精品| 不卡一区综合视频| 97在线播放视频| 丁香天五香天堂综合| 中文字幕五月天| 欧美日韩精品综合在线| 可以直接在线观看的av| 97在线视频国产| 一区二区三区四区视频免费观看| 亚洲毛片aa| 日本女人一区二区三区| 爱爱的免费视频| 午夜视频一区二区三区| 亚洲精品911| 欧美片一区二区三区| av在线精品| 国产高清精品软男同| 麻豆精品一区二区三区| 99国产精品免费| 在线观看亚洲a| 国产69精品久久app免费版| 国产99久久精品一区二区| 无码日韩精品一区二区免费| 国产极品尤物在线| www.色精品| 欧美日韩中文视频| 亚洲成成品网站| 99热99re6国产在线播放| 国产一区二区无遮挡| 狠狠爱www人成狠狠爱综合网| 男人女人拔萝卜视频| 一区二区三区av电影| www.五月天激情| 欧美黑人又粗大| 麻豆精品av| 欧美日韩中文在线视频| 久久在线观看免费| 日本熟妇一区二区三区| 一个人www欧美| 色8久久久久| 亚洲小说欧美另类激情| 国产乱色国产精品免费视频| 久久免费在线观看视频| 亚洲第一男人av| 另类专区亚洲| 手机成人在线| 国产另类ts人妖一区二区| 九九视频免费在线观看| 亚洲国产精久久久久久| 亚洲女同av| 日本在线成人一区二区| 久久精品999| 精国产品一区二区三区a片| 精品国产乱码久久久久久老虎| 激情国产在线| 手机看片福利永久国产日韩| 国产专区欧美精品| 国产一级特黄毛片| 亚洲欧美日韩爽爽影院| 四虎国产精品成人免费影视| 男女激情免费视频| 久久久久久电影| 国产免费视频一区二区三区| 欧美激情在线播放| 国产日产精品一区二区三区四区的观看方式 | 亚洲一级二级在线| 日av在线播放| 国产在线观看一区二区三区 | 在线视频 中文字幕| 久久久精品国产网站| 97久久综合精品久久久综合| 国产男女无遮挡| 国产精品白丝在线| 深夜福利视频网站| 国产欧美精品日韩精品| 亚洲精品人人| 女同久久另类69精品国产| 精品国产91洋老外米糕| xxxxx.日韩|