精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

100億參數的語言模型跑不動?MIT華人博士提出SmoothQuant量化,內存需求直降一半,速度提升1.56倍!

人工智能 新聞
一個簡單的量化操作,讓你運行大規模語言模型的GPU需求量直接降低一半!

大型語言模型(LLM)雖然性能強勁,但動輒幾百上千億的參數量,對計算設備還是內存的需求量之大,都不是一般公司能承受得住的。

量化(Quantization)是常見的壓縮操作,通過降低模型權重的精度(如32bit降為8bit),犧牲一部分模型的性能來換取更快的推理速度,更少的內存需求。

但對于超過1000億參數量的LLM來說,現有的壓縮方法都無法保持模型的準確率,也無法在硬件上高效地運行。

最近,麻省理工學院和英偉達的研究人員聯合提出了一個通用后訓練的量化(GPQ, general-purpose post-training quantization)方案SmoothQuant,對大型語言模型可以高效實現8-bit權重,8-bit激活(W8A8)的量化,無需訓練也能保持模型的準確率。

圖片

論文鏈接:https://arxiv.org/pdf/2211.10438.pdf

代碼鏈接:https://github.com/mit-han-lab/smoothquant

由于激活相比權重更難量化,SmoothQuant通過數學等價變換將較難量化的激活遷移到權重上,實現了對激活異常值(activation outliers)的平滑處理。

SmoothQuant能夠對所有LLM的各種層中權重和激活量化到INT8,包括OPT-175B, BLOOM-176B和GLM-130B。

相比現有方法僅對權重進行靚貨,或者對激活進行混合精度的量化,SmoothQuant有更高的硬件效率,實現了1.56倍加速,內存需求僅為原始LLM的一半,并且在準確率上幾乎沒有損失

圖片

SmoothQuant同時具有硬件友好的設計,研究人員將SmoothQuant集成進了LLM服務框架FasterTransformer中,實現了更快的推理速度,相比FP16的精度僅需一半數量的GPU

文章的第一作者肖光烜是MIT EECS的一年級博士生,本科畢業于清華大學計算機科學與技術學院。

導師Song Han是MIT EECS的副教授,博士畢業于斯坦福大學,主要研究方向為高效深度學習,曾提出深度壓縮(deep compression)技術,可以將神經網絡的尺寸降低一個數量級,而不損失準確率。

SmoothQuant

量化(Quantization)就是把高精度的值映射到更低精度的離散值,在這篇論文中研究人員主要關注對硬件更高效的整數均勻量化(integer uniform quantization),尤其是INT8。

圖片

量化操作可以在不同的粒度上執行,如per-tensor量化應用于整個權重矩陣,per-token量化應用于激活中的每個token,per-channel量化應用于權重的每個輸出通道。

圖片


通過對激活的量化結果進行觀察,研究人員總結出了幾個模式:

1、量化比權重更難量化。

權重的分布相對更加均勻和平坦,之前的研究結果已經證明將大型語言模型的權重降低到INT8,甚至到INT4對準確率的影響都不大。

2、異常值是激活量化中的主要難點。

激活中的異常值通常比正常值要高出100倍左右,導致沒有異常值通道中的量化bits/levels效率很低。

圖片

3、異常值固定在某一通道中出現。

異常值只在很小一部分的通道中才會出現,但如果一個通道中有一個異常值,那該異常值可能會在所有的token中出現。

圖片

給定一個token中所有通道的方差會很大(一些通道會非常大,但大部分很?。?,但是給定一個通道在所有token度中的方差會很?。ó惓V低ǖ罆艽螅?。

由于異常值具有持續出現和每個通道內小方差的特點,那如果對激活執行per-channel量化,其量化誤差將會遠遠小于per-tensor量化。

通過一個簡單的實驗,其結果再次驗證了研究人員的想法,量化到INT8時,per-channel的準確率遠遠高于per-tensor和per-token量化,和FP16基線準確率相差無幾。

圖片

研究人員通過使用一個per-channel平滑因子s來將輸入激活進行平滑(smooth)。為了保持線性層的數學等價,還需要反向縮放權重。

圖片

由于輸入X通常是由之前的線性操作生成的(如線性層、層norms等),所以就可以很容易地將平滑因子融合到之前層的參數offline,而且不會產生額外縮放的內核調用開銷。對于其他情況,比如當輸入來自殘差add時,可以向殘差分支添加一個額外的縮放。

將量化難度從激活轉移到權重

?Smooth的目標是選擇一個per-channel的平滑因子s,使該逆操作更易于量化。

為了減少量化誤差,應該增加所有通道的有效量化比特。當所有通道的最大magnitude相同時,總的有效量化位數將是最大的。

因此,一個最直接的平滑因子選擇就是輸入中每個通道的最大值,可以保證在劃分之后,所有的激活通道都有相同的最大值,從而實現更容易的量化。

但需要注意的是,激活的范圍是動態的,對于不同的輸入樣本是不同的。所以研究人員使用預訓練數據集中的校準樣本來估計激活通道的規模。

由于這個公式將所有的量化困難遷移給了權重,可以發現在這種情況下,權重的量化誤差會很大,導致準確性下降很多。

圖片

另一方面,也可以通過選擇sj = 1/ max(|Wj |),將所有的量化難度從權重推到激活上。同樣,由于激活量化誤差過大,模型的性能也不好。因此需要在權重和激活之間分割量化難度,使它們都易于量化。

研究人員引入一個超參數遷移強度α,來控制要從激活遷移到權重的難度。

圖片

可以發現,對于大多數模型,例如OPT和BLOOM模型,α=0.5是一個很好的平衡點,可以平均分配量化難度,特別是使用相同的量化器進行權重和激活。

該公式保證了相應通道的權重和激活具有相似的最大值,從而共享相同的量化難度。

圖片

對于其他一些激活異常值比較大的模型,例如GLM-130B有30%的異常值,這對激活量化來說比較困難,可以選擇一個較大的α(如0.75),將更多的量化難度遷移到權重上。

SmoothQuant應用于Transformer塊

線性層占據了LLM模型的大部分參數和計算。在默認情況下,SmoothQuant對Transformer中所有線性層的輸入激活進行比例平滑,并用W8A8對線性層進行量化,在注意力計算中啟用了BMM運算符的量化。

圖片

在流程中,首先用INT8對線性層和注意力層中的BMM等計算量大的運算符的輸入和權重進行量化,而對其他輕量級元素的運算,如Softmax和LayerNorm,保持激活為FP16,這樣的設計有助于平衡準確性和推理效率。

實驗部分

研究人員選擇了三個大型語言模型用來評估SmoothQuant,包括OPT, BLOOM和GLM-130B;并使用七個zero-shot任務,包括LAMBADA, HellaSwag, PIQA, WinoGrande, OpenBookQA, RTE, COPA等。

實驗結果顯示SmoothQuant可以處理非常大的LLM的量化問題,其激活更難量化。

圖片

SmoothQuant可以在所有評估數據集上匹配FP16的準確性,而W8A8、ZeroQuant和Outlier Suppression基線產生的結果幾乎是隨機的。

圖片

并且SmoothQuant可以無損地量化所有超過100B參數的開放式LLMs

SmoothQuant的O1和O2級成功地保持了浮點精度,而O3級(per-tensor static)使平均精度下降了0.8%,可能是因為靜態收集的統計數據與真實評估樣本的激活統計數據之間的差異。

盡管如此,SmoothQuant-O1可以與FP16的準確性相匹配,而SmoothQuant-O3只降低了1%的準確性,明顯優于基線。

SmoothQuant不僅對超過100B參數的非常大的LLM有效,而且對較小的LLM也有穩定的效果,SmoothQuant可以在所有規模的OPT模型上工作,并與INT8量化的FP16精度相匹配。

圖片

為了展示集成到PyTorch和FasterTransformer中的SmoothQuant-O3的速度提升和內存節省,研究人員我們測量了一次生成一批4個句子的所有隱藏狀態的端到端延遲,也就是context階段的延遲,并記錄了這個過程中GPU內存使用的峰值。

由于Huggingface缺乏對模型并行的支持,所以研究人員只測量了SmoothQuant在單個GPU上的PyTorch實現的性能,因此選擇了OPT-6.7B、OPT-13B和OPT-30B進行評估。

在FasterTransformer庫中,SmoothQuant可以與Tensor Parallelism算法無縫對接,因此研究人員在OPT-13B、OPT-30B、OPT-66B和OPT-175B上測試SmoothQuant的單GPU和多GPU基準。

在NVIDIA A100 80GB GPU服務器上進行的實驗結果顯示,基于PyTorch實現的推理延遲和峰值內存使用上,SmoothQuant始終比FP16基線快,當序列長度為256時,在OPT-30B上獲得了1.51倍的速度提升。

圖片

還可以看到一個趨勢,即模型越大,加速越明顯,但LLM.int8()幾乎總是比FP16基線慢,這也是由于混合精度激活表示的巨大開銷造成的。

在內存方面,SmoothQuant和LLM.int8()都可以將FP16模型的內存用量幾乎減半,而SmoothQuant由于完全使用INT8 GEMM,所以節省的內存稍多。

圖片

與FasterTransformer對OPT的FP16實現相比,SmoothQuant-O3在使用單個GPU時可以進一步降低OPT-13B和OPT-30B的執行延遲,最高可達1.56倍。


責任編輯:張燕妮 來源: 新智元
相關推薦

2022-05-16 14:47:01

MIT模型

2022-07-27 09:25:08

深度架構目標檢測

2021-09-03 16:41:26

模型人工智能深度學習

2023-06-30 13:01:26

2021-09-02 16:00:06

算法開源技術

2021-09-30 11:27:58

模型人工智能神經網絡

2011-11-07 10:06:28

惠普ARM服務器Moonshot

2023-07-18 14:19:00

模型AI

2015-07-27 10:24:01

蘋果中國

2020-12-04 10:11:26

Unsafejava并發包

2013-02-25 10:11:35

4GLTE商用網絡

2024-11-27 14:30:00

模型訓練

2022-05-11 14:45:48

模型人工智能

2023-07-31 09:54:12

2023-07-30 15:22:47

2022-02-22 16:21:04

Windows 11微軟

2009-04-30 09:01:25

微軟操作系統Windows 7

2011-08-17 10:53:16

Firefox 7

2024-07-08 08:00:00

2013-02-25 09:42:54

點贊
收藏

51CTO技術棧公眾號

日本黄色不卡视频| 国产一区二区三区视频播放| 超级白嫩亚洲国产第一| 91麻豆免费在线观看| 国产精品午夜一区二区欲梦| 九九热视频在线免费观看| 国产精伦一区二区三区| 在线亚洲人成电影网站色www| 一区二区三区久久网| 欧美亚洲国产日韩2020| 无码粉嫩虎白一线天在线观看 | 成人欧美一区二区三区在线湿哒哒| www.com.av| 欧美网色网址| 91精品欧美久久久久久动漫| 欧美二区在线视频| 国产在线观看a视频| 97久久精品人人做人人爽| 成人写真视频福利网| 欧美黑人一区二区| 午夜久久一区| 亚洲人成电影在线播放| 精产国品一二三区| 亚洲一区二区三区四区| 亚洲一二三级电影| 亚洲国产精品一区在线观看不卡| 欧美特级特黄aaaaaa在线看| 男人的j进女人的j一区| 欧美一级淫片丝袜脚交| 久久99久久98精品免观看软件| 精品99久久| 亚洲激情视频网| 91丝袜超薄交口足| 成人免费黄色| 欧美性猛交xxxx| 免费一级特黄毛片| 天堂av在线电影| 亚洲欧洲av另类| 少妇特黄a一区二区三区 | 成人国产精品免费观看动漫| 成人妇女淫片aaaa视频| 啪啪小视频网站| 中文字幕+乱码+中文乱码www| 超碰97久久国产精品牛牛| 欧美精品v国产精品v日韩精品| 日本一本二本在线观看| 黄色小说在线播放| 洋洋成人永久网站入口| 欧美 日韩 国产 在线观看 | 91最新地址在线播放| 91精品国产综合久久久久久丝袜 | 日韩一级精品视频在线观看| 国产原创精品在线| 成人精品高清在线视频| 欧美影院午夜播放| 亚洲一区二区蜜桃| 黄色精品视频| 欧美综合在线视频| 成人亚洲精品777777大片| 欧美成人黑人| 日韩欧美一区视频| 日韩av一二三四| 欧美最新精品| 欧美亚洲综合网| 污污网站免费观看| 3d动漫一区二区三区在线观看| 欧美日韩一区中文字幕| 天天操狠狠操夜夜操| 国产亚洲字幕| 精品国产乱码久久久久久蜜臀| 亚洲国产精品第一页| 成人av综合网| 亚洲精选一区二区| 婷婷色一区二区三区| av中字幕久久| 久久久国产在线视频| 日韩黄色免费观看| 亚洲高清免费| 日本乱人伦a精品| 中文字字幕在线观看| 裸体在线国模精品偷拍| 亚洲一区二区三区视频| 风流少妇一区二区三区91| 91在线精品一区二区| 日本在线观看一区| 免费黄色电影在线观看| 亚洲综合成人在线| 各处沟厕大尺度偷拍女厕嘘嘘| 欧美女人性生活视频| 成年人视频网站在线| 国产精品久久久久久久久动漫 | 北岛玲日韩精品一区二区三区| 一区在线观看免费| 国产人妻777人伦精品hd| 日本欧美韩国| 精品国产在天天线2019| 自拍偷拍亚洲天堂| 亚洲自拍偷拍网| 午夜欧美不卡精品aaaaa| 秋霞av一区二区三区| 韩国v欧美v日本v亚洲v| 久久久免费看| 国产剧情在线| 欧美性猛交xxxx富婆弯腰| 亚洲欧美日韩三级| 亚洲免费专区| 欧美xxxx做受欧美| 国产一级片免费视频| 国产成人亚洲综合a∨婷婷图片| 欧美一区少妇| 韩国成人免费视频| 欧美午夜寂寞影院| 一出一进一爽一粗一大视频| 亚洲91视频| 日韩av免费看网站| 亚洲男人第一天堂| 亚洲欧美影音先锋| 亚洲熟女乱色一区二区三区| 欧美影院视频| 久久久久国产一区二区| 国产日韩在线观看一区| 性欧美xxxx大乳国产app| 国产在线视频91| 深夜福利视频一区| 亚洲一线二线三线视频| 亚洲欧美日韩三级| 国产精品亚洲片在线播放| 久久久亚洲天堂| 97超碰资源站| 国产欧美视频一区二区| 国产97在线 | 亚洲| 欧美视频二区欧美影视| 日韩有码在线播放| 在线观看免费av片| 成人高清免费观看| 国产人妻人伦精品| 国产精品成人**免费视频| 日韩最新在线视频| 中文字幕在线播放日韩| 久久久亚洲精品一区二区三区| 日本福利视频网站| 国色天香久久精品国产一区| 最近2019年好看中文字幕视频| 欧美特黄aaaaaa| av在线免费不卡| 成人黄色大片网站| 我要色综合中文字幕| 欧美成人精品一区| av免费在线观看不卡| 中文字幕日韩精品一区| 自拍偷拍一区二区三区四区| 成人av动漫在线观看| 国产精品99一区| 风间由美一区| 欧美日韩一区二区三区四区五区| 蜜桃传媒一区二区亚洲| 老牛影视一区二区三区| 欧美一区二区综合| 国产精品亲子伦av一区二区三区| 中文字幕日韩欧美在线视频| 国产一区二区三区三州| 1000部国产精品成人观看| 色婷婷一区二区三区在线观看| 亚洲h色精品| 成人免费看片网址| 久久99亚洲网美利坚合众国| 亚洲成人久久网| 中文字幕超碰在线| 国产精品欧美精品| 国产成人在线综合| 红桃视频欧美| 久久久久无码国产精品一区| 福利精品在线| 在线亚洲欧美视频| 99久久精品国产色欲| 亚洲国产一区二区视频| 国产人妻人伦精品1国产丝袜| 久久av在线| 一区二区三区在线观看www| 欧美影院精品| 国产69久久精品成人| 99re在线视频| 精品国产91九色蝌蚪| 亚洲天堂一区在线| 国产精品久久久久久久久动漫| 亚洲一二三四五| 久久国产欧美| 黄色影视在线观看| 亚欧日韩另类中文欧美| 国产美女91呻吟求| 国产精品69xx| 日韩中文娱乐网| 免费a级片在线观看| 色先锋aa成人| 青娱乐国产盛宴| 国产午夜亚洲精品午夜鲁丝片| 久久精品亚洲天堂| 国产精品一级| 日韩成人午夜影院| 蜜桃成人av| 91精品婷婷国产综合久久蝌蚪| 一区二区三区短视频| 欧美成人免费网| 性xxxxbbbb| 欧美一卡二卡在线| 一级黄色av片| 亚洲一区二区三区精品在线| 国产伦精品一区二区三区视频女| 国产成人av一区| 992kp快乐看片永久免费网址| 综合视频在线| 日韩国产高清一区| 乱亲女h秽乱长久久久| 成人黄色短视频在线观看| 中文在线а√在线8| 欧美日韩国产成人| av网站无病毒在线| 精品视频在线播放免| 超碰在线人人干| 4438x成人网最大色成网站| 亚洲影院在线播放| 欧美日韩国产精品专区 | 国产成人手机高清在线观看网站| 91网免费观看| 欧美黄色网络| 国产精品电影在线观看| 粉嫩一区二区| 国语自产偷拍精品视频偷| 日本h片在线观看| 久久久久999| 免费av在线网址| 在线播放日韩欧美| 精品视频二区| 亚洲欧洲成视频免费观看| 五月激情丁香婷婷| 精品国产区一区| 成 人片 黄 色 大 片| 91精品国产入口在线| 国产人妖一区二区三区| 欧美日韩成人综合天天影院| 久久精品99北条麻妃| 色噜噜久久综合| 国产午夜麻豆影院在线观看| 精品电影在线观看| 日韩精品――中文字幕| 亚洲高清不卡在线| 国产在线视频99| 亚洲图片一区二区| 日韩黄色a级片| 欧美日韩在线免费观看| 可以免费看的av毛片| 黑人狂躁日本妞一区二区三区| 国产 欧美 日韩 在线| 亚洲成人av电影在线| 国产无码精品视频| 欧美日韩国产区| 中文字幕在线播| 欧美色综合网站| 国产精品久久久久久久免费看 | 国产精欧美一区二区三区白种人| 久久精品二区亚洲w码| 中文字幕免费高清在线| 国产一区二区三区av电影| www激情五月| 成人毛片老司机大片| 成人性生活免费看| 国产欧美一区二区精品久导航 | 人妻无码中文久久久久专区| 99久久综合狠狠综合久久| 欧美日韩高清丝袜| 国产精品久久久久久久久免费丝袜| 国产又色又爽又高潮免费| 亚洲天堂a在线| 国产一级做a爰片在线看免费| 大荫蒂欧美视频另类xxxx| 久久久久久在线观看| 欧美精品视频www在线观看| 国产激情久久久久久熟女老人av| 亚洲第一中文字幕| 国产高清美女一级毛片久久| www.日韩不卡电影av| 国模雨婷捆绑高清在线| 日本欧美中文字幕| 国产区一区二| 鲁鲁狠狠狠7777一区二区| 国产大片一区| 亚洲熟妇av一区二区三区漫画| 日本欧美加勒比视频| av在线天堂网| 久久久精品tv| 精品国产乱码久久久久久鸭王1| 欧美日韩午夜剧场| 一区二区的视频| 亚洲精品国偷自产在线99热 | 亚洲国产精品成人综合| 国产免费无码一区二区视频| 91黄色免费网站| 亚洲精品网站在线| 中文字幕一精品亚洲无线一区| 日本无删减在线| 国产精品免费久久久久影院| 高潮久久久久久久久久久久久久| 日韩精品伦理第一区| 欧美涩涩视频| 天天爽天天爽夜夜爽| 国产91丝袜在线播放| 永久免费观看片现看| 午夜亚洲福利老司机| 国产欧美第一页| 亚洲网站视频福利| ririsao久久精品一区| 成人国产精品久久久| 久久超碰99| 霍思燕三级露全乳照| 精品一区二区三区在线播放| 久久精品—区二区三区舞蹈| 亚洲一区二区不卡免费| 亚洲一卡二卡在线| 亚洲视频网站在线观看| 6699嫩草久久久精品影院| 亚洲自拍偷拍福利| 日韩成人免费| 欧美xxxxx在线视频| 成人精品电影在线观看| 亚洲国产精品免费在线观看| 欧美日韩中文字幕日韩欧美| 亚洲精品成人电影| 精品国模在线视频| 久久亚洲精品爱爱| 欧美日韩大片一区二区三区 | 高清一区二区三区四区五区| 成人精品在线| 正在播放国产精品| 免费成人美女在线观看.| 三上悠亚ssⅰn939无码播放| 亚洲成人av免费| 欧美 日韩 中文字幕| 久久久人成影片一区二区三区观看 | 国内成人自拍| 欧美日韩激情视频在线观看| 成人av先锋影音| 国产无码精品在线观看| 精品粉嫩超白一线天av| 污污网站在线观看| 亚洲精品免费网站| 欧美大片aaaa| 天堂av2020| 亚洲欧美一区二区不卡| 国产精品久久久久久久免费看 | 在线日韩国产网站| 精品视频在线视频| 午夜视频在线看| 91免费看片网站| 欧美激情偷拍| 无码国产精品一区二区免费式直播 | 日韩av手机在线免费观看| 欧美日韩免费一区二区三区 | 亚洲a级精品| 日韩 欧美 高清| 欧美激情一区二区| 怡红院成永久免费人全部视频| 中文字幕9999| 久久天堂久久| 精品视频在线观看一区| 91美女蜜桃在线| 国产精品无码一区| 日韩视频免费观看| 一区二区视频| 精品国产一二三四区| 久久久午夜精品理论片中文字幕| 久久久久久无码午夜精品直播| 正在播放亚洲1区| 久久国产精品美女| 国产无限制自拍| 26uuu久久综合| 国产偷人爽久久久久久老妇app| 日韩一区二区久久久| 亚洲精品一二三**| 熟妇人妻va精品中文字幕| 一区二区中文字幕在线| 亚洲伦理在线观看| 日本中文字幕成人| 性xxxx欧美老肥妇牲乱| 老司机午夜免费福利| 在线视频欧美区| 四虎av在线| 日本高清不卡一区二区三| 激情国产一区二区| 日韩精品人妻中文字幕| 一区二区三区视频免费在线观看| 亚洲免费看片| 热99这里只有精品| 国产精品三级视频| 神宫寺奈绪一区二区三区| 国产精品九九九| 在线精品在线| 快灬快灬一下爽蜜桃在线观看| 精品少妇一区二区三区视频免付费 | 国产精品一区二区久久| 国产精品v日韩精品v欧美精品网站 |