精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型承重墻,去掉了就開始擺爛!蘋果給出了「超級權重」

人工智能 新聞
去掉一個「超權重」的影響,比去掉其他 7000 個離群值權重加起來還要嚴重。

大模型的參數量越來越大,越來越聰明,但它們也越來越奇怪了。

兩年前,有研究者發現了一些古怪之處:在大模型中,有一小部分特別重要的特征(稱之為「超權重」),它們雖然數量不多,但對模型的表現非常重要。

如果去掉這些「超權重」,模型就完全擺爛了,開始胡言亂語,文本都不會生成了。但是如果去掉其他一些不那么重要的特征,模型的表現只會受到一點點影響。

圖片

有趣的是,不同的大模型的「超權重」卻出奇地相似,比如:

它們總是出現在圖片層中。

它們會放大輸入 token 激活的離群值,這種現象研究者們稱之為「超激活」(super activation)。無論輸入什么提示詞,「超激活」在整個模型中都以完全相同的幅度和位置持續存在。而這源于神經網絡中的「跨層連接」。

它們還能減少模型對常用但不重要的詞匯,比如「的」、「這」、「了」的注意力。

得到了這些發現,圣母大學和蘋果的研究團隊進一步對「超權重」進行了探索。

他們改進了 round-to-nearest quantization(RNQ)技術,提出了一種對算力特別友好的方法。

圖片

  • 論文鏈接:https://arxiv.org/pdf/2411.07191
  • 論文標題:The Super Weight in Large Language Models

這種新方法與 SmoothQuant 效果相當,在處理模型的權重時,可以用這種技術處理更大的數據塊,讓模型在變小的同時,還能保持很好的效果。

看來,蘋果是真的把寶押在小模型身上了!

什么是「超權重」?

為了量化「超權重」對模型的影響有多大,研究團隊修剪了所有的離群值權重,結果發現,去掉一個「超權重」的影響,比去掉其他 7000 個離群值權重加起來還要嚴重。

圖片

如何識別「超權重」?

雖然之前的研究者發現了「超權重」可以激活異常大的神經網絡。該團隊又把「超權重」和「超激活」之間的聯系向前推進了一步。他們發現在降維投影之前,門控和上投影的 Hadamard 乘積產生了一個相對較大的激活,而「超權重」進一步放大了這個激活并創造了「超激活」。

而通過激活的峰值可以進一步定位「超權重」。基于此,研究團隊提出了一種高效的方法:通過檢測層間降維投影輸入和輸出分布中的峰值來定位「超權重」。

這種方法只需要輸入一個提示詞,非常簡單方便,不再需要一組驗證數據或具體示例了。

具體來說,假設存在降維投影權重矩陣圖片,其中 D 表示激活特征的維度,H 是中間隱藏層的維度。設圖片為輸入矩陣,其中 L 表示序列長度。定義輸出矩陣為圖片;「超激活」為圖片。如果 X_ik 和 W_jk 都是遠大于其他值的異常值,那么 Y_ij 的值將主要由這兩個異常值的乘積決定。

在這種情況下,j 和 k 是由 X_ik 和 Y_ij 的值決定的。因此,可以首先繪制出 mlp.down proj 層的輸入和輸出激活中的極端異常值。接著,如圖 3 所示,確定超權重所在的層和坐標。

一旦檢測到一個超權重,將其從模型中移除并重復上述過程,直到抑制住較大的最大激活值。

「超權重」的機制

  • 「超權重」的影響 

研究團隊發現超級權重有兩種主要影響:

  1. 引發「超激活」;
  2. 抑制了停用詞(stopword)的生成概率。

圖片

為了探究「超權重」是完全通過「超激活」,還是也通過其他 token 來影響模型質量,研究團隊設計了一個控制變量實驗:

  • 原始模型;
  • 移除「超權重」,將其權重設置為 0;
  • 移除「超權重」,但恢復神經網絡層中的「超激活」。

實驗結果如表 1 所示?;謴汀赋せ睢购?,模型的平均準確率從 35.14 恢復到 49.94,恢復「超激活」挽回了約 42% 的質量損失。

圖片

這表明,「超權重」對模型整體質量的影響并不完全由「超激活」所導致。

  • 「超權重」對輸出 token 概率分布的影響 

「超權重」會影響輸出 token 的概率分布。為此,該團隊研究了「超權重」對 Lambaba 測試集的 500 個 prompt 的輸出 token 概率分布有何影響。

圖片

實驗表明,移除「超權重」后,停用詞的生成概率顯著放大。例如,對于 Llama-7B 模型,「the」的生成概率增加約 2 倍,「.」 增加約 5 倍,「,」 增加約 10 倍

為了更加深入地剖析,研究團隊進行了案例研究:

  • 輸入 prompt 為:「Summer is hot. Winter is 」
  • 下一個 token 應為「cold」,這是一個具有強語義的詞。

含有「超權重」的原始模型能夠以 81.4% 的高概率正確預測。然而,移除「超權重」后,模型預測的最多的詞變成了停用詞「the」,并且「the」的概率僅為 9.0%,大多數情況是在胡言亂語。

這表明,「超權重」對于模型正確且有信心地預測具有語義的詞匯至關重要。

  • 「超權重」的重要性

研究團隊還分析了超級權重幅值變化對模型質量的影響,通過將超級權重按 0.0 到 3.0 的縮放因子放大。結果表明,適度放大幅值可以提升模型準確率,詳見下圖。

圖片

超離群值感知量化

量化是一種壓縮模型和減少內存需求的強大技術。然而,無論是權重量化還是激活量化,異常值的存在都會大大降低量化質量。如前所述,研究者將這些有問題的異常值(包括超權值和超激活值)稱為超異常值。

如上所示,這些超離群值對模型質量的重要性是不成比例的,因此在量化過程中保留它們至關重要。

量化一般是將連續值映射到一個有限的值集;這里考慮的是其中一種最簡單的形式,即非對稱輪至最近量化:

圖片

其中圖片是量化步長,N 是比特數。請注意,計算 ? 時使用的是最大值,因此 X 中的超離群值會大大增加步長。步長越大,離群值平均會被舍入到更遠的值,從而增加量化誤差。隨著超離群值的增加,離群值被舍入到更少的離散值中,更多的量化 bin 未被使用。這樣,超離群值就會導致量化保真度降低。

研究者特別考慮了硬件以半精度執行運算的情況,這意味著張量 X 在使用前會進行量化和去量化;在這種情況下,我們可以通過兩種方法利用超離群值的先驗知識。

首先,保留超離群值,防止對離群值量化產生不利影響。其次,在去量化后恢復超離群值,以確保超離群值的效果得以保留。

接下來將以兩種形式對權重和激活采用這一觀點。

激活量化

研究者使用值舍入量化技術進行實驗,并做了一個小修改:用中值替換超激活(REPLACE),量化(Q)和去量化(Q-1)激活,然后在 FP16 中恢復超激活(RESTORE)。具體操作如下:

圖片

由于超激活是單個標量,因此對比特率和內核復雜度的影響不大。

權重量化 

小規模分組會帶來計算和比特率開銷,需要其他技術來處理大量的半精度刻度和偏差。為了應對這一挑戰,本文提出了一種簡單的方法來改進 INT4 的大塊量化。首先,識別超權重;其次,為了改善離群值擬合,對離群值權重進行剪切(CLIP),在這一步超權重也會被剪切,對剪切后的權重進行量化(Q)和去量化(Q-1);然后,為了確保保留超權重的效果,在去量化后恢復半精度超權重(RESTORE)。

圖片

如上公式,使用 z-score 對剪切進行參數化。假定所有權重都符合高斯分布,研究者認為所有 z 值超過某一閾值 z 的值都是離群值。為了調整超參數 z,研究者使用 Wikitext-2 訓練集中的 500 個示例找到了最小重構誤差 z-score。

實驗

為了全面展示超權重的效果,研究者在 LLaMA 7B-30B、Mistral 7B 和 OLMo 上進行了實驗。為了評估 LLM 的實際應用能力,他們評估了這些模型在 PIQA、ARC、HellaSwag、Lambada 和 Winogrande 等零樣本基準上的精度。細節如下所示。

激活量化

表 3 比較了本文方法和 SmoothQuant。對于兩個數據集上的三個 Llama 模型,本文方法比 SmoothQuant 的 naive 量化方法提高了 70%。在使用 Llama7B 的 C4 數據集和使用 Llama-30B 的 Wikitext 數據集上,本文改進幅度超過 SmoothQuant 的 80%。這意味著,與更復雜的方法相比,經過大幅簡化的量化方法可以獲得具有競爭力的結果。

圖片

隨后,研究者擴大了評估范圍,納入了更多的 LLM:OLMo(1B 和 7B)、Mistral-7B 和 Llama-2-7B,結果如表 4 和附錄表 7 所示。這些模型代表了不同的架構和訓練范式,能夠評估量化方法的通用性。由于 SmoothQuant 沒有報告這組模型,因此研究者將他們的結果與 naive W8A8 量化進行了比較。在所有模型和數據集上,本文方法始終優于 naive W8A8 量化,且在 OLMo 模型上表現特別突出。

圖片

圖片

值得注意的是,OLMo 模型使用非參數化 LayerNorm,因此與 SmoothQuant 方法不兼容,后者依靠 LayerNorm 權重來應用每個通道的比例。在 Mistral-7B 上,改進幅度較小。研究者假設這是因為這些模型的 LayerNorm 所學習的權重可能會積極抑制超激活,從而使激活幅度的分布更加均勻。

這些結果凸顯了超激活在量化過程中保持模型性能的重要性。通過以最小的計算開銷解決這一單一激活,本文方法捕捉到了更復雜的量化方案所實現的大部分優勢。這一發現表明,在量化過程中,超激活在保持模型質量方面發揮著不成比例的巨大作用。

權重量化

為了評估所提出的超權重感知量化方法的有效性,研究者將其與傳統的 round-to-near 量化方法進行了比較,在一套零樣本下游任務中對模型進行了評估,結果如圖 7 所示。

圖片

在傳統的 round-to-near 量化方法中,可以觀察到一個明顯的趨勢:隨著塊大小的增加,模型質量明顯下降。這種下降可能是由于當較大的權重塊一起量化時,量化誤差會增加,從而使異常值影響到更多的權重。相比之下,本文的「超權重」感知量化方法對更大的塊大小具有更強的魯棒性。隨著塊大小的增大,模型質量的下降明顯小于 round-to-near 方法。

這種魯棒性源于本文方法能夠保留最關鍵的權重(超權重),同時將離群值權重對整個量化過程的影響降至最低。通過剪除離群值并關注離群值權重,本文的方法在表示模型參數時保持了更高的保真度。

還有一個關鍵優勢是,它能夠支持更大的數據塊尺寸,同時減少模型質量的損失。這種能力使平均比特率更低,文件尺寸更小,這對于在資源有限的環境(如移動設備或邊緣計算場景)中部署模型至關重要。

更多研究細節,可參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-02-27 09:14:01

AI模型

2021-01-20 15:30:25

模型人工智能深度學習

2018-12-19 12:58:14

iPhone喬布斯蘋果

2022-12-26 16:26:12

蘋果手機

2024-06-11 12:38:12

2011-04-25 11:45:13

2021-06-02 16:30:33

PolarDB原子性數據庫

2024-04-25 09:25:33

2011-06-09 09:04:49

2025-09-02 10:03:34

2021-06-28 11:40:50

賀雄松無人駕駛無人配送

2013-11-13 15:03:01

華碩無線路由器華碩路由器無線路由器

2025-04-22 09:40:00

2024-07-31 08:14:17

2021-06-03 14:00:35

PolarDB

2024-11-26 09:33:44

2024-12-26 00:46:25

機器學習LoRA訓練

2024-08-26 11:31:15

點贊
收藏

51CTO技術棧公眾號

精品剧情在线观看| 国产三级一区二区| 免费av一区二区| 一区二区久久精品| 怡红院在线播放| 成人教育av在线| 88国产精品欧美一区二区三区| 黄色国产在线观看| 日本高清不卡一区二区三区视频| 国产亚洲精品超碰| 国产欧美日韩亚洲精品| 国产一区二区播放| 卡通动漫国产精品| 欧美亚洲日本一区| 一本一本久久a久久精品综合妖精| 一本久道久久综合无码中文| 国模吧视频一区| 亚洲精品97久久| 粉嫩虎白女毛片人体| 欧美jizzhd69巨大| zzijzzij亚洲日本少妇熟睡| 日本人成精品视频在线| 天堂网中文在线观看| 亚洲天堂中文字幕在线观看| 日韩欧美亚洲范冰冰与中字| 欧美aaa在线观看| 蜜臀久久精品久久久久| 日本少妇一区二区| 欧美激情喷水视频| 国产精品久久免费观看| 北条麻妃一区二区三区在线观看| 91成人在线观看喷潮| 8x8x华人在线| 国产黄在线观看| 国产精品99久久久久久宅男| 欧美一级淫片videoshd| 九九这里只有精品视频| 天天躁日日躁狠狠躁欧美| 欧美精品自拍偷拍动漫精品| 777精品久无码人妻蜜桃| 蜜桃视频在线观看免费视频网站www| 成人激情综合网站| 成人有码视频在线播放| 日韩黄色一级视频| 日韩天天综合| 欧美大胆在线视频| www.com.av| 国际精品欧美精品| 亚洲精品理论电影| 国产精品嫩草69影院| 日韩伦理一区二区| 色八戒一区二区三区| 丁香六月激情婷婷| 亚洲第一图区| 中文字幕一区二区三区蜜月| 欧美精品一区二区视频| 欧美一区二区公司| 国产精品66部| 91免费欧美精品| 在线观看免费黄色小视频| 国产精品久久久久毛片大屁完整版| 成人444kkkk在线观看| 麻豆一区在线观看| 水蜜桃久久夜色精品一区| 亚洲精品在线观看www| 北京富婆泄欲对白| а√中文在线天堂精品| 日韩美女一区二区三区| 久久6免费视频| 国产国产一区| 欧美三片在线视频观看| 人人爽人人av| 日本美女一区| 色综合久久66| 久久久久久久久久福利| 美女100%一区| 精品欧美aⅴ在线网站| 99热久久这里只有精品| 黄页网站大全在线免费观看| 一区二区三区欧美视频| 国产一区二区三区播放| 在线看女人毛片| 一区二区三区四区五区视频在线观看| 国产精品视频一二三四区| 性欧美videos高清hd4k| 亚洲最快最全在线视频| www精品久久| 日韩伦理在线一区| 色菇凉天天综合网| 午夜宅男在线视频| 国产在线视频欧美一区| 欧美精品一区二区精品网| 亚洲一区二区三区黄色| 中文字幕伦av一区二区邻居| 国产亚洲精品高潮| 亚洲av熟女国产一区二区性色| 日韩精品久久久久久久电影99爱| 色久欧美在线视频观看| 久久中文免费视频| 99热精品在线观看| 国产精品福利无圣光在线一区| 一本色道久久综合熟妇| 国产成人欧美日韩在线电影| 精品久久精品久久| 国产片在线观看| 成人欧美一区二区三区黑人麻豆| 中文字幕在线中文| 中文在线资源| 欧美军同video69gay| 一级黄色电影片| 亚洲精品国模| 久久精品久久久久久国产 免费| 九九在线观看视频| 久久大逼视频| 亚洲最大av网站| 性插视频在线观看| 1024成人网| 国产91美女视频| 欧美高清影院| 精品捆绑美女sm三区| 久操视频在线观看免费| 狠狠色综合网| 国产精品手机播放| 人妻无码中文字幕免费视频蜜桃| 欧美国产日韩亚洲一区| 久久99久久99精品| www.久久.com| 亚洲国产毛片完整版| 亚洲区一区二区三| 蜜桃久久av| 亚洲qvod图片区电影| 欧洲毛片在线| 亚洲一区二区av电影| 噼里啪啦国语在线观看免费版高清版| 免费一级欧美在线大片| 亚洲四色影视在线观看| 日韩 欧美 精品| 精品一区二区av| 九色91在线视频| 日本视频不卡| 色婷婷综合久久久| 日韩免费高清一区二区| 久久精品一区二区不卡| 国产精品va在线播放| 日韩一级片免费在线观看| 最新欧美精品一区二区三区| 国产精品99久久免费黑人人妻| theporn国产在线精品| 欧美精品在线免费| 国产视频1区2区| 成人激情小说乱人伦| 中文字幕在线乱| 国产精品亚洲成在人线| 亚洲男子天堂网| 国产午夜视频在线| 国产精品99久久久久久似苏梦涵| 中文字幕综合在线观看| 欧美黑粗硬大| 日韩一区在线视频| 91麻豆精品在线| eeuss国产一区二区三区| 国产 国语对白 露脸| 经典三级久久| 久久国产精彩视频| 国产视频第二页| 亚洲视频免费观看| 中文字幕线观看| 日韩片欧美片| 国产日韩在线观看av| 最新国产在线观看| 在线免费精品视频| 在线观看免费黄色网址| 日本伊人色综合网| 亚洲精品视频一区二区三区| 成人午夜一级| 中文字幕在线看视频国产欧美| 无码久久精品国产亚洲av影片| 久久精品一区二区三区四区| 欧美日韩一区二区在线免费观看| 要久久爱电视剧全集完整观看| 人人爽久久涩噜噜噜网站| 欧美美女搞黄| 欧美亚洲动漫制服丝袜| 国产精品18在线| 久久精品99久久久| 日本一本草久p| 日本一区二区三区视频在线看| 欧美乱大交xxxxx| 亚洲av无码国产精品永久一区| 亚洲午夜电影网| 免费日本黄色网址| 久久精品国产清高在天天线| 日韩av高清| 国产成人久久精品一区二区三区| 久久91精品国产91久久久| 日本精品一二区| 色94色欧美sute亚洲线路一久| 狂野欧美性猛交| 国产精品亚洲一区二区三区妖精 | 国产一区二区视频在线播放| 视色,视色影院,视色影库,视色网 日韩精品福利片午夜免费观看 | 日本三级久久久| 国产视频网站在线| 欧美一区二区在线免费观看| 久久国产一级片| 久久亚洲一区二区三区明星换脸 | 人妻丰满熟妇aⅴ无码| 日韩成人一区二区| a级网站在线观看| 欧美尿孔扩张虐视频| 国产精品久久国产精品99gif| 国产原厂视频在线观看| 日韩高清不卡av| 久久久999久久久| 亚洲嫩草精品久久| 三上悠亚影音先锋| 国产成人免费在线视频| 久章草在线视频| 亚洲激情五月| 美女一区视频| 日韩一级淫片| 国产精品美女免费视频| 久草在线视频网站| 色天天综合狠狠色| 视频午夜在线| 日韩欧美一区二区视频| 久久久蜜桃一区二区| 夜夜精品视频一区二区| 国产伦精品一区二区三区视频女| 成人高清av在线| 中文字幕22页| 丝袜诱惑亚洲看片| 91免费黄视频| 91精品久久久久久久蜜月| 美女亚洲精品| 国产成人福利av| 成人午夜小视频| 亚洲成人av观看| 欧美有码在线视频| 久草在线视频福利| 美女av一区二区三区| 日韩理伦片在线| 亚洲欧美制服综合另类| 亚洲乱码在线观看| 欧美精品日韩一本| 中文字幕视频免费观看| 色拍拍在线精品视频8848| 国模无码国产精品视频| 中文字幕日韩欧美一区二区三区| 欧美黄色激情视频| 久久综合国产精品| 亚洲av无码成人精品国产| 99精品国产视频| jjzz黄色片| 国产成人精品网址| 国产xxxxhd| 国产一区二区三区免费播放| 嫩草影院国产精品| 日本亚洲一区二区| 亚洲黄色a v| 肉丝袜脚交视频一区二区| 黄色国产精品视频| 亚洲作爱视频| 人妻精品无码一区二区三区| 国产精品毛片在线| 欧美爱爱视频免费看| 99视频一区| 女人喷潮完整视频| 性欧美精品高清| av免费中文字幕| 日韩精品亚洲一区二区三区免费| 日韩亚洲在线视频| 日本欧美韩国一区三区| 中文久久久久久| 蜜臀av性久久久久蜜臀av麻豆| 一区二区三区视频在线观看免费| 日韩二区三区四区| 在线看的黄色网址| 精品一区二区三区在线播放视频| 亚洲综合伊人久久| 国产高清亚洲一区| 制服丝袜第一页在线观看| 91麻豆精品在线观看| 国产毛片久久久久久久| 国产精品久久久久国产精品日日| 亚洲区一区二区三| 亚洲一区二区三区四区在线免费观看| 精品一区免费观看| 日韩人在线观看| 少妇无套内谢久久久久| 91精品一区二区三区在线观看| 精品美女www爽爽爽视频| 日韩av在线电影网| 触手亚洲一区二区三区| 欧美成人免费一级人片100| wwwww亚洲| 日本欧美中文字幕| 激情综合婷婷| 精品一区二区三区免费毛片| 欧美肉体xxxx裸体137大胆| 一区二区视频国产| 欧美先锋影音| 日韩视频在线免费看| 黄网站免费久久| 国产黑丝在线观看| 中文字幕精品在线不卡| 久久久久久天堂| 色94色欧美sute亚洲线路二| 99久久精品国产色欲| 亚洲跨种族黑人xxx| 麻豆视频在线观看免费网站| 午夜精品福利在线观看| 国产精品成人国产| 国产视频一区二区不卡| 日韩欧美网站| 成人在线免费观看网址| 久久综合网络一区二区| 日韩欧美色视频| 96av麻豆蜜桃一区二区| 亚洲 欧美 国产 另类| 精品成人乱色一区二区| 一级片视频网站| 亚洲精美色品网站| 乱人伦中文视频在线| 日本国产欧美一区二区三区| 久久久久久久久成人| 日日夜夜精品网站| 亚洲理论在线| 成年人网站av| 中文字幕国产一区| 一级免费在线观看| 91精品福利在线一区二区三区| 男男电影完整版在线观看| 欧美激情精品久久久久| 九七电影院97理论片久久tvb| 久久久影院一区二区三区| 牛牛国产精品| 亚洲色图 在线视频| 久久日韩粉嫩一区二区三区| 伊人365影院| 日韩欧美国产精品一区| 黄页视频在线播放| 国产精品专区一| 国产亚洲一区| 免费看又黄又无码的网站| 国产 日韩 欧美大片| 91香蕉一区二区三区在线观看| 欧洲人成人精品| 日本韩国一区| 午夜精品福利在线观看| 国产成人高清精品免费5388| 国产视频在线观看网站| 激情综合色综合久久| 欧美a级片免费看| 欧美曰成人黄网| 国产在线观看精品一区| 热久久这里只有精品| 午夜欧洲一区| 久久成人福利视频| 不卡的av在线播放| 麻豆疯狂做受xxxx高潮视频| 日韩一区二区三区免费观看| 浪潮av一区| 91色精品视频在线| 中文字幕免费精品| 色姑娘综合天天| 亚洲激情一二三区| 精品人妻无码一区二区色欲产成人 | 欧美日韩极品在线观看一区| 91啦中文在线| 国产美女被下药99| 婷婷激情图片久久| 污免费在线观看| 亚洲美女在线国产| 精品人妻一区二区三区麻豆91| 美女福利精品视频| **爰片久久毛片| 拔插拔插海外华人免费| 91免费视频网| 国产嫩bbwbbw高潮| 中文字幕欧美日韩在线| 成人97精品毛片免费看| 2021国产视频| 成人av网站在线| 91美女免费看| 亚洲视频777| 啪啪av大全导航福利综合导航| 一区高清视频| 国产精品夜夜嗨| 偷偷操不一样的久久| 亚洲天堂av在线播放| 自拍偷拍欧美日韩| 激情五月婷婷六月| 久久久噜噜噜久久人人看| 正在播放亚洲精品| 欧美成人手机在线| 亚洲素人在线| 中文字幕久久av| 亚洲电影在线播放| 国产尤物视频在线|