精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

這篇論文非常火!差分Transformer竟能消除注意力噪聲,猶如降噪耳機

人工智能 新聞
今天我們又將介紹另一種新型 Transformer 架構:Differential Transformer(差分 Transformer,簡稱 Diff Transformer)。該架構來自微軟研究院和清華大學,有四位共一作者:Tianzhu Ye、Li Dong、Yuqing Xia、Yutao Sun。

Transformer 的強大實力已經在諸多大型語言模型(LLM)上得到了證明,但該架構遠非完美,也有很多研究者致力于改進這一架構,比如機器之心曾報道過的 Reformer 和 Infini-Transformer。

今天我們又將介紹另一種新型 Transformer 架構:Differential Transformer(差分 Transformer,簡稱 Diff Transformer)。該架構來自微軟研究院和清華大學,有四位共一作者:Tianzhu Ye、Li Dong、Yuqing Xia、Yutao Sun。

圖片

  • 論文標題:Differential Transformer
  • 論文地址:https://arxiv.org/pdf/2410.05258

在 Hacker News 及 Twitter 等社交網絡上,該論文都反響熱烈,有網友表示差分 Transformer 提出的改進簡單又美麗,而帶來的提升又非常顯著。

圖片

甚至已有開發者做出了差分 Transformer 的輕量實現!

圖片

差分 Transformer 的輕量實現,https://github.com/Jaykef/ai-algorithms/blob/main/DIFF_Transformer.ipynb

那么差分 Transformer 彌補了原生 Transformer 的哪些問題呢?如下圖所示,Transformer 往往會過度關注不相關的上下文,該團隊將此稱為注意力噪聲(attention noise)。而差分 Transformer 則能放大對答案范圍的注意力并消除噪音,從而增強上下文建模的能力。這就要用到該團隊新提出的差分注意力機制(differential attention mechanism)了。

圖片

差分注意力機制可以消除注意力噪聲,鼓勵模型重點關注關鍵信息。該方法有些類似于電氣工程中的降噪耳機和差分放大器。

下面我們就來詳細了解一下差分 Transformer 的設計思路。

差分 Transformer

差分 Transformer 是一種用于序列建模的基礎模型架構。為了方便說明,他們使用了僅解碼器(decoder-only)模型作為示例來描述該架構。

該模型堆疊了 L 個 Diff Transformer 層。給定一個輸入序列 x,將輸入嵌入打包成 X^0。輸入會被進一步上下文化來獲得輸出 X^L。每一層都由兩個模塊組成:一個差分注意力模塊和之后的前向網絡模塊。

相比于 Transformer,差分 Transformer 的主要差別在于使用差分注意力替換了傳統的 softmax 注意力,同時保持整體宏觀布局不變。此外,他們也參考 LLaMA 采用了 pre-RMSNorm 和 SwiGLU 這兩項改進措施。

差分注意力

差分注意力機制的作用是將查詢、鍵和值向量映射成輸出。這里使用查詢和鍵向量來計算注意力分數,然后計算值向量的加權和。

此處的關鍵設計是使用一對 softmax 函數來消除注意力分數的噪聲。具體來說,給定輸入 X,首先將它們投射成查詢、鍵和值 Q_1、Q_2、K_1、K_2、V。然后差分注意力算子 DiffAttn (?) 通過以下方式計算輸出:

圖片

其中 W^Q、W^K 、W^V 是參數,λ 是可學習的標量。為了同步學習動態,將標量 λ 重新參數化為:

圖片

其中 λ_q1、λ_k1、λ_q2、λ_k2 是可學習的向量,λ_init ∈ (0, 1) 是用于初始化 λ 的常數。該團隊通過經驗發現,設置 λ_init = 0.8 ? 0.6 × exp (?0.3?(l ? 1)) 在實踐中效果很好,其中 l ∈ [1, L] 表示層索引。它在實驗中被用作默認策略。

他們也探索了另一種初始化策略:對所有層使用相同的 λ_init(例如 0.8)。如后面消融研究所示,使用不同的初始化策略時,性能相對穩健。

差分注意力利用兩個 softmax 注意力函數之間的差來消除注意力噪聲。這個想法類似于電氣工程中提出的差分放大器,其中兩個信號之間的差用作輸出,這樣就可以消除輸入的共模噪聲。此外,降噪耳機的設計也基于類似的想法。

  • 多頭差分注意力機制

該團隊也為差分注意力使用了多頭機制。令 h 表示注意力頭的數量。他們對各個頭使用不同的投影矩陣 W^Q_i 、W^K_i 、W^V_i ,i ∈ [1, h]。標量 λ 在同一層內的頭之間共享。然后對頭輸出執行歸一化,并投射成最終結果,如下所示:

圖片

其中 λ_init 是 (2) 式中的常數標量,W^O 是可學習的投影矩陣,LN (?) 是對每個頭使用 RMSNorm,Concat (?) 的作用是沿通道維度將頭連接在一起。這里使用一個固定乘數(1 ? λ_init)作為 LN (?) 的縮放尺度,以使梯度與 Transformer 對齊。

  • 逐頭歸一化

圖 2 使用了 GroupNorm (?) 來強調 LN (?) 獨立應用于每個 head。由于差分注意力往往具有更稀疏的模式,因此頭之間的統計信息更加多樣化。為了改進梯度的統計情況,LN (?) 算子會在連接操作之前對每個頭進行歸一化。

圖片

整體架構

其整體架構會堆疊 L 層,其中每層包含一個多頭差分注意力模塊和一個前向網絡模塊。如此,便可將差分 Transformer 層描述為:

圖片

其中 LN (?) 是 RMSNorm,SwiGLU (X) = (swish (XW^G) ⊙ XW_1) W_2,且 W^G、W_1、W_2 是可學習的矩陣。

實驗

該團隊從以下角度評估了差分 Transformer 在 LLM 中的應用,包括對比評估、應用評估和消融研究。這里我們僅關注實驗結果,更多實驗過程請訪問原論文。

語言建模評估

該團隊評估了差分 Transformer 的語言建模能力。為此,他們使用 1T token 訓練了一個 3B 大小的差分 Transformer 語言模型,并與之前的 Transformer 語言模型做了比較。

結果見表 1,其中報告的是在 LM Eval Harness 基準上的零樣本結果。

圖片

可以看到,3B 規模下,差分 Transformer 語言模型的表現優于之前的 Transformer 語言模型。此外,實驗也表明差分 Transformer 在多種任務上都勝過 Transformer,詳見原論文附錄。

與 Transformer 的可擴展性比較

該團隊也比較了新舊 Transformer 的可擴展性。結果見圖 3,其中 a 比較了模型規模方面的可擴展性,而 b 則是訓練 token 數量方面的可擴展性。

圖片

可以看到,在這兩個方面,差分 Transformer 的可擴展性均優于常規 Transformer:僅需后者 65% 左右的模型大小或訓練 token 數量就能達到相媲美的性能。

長上下文評估

當 3B 模型上下文長度增長至 64K,模型的表現又如何呢?又使用另外 1.5B token 訓練了 3B 版本的檢查點模型之后,該團隊發現隨著上下文長度的增加,累積平均負對數似然(NLL)持續下降。差分 Transformer 得到的 NLL 值低于常規 Transformer。見圖 4,這樣的結果表明,差分 Transformer 可以有效地利用不斷增加的上下文。

圖片

關鍵信息檢索

為了檢驗差分 Transformer 檢索關鍵信息的能力,該團隊執行了 Needle-In-A-Haystack(草堆找針)測試。

表 2 給出了 4K 上下文長度的情況,其中 N 是針的數量,R 是查詢引用的數量。可以看到,差分 Transformer 的多針檢索準確度高于常規 Transformer,尤其是當針數量較多時,差分 Transformer 的優勢會更加明顯。

圖片

那么當上下文長度提升至 64K 時,又會如何呢?結果見圖 5,這里使用的上下文長度在 8K 到 64K 之間,使用了 N = 8 和 R = 1 的設置。

圖片

可以看到,在不同的上下文長度下,差分 Transformer 能夠保持相對穩定的性能。而當上下文長度越來越大時,常規 Transformer 的性能會逐漸下降。

另外,表 3 展示了分配給關鍵信息檢索任務的答案范圍和噪聲上下文的注意力分數。該分數可代表模型保留有用信息、抵抗注意力噪聲的能力。

圖片

可以看到,相比于常規 Transformer,差分 Transformer 能為答案范圍分配更高的注意力分數,同時為注意力噪聲分配更低的注意力分數。

上下文學習能力評估

該團隊從兩個角度評估模型的上下文學習能力,包括多樣本分類和上下文學習的穩健性。

圖 6 展示了新舊 Transformer 模型的多樣本分類結果。結果表明,在不同的數據集和不同的演示樣本數量上,差分 Transformer 均穩定地優于 Transformer。此外,差分 Transformer 的平均準確度優勢也很明顯,從 5.2% 到 21.6% 不等。

圖片

圖 7 則展示了兩種模型的上下文學習穩健性結果。該分析基于 TREC 數據集,并且采用了兩種提示詞格式:示例隨機排列(圖 7a)和按類別交替排列(圖 7b)。

圖片

在這兩種設置下,差分 Transformer 的性能方差要小得多。結果表明,新方法在上下文學習任務中更為穩健。相比之下,Transformer 容易受到順序排列的影響,導致最佳結果與最差結果之間差距巨大。

上下文幻覺評估

該團隊基于文本摘要和問答任務評估了模型的上下文幻覺現象。結果見表 4。

圖片

可以看到,相比于常規 Transformer,差分 Transformer 在摘要和問答任務上的上下文幻覺更低。該團隊表示,原因可能是差分 Transformer 能更好地關注任務所需的基本信息,而不是無關上下文。

激活異常值分析

在 LLM 中,一部分激活值明顯大于大多數激活值的現象被稱為激活異常值(activation outliers)。異常值導致訓練和推理過程中模型量化困難。實驗表明差分 Transformer 可以降低激活異常值的幅度,從而可能實現更低的量化位寬。

表 5 展示了兩個訓練得到 Transformer 和差分 Transformer 模型的激活值統計情況。這里分析了兩種類型的激活,包括注意力 logit(即 pre-softmax 激活)和隱藏狀態(即層輸出)。可以看到,盡管中位數相似,但與 Transformer 相比,差分 Transformer 的較大激活值要低得多。這表明新方法產生的激活異常值較少。

圖片

圖 8 則展示了將注意力 logit 量化到更低位的情況。這里使用的方案是:使用 absmax 量化的動態后訓練量化。其中,16 位配置表示未經量化的原始結果。模型逐步量化為 8 位、6 位和 4 位。這里報告的是在 HellaSwag 上的零樣本準確度,但該團隊也指出在其它數據集上也有類似表現。

圖片

從圖中可知,即使降低位寬,差分 Transformer 也能保持較高性能。相較之下,常規 Transformer 的準確度在 6 位和 4 位量化時會顯著下降。這一結果表明,差分 Transformer 本身就能緩解注意力分數中的激活異常值問題,從而可為低位 FlashAttention 的實現提供新機會。

最后,該團隊也進行了消融實驗,證明了各個新設計的有效性。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-11-04 08:45:00

2024-12-17 14:39:16

2025-04-29 09:05:00

2024-02-19 00:12:00

模型數據

2024-10-31 10:00:39

注意力機制核心組件

2022-02-08 15:43:08

AITransforme模型

2023-07-30 15:42:45

圖神經網絡PyTorch

2024-12-04 15:55:21

2024-12-04 09:25:00

2024-09-19 10:07:41

2024-07-01 12:17:54

2023-11-24 12:36:00

模型訓練

2018-08-26 22:25:36

自注意力機制神經網絡算法

2025-02-19 15:30:00

模型訓練數據

2025-02-25 09:40:00

模型數據AI

2023-06-12 09:57:22

AIChatGPT

2023-07-29 13:26:51

模型AI

2025-07-08 09:00:00

2023-12-11 14:21:00

模型訓練

2025-02-19 15:47:48

點贊
收藏

51CTO技術棧公眾號

少妇高潮久久77777| 91久久久免费一区二区| 国产精品成人观看视频免费| 日韩免费黄色片| 免费观看久久av| 欧美天天综合网| 国产在线无码精品| 深夜福利在线观看直播| 日本成人中文字幕在线视频| 欧美老肥婆性猛交视频| 国产艳俗歌舞表演hd| 伊人久久一区| 精品人伦一区二区三区蜜桃网站 | 伊人久久成人网| 午夜精品久久| 亚洲图中文字幕| 逼特逼视频在线观看| 欧美91在线|欧美| 欧美日韩国产色视频| 强伦女教师2:伦理在线观看| 亚州精品国产精品乱码不99按摩| 极品少妇一区二区| 日韩免费av片在线观看| 欧美日韩精品一区二区三区视频播放| 久久最新网址| 亚洲国产欧美一区二区三区同亚洲| 亚洲成色www.777999| а√天堂8资源中文在线| 亚洲欧美在线高清| 日韩小视频在线| 美女扒开腿免费视频| 日韩成人一区| 91成人免费在线视频| www.日本少妇| 在线看三级电影| 国产精品福利一区二区三区| 欧美一区二区三区电影在线观看 | 国产伦精品一区二区三区视频青涩 | 国产精品一区而去| 国产日韩一级片| 麻豆精品新av中文字幕| 国产精品7m视频| 国产成人自拍视频在线| 一区在线视频| 欧美精品video| 青草影院在线观看| 久久久精品久久久久久96| 一区二区三区久久精品| av电影网站在线观看| 杨幂一区二区三区免费看视频| 精品粉嫩超白一线天av| 中文字幕一区二区三区人妻在线视频 | 亚洲综合视频网| 国产成人三级视频| 2024最新电影在线免费观看| 最新日韩av在线| 色撸撸在线观看| 美女羞羞视频在线观看| 国产精品久线观看视频| 在线观看日本一区| 草莓福利社区在线| 一区二区三区蜜桃网| a级片一区二区| 欧美hdxxx| 亚洲国产精品天堂| 欧美 日韩 激情| 欧美xo影院| 欧美日韩国产色站一区二区三区| 日韩一级免费片| 日韩精品一区国产| 亚洲国产成人久久综合| 少妇激情一区二区三区视频| 亚洲免费专区| 在线日韩欧美视频| 国产又粗又硬又长又爽| 欧美精品一级| 欧洲精品久久久| 中文字幕人妻色偷偷久久| 蜜乳av一区二区| 99国产视频在线| 日日夜夜精品免费| 欧美高清在线视频| 97超碰在线视| 自拍视频在线看| 欧美日韩视频一区二区| 国产在线视频三区| 天天操综合520| 色噜噜狠狠狠综合曰曰曰88av| 九九热精品在线观看| 亚洲综合精品四区| 91久久精品在线| 日本久久一级片| 中文字幕高清一区| 精品久久久久久无码中文野结衣| 深夜视频一区二区| 日韩免费看网站| 国产免费一区二区三区网站免费| 93在线视频精品免费观看| 久久久久久69| 在线免费看91| av影院午夜一区| 懂色av一区二区三区四区五区| sm在线观看| 欧美久久婷婷综合色| 伊人久久久久久久久| 精品精品久久| 久久久女女女女999久久| 中文资源在线播放| 91蜜桃婷婷狠狠久久综合9色| 一区二区不卡在线| 久久毛片亚洲| 欧美mv日韩mv国产网站app| 少妇无套高潮一二三区| 亚洲久久视频| 亚洲影视九九影院在线观看| 噜噜噜噜噜在线视频| 亚洲愉拍自拍另类高清精品| 日本在线观看免费视频| 欧美美女啪啪| 欧美日韩国产第一页| 中文在线最新版天堂| 久久夜色精品国产噜噜av| 国产精品视频一二三四区| 成人激情视屏| 亚洲欧美另类人妖| 日本少妇做爰全过程毛片| 国产在线精品一区二区| 亚洲成人自拍视频| 欧美舌奴丨vk视频| 日韩极品精品视频免费观看| 久久久久久国产精品免费播放| 久久精品国产**网站演员| 欧洲一区二区日韩在线视频观看免费 | 三级视频在线看| 夜夜精品视频一区二区 | 久久精品在线播放| 中文字幕一二三四| 国产欧美一区二区精品性色| 日韩视频第二页| 任你躁在线精品免费| 午夜精品一区二区三区在线视频| 国产夫妻自拍av| 亚洲精品视频在线看| 亚洲精品第三页| 91一区在线| 91麻豆国产语对白在线观看| 欧美高清视频| 51精品秘密在线观看| 97在线观看视频免费| 精品一区二区在线观看| 中文有码久久| 精品视频在线播放一区二区三区| 久久精品亚洲一区| 国产sm主人调教女m视频| 亚洲精品免费视频| 亚洲黄色小说在线观看| 亚洲高清电影| 免费在线观看一区二区| 日韩av首页| 中文字幕在线观看亚洲| 国产原创中文av| 亚洲欧美日韩人成在线播放| 国产裸体视频网站| 极品av少妇一区二区| 国产精品一区二区欧美黑人喷潮水| 免费不卡av| 精品亚洲一区二区三区在线观看| 国产99久久久| 中文字幕乱码亚洲精品一区| 污污网站在线观看视频| 中文字幕亚洲精品乱码| 91一区二区三区| 97超碰免费在线| 亚洲女人天堂成人av在线| 日韩欧美国产另类| 亚洲同性gay激情无套| 动漫av在线免费观看| 国产欧美日本| 亚洲精品日韩在线观看| 日韩亚洲国产免费| 久久久久日韩精品久久久男男| 十九岁完整版在线观看好看云免费| 日本高清免费不卡视频| 日本高清不卡免费| 99久久伊人久久99| 亚洲成人天堂网| 激情文学一区| 性欧美.com| 51精品国产| 国产精品嫩草视频| 成人影院在线播放| 国产一区二区美女视频| 国产成人三级一区二区在线观看一| 五月婷婷综合在线| 一级黄色片日本| 91女神在线视频| 激情图片中文字幕| 午夜在线播放视频欧美| 99精品视频网站| 成人高清在线| 三级成人在线视频| 欧美日韩高清在线一区| 国产精品视频首页| 国产成人精品优优av| 成年人网站在线| 亚洲香蕉成人av网站在线观看 | 日本不卡一区二区三区| 日韩欧美不卡在线| 婷婷六月综合| 欧美主播一区二区三区美女 久久精品人 | 午夜视频在线看| 亚洲国产毛片完整版| 国产精品亚洲欧美在线播放| 欧美小视频在线| 午夜写真片福利电影网| 国产精品美女久久久久久| 亚洲第一黄色网址| 国产激情偷乱视频一区二区三区| 色七七在线观看| 国产日韩欧美一区在线 | www.色在线| 久久成人18免费网站| 成a人片在线观看www视频| 亚洲精品久久久久中文字幕二区| 国产chinasex对白videos麻豆| 欧美亚洲一区三区| 国产原创视频在线| 午夜欧美在线一二页| 青娱乐国产精品| 亚洲同性gay激情无套| 日本美女黄色一级片| 国产精品视频线看| 最近中文字幕免费| 久久久久国产精品厨房| 鲁大师私人影院在线观看| 国产福利不卡视频| 亚洲国产日韩在线一区| 国产在线视频一区二区| 国产精欧美一区二区三区白种人| 青青草一区二区三区| 91热这里只有精品| 日韩激情在线观看| 狠狠热免费视频| 丝袜美腿成人在线| 五月天婷婷激情视频| 毛片一区二区三区| 手机看片一级片| 久久97超碰色| 亚洲精品mv在线观看| 国产乱码精品一区二区三区忘忧草 | 久久久久久久久久久久久久av| 亚洲高清免费视频| 成人午夜视频精品一区| 亚欧色一区w666天堂| 自拍偷拍欧美亚洲| 91久久国产最好的精华液| 精品国产乱子伦| 欧美视频一区二区| 国产精品无码免费播放| 日韩免费视频一区| 性高潮久久久久久久久久| 国产亚洲精品久久久| 77777影视视频在线观看| 久久久91精品国产一区不卡| av文字幕在线观看| 欧美极品xxxx| 一区二区三区短视频| 国产精品极品在线| 精品一区二区三区四区五区 | 亚洲精品综合久久| 日韩精品一二三四区| 成人18在线| 欧美日韩福利在线观看| 女人高潮被爽到呻吟在线观看| 欧美在线播放视频| 欧美一区=区三区| 国产精品对白一区二区三区| 日韩深夜影院| 一区二区三区精品国产| 国精品一区二区三区| 91视频最新入口| 精品亚洲porn| 中文字幕一区二区人妻电影丶| 国产午夜精品在线观看| 亚洲综合视频网站| 欧美特黄级在线| 亚洲影院一区二区三区| 亚洲第一精品自拍| melody高清在线观看| 欧美国产在线视频| 精品三区视频| 国产视频精品网| 久久美女视频| 国产精品自拍片| 国产一区二区三区在线看麻豆 | 18成人在线视频| 五月婷婷亚洲综合| 欧美日韩精品免费| 亚洲av片在线观看| 欧美成人午夜激情在线| 成人午夜视屏| 国产精品传媒毛片三区| 91综合网人人| 国产成人精品无码播放| 成人午夜激情视频| 成人在线观看高清| 在线观看视频一区二区| 天天av天天翘| 久久精视频免费在线久久完整在线看| 小h片在线观看| 成人自拍视频网站| 97精品在线| 一级特黄性色生活片| 2020国产精品久久精品美国| 强行糟蹋人妻hd中文| 欧美日韩一区不卡| 男女av在线| 2019中文字幕在线免费观看| 日韩欧美一级| 久久久成人精品一区二区三区 | 欧美+亚洲+精品+三区| 91香蕉视频污版| 国产亚洲短视频| 亚洲免费黄色网址| 亚洲精品99久久久久| a视频在线播放| 91精品国产综合久久香蕉| 国产精品免费99久久久| 欧美日韩国产精品激情在线播放| 国产91精品在线观看| 欧美成人777| 欧美乱妇15p| caoporn国产精品免费视频| 日本道色综合久久影院| 色天天色综合| 乱妇乱女熟妇熟女网站| 成人动漫视频在线| 亚洲国产精品午夜在线观看| 精品少妇一区二区三区日产乱码| 精品51国产黑色丝袜高跟鞋| 国产欧美日韩专区发布| 久久精品播放| 天天影视色综合| 亚洲日本丝袜连裤袜办公室| 国产女主播福利| 久久久精品在线| 日本免费一区二区三区视频| 成人黄色片免费| 懂色av一区二区夜夜嗨| 国产亚洲欧美精品久久久久久| 欧美大片国产精品| 免费在线观看av电影| 国产日本一区二区三区| 99国产精品视频免费观看一公开 | 无需播放器的av| 亚洲欧洲色图综合| www.中文字幕| 久久免费视频在线| 自拍欧美一区| 手机看片福利日韩| 亚洲色图欧洲色图婷婷| 国产熟女一区二区三区五月婷| 欧美另类在线播放| 九色丨蝌蚪丨成人| 久草综合在线观看| 自拍偷拍欧美精品| 丰满少妇高潮在线观看| 91地址最新发布| 精品日韩一区| 视频区 图片区 小说区| 亚洲国产视频一区二区| 午夜av免费观看| 国产精品三级网站| 欧美黄免费看| 久久国产精品无码一级毛片| 欧美性色黄大片手机版| 成人看av片| 麻豆av一区| 精品一区二区三区久久| 久久精品国产亚洲AV无码男同| 亚洲欧美成人一区二区在线电影| 精品美女一区| 男人插女人视频在线观看| 国产午夜亚洲精品午夜鲁丝片| 国产毛片毛片毛片毛片| 91精品国产九九九久久久亚洲| 国产精品一线天粉嫩av| 中文字幕在线视频一区二区三区 | 97在线国产视频| 中文av字幕一区| 亚洲女人18毛片水真多| 国产福利精品在线| 欧美精品成人| 精品国产成人亚洲午夜福利| 日韩视频永久免费| 欧美三区四区| 青春草国产视频| 中文字幕在线播放不卡一区| 污污的视频网站在线观看| 成人福利视频在线观看|