精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型

人工智能
DCMHA解除了MHA注意力頭的查找選擇回路和變換回路的固定綁定,讓它們可以根據輸入動態組合,從根本上提升了模型的表達能力。可以近似理解為,原來每層有固定的H個注意力頭,現在用幾乎同樣的參數量和算力,可按需動態組合出多至HxH個注意力頭。

改進Transformer核心機制注意力,讓小模型能打兩倍大的模型!

ICML 2024高分論文,彩云科技團隊構建DCFormer框架,替換Transformer核心組件多頭注意力模塊(MHA),提出可動態組合的多頭注意力(DCMHA)。

DCMHA解除了MHA注意力頭的查找選擇回路和變換回路的固定綁定,讓它們可以根據輸入動態組合,從根本上提升了模型的表達能力。

可以近似理解為,原來每層有固定的H個注意力頭,現在用幾乎同樣的參數量和算力,可按需動態組合出多至HxH個注意力頭。

DCMHA即插即用,可在任何Transformer架構中替換MHA,得到通用、高效和可擴展的新架構DCFormer。

圖片

這項工作由來自北京郵電大學、AI創業公司彩云科技的研究人員共同完成。

研究人員用在DCFormer基礎上打造的模型DCPythia-6.9B,在預訓練困惑度和下游任務評估上都優于開源Pythia-12B。

DCFormer模型在性能上與那些計算量是其1.7-2倍的Transformer模型相當。

圖片

多頭注意力模塊有何局限?

大模型的scaling law告訴我們,隨著算力的提升,模型更大、數據更多,模型效果會越來越好。雖然還沒有人能明確說明這條路的天花板有多高,能否達到AGI,但這確實是目前大家最普遍的做法。

但除此以外,另一個問題同樣值得思考:目前絕大多數大模型都基于Transformer,它們都是用一個一個Transformer塊像搭積木一樣搭起來的,那作為積木塊的Transformer本身,還有多大的改進提升空間?

這是模型結構研究要回答的基本問題,也正是彩云科技和北京郵電大學聯合完成的DCFormer這項工作的出發點。

在Transformer的多頭注意力模塊(MHA)中,各個注意力頭彼此完全獨立的工作。

這個設計因其簡單易實現的優點已在實踐中大獲成功,但同時也帶來注意力分數矩陣的低秩化削弱了表達能力、注意力頭功能的重復冗余浪費了參數和計算資源等一些弊端。基于此,近年來有一些研究工作試圖引入某種形式的注意力頭間的交互。

根據Transformer回路理論,在MHA中 ,每個注意力頭的行為由WQ、WK、WV、WO四個權重矩陣刻畫(其中WO由MHA的輸出投影矩陣切分得到)

其中,WQWK叫做QK回路(或叫查找選擇回路),決定從當前token關注上下文中的哪個(些)token,例如:

圖片

WOWV叫做OV回路(或叫投影變換回路),決定從關注到的token取回什么信息(或投影什么屬性)寫入當前位置的殘差流,進而預測下一個token。例如:

圖片

研究人員注意到,查找(從哪拿)和變換(拿什么)本來是獨立的兩件事,理應可以分別指定并按需自由組合(就像在SQL查詢中,WHERE后的選擇條件和SELECT后的屬性投影是分開寫的一樣),MHA硬把它們放到一個注意力頭的QKOV里“捆綁銷售”,限制了靈活性和表達能力。

例如,假設有個模型存在注意力頭A、B、C其QK和OV回路能夠完成上面的例子=,那換成:

圖片

需要交叉組合現有注意力頭的QK和OV回路,模型就可能“轉不過彎兒”了(經研究人員系統構造的合成測試集驗證,<=6B的中小尺寸模型在這類看似簡單的任務上確實表現不佳)。

動態組合多頭注意力長啥樣?

以此為出發點,本文研究團隊在MHA中引入compose操作

圖片

如下圖所示,得到DCMHA:

圖片
△圖1. DCMHA總體結構

將QWQ和KWK算出的注意力分數矩陣AS和注意力權重矩陣AW,與VWV相乘之前,對其在num_heads維上做線性映射得到新的矩陣A’,通過不同的線性映射矩陣(composition map),以實現各種注意力頭組合的效果。

例如圖2(c)中將head 3和7的QK回路與head 1的OV回路組合在一起,形成一個“新的”注意力頭。

圖片

圖片
△圖2. 8個注意力頭的簡化的典型composition map的功能,淺色表示大值

為了最大限度的增強表達能力,研究人員希望映射矩陣由輸入動態生成,即動態決定注意力頭怎樣組合。

但他們要生成的映射矩陣不是一個,而是對序列中每對源位置的query Qi和目的位置的key Kj,都要生成這樣一個矩陣,計算開銷和顯存占用都將難以接受。

為此,他們進一步將映射矩陣分解為一個輸入無關的靜態矩陣Wb、一個低秩矩陣w1w2和一個對角矩陣Diag(wg)之和,分別負責基礎組合、注意力頭間的有限方式(即秩R<=2)的動態組合和頭自身的動態門控(見圖2(d)和圖3(b))。其中后兩個矩陣由Q矩陣和K矩陣動態生成。

在不犧牲效果的前提下,將計算和參數復雜度降低到幾乎可以忽略的程度(詳見論文中復雜度分析)。再結合JAX和PyTorch實現層面的優化,讓DCFormer可以高效訓練和推理。

圖片
△圖3. Compose的計算

效果如何?

規模擴展

評估一個架構的好壞,研究人員關注的最核心指標是算力轉化為智能的效率(或叫性能算力比),即投入單位算力能帶來的模型性能提升——花更少的算力,得到更好的模型。

從圖4和圖5的scaling law曲線(在對數坐標下,每個模型架構的損失隨算力的變化可畫出一條近似直線,損失越低,模型越好)可以看出,DCFormer可以達到1.7~2倍算力的Transformer模型的效果,即算力智能轉化率提升了1.7~2倍。

圖片
△圖4. Transformer和DCFormer的規模擴展效果
圖片
△圖5. Pythia和DCPythia的規模擴展效果

怎么理解這個提升幅度呢?

自2017年Transformer誕生至今,從改進性能算力比的角度,GLU MLP和旋轉位置編碼RoPE是經大量實踐驗證普適有效且被廣泛采用的為數不多的兩項架構改進。

在原始Transformer中加入這兩項改進的架構也叫Transformer++,Llama、Mistral等最強開源模型均采用該架構。無論Transformer還是Transformer++架構,都可通過DCMHA獲得顯著改進。

在1.4B模型規模下,DCMHA的改進幅度大于Transformer++的兩項改進之和,且擴展性更好(圖4下藍綠線和黑線的對比,DCMHA的改進幅度隨算力增加衰減的更慢,以及圖4和圖5的對比)。

可以說,DCFormer讓Transformer的能力又躍上一個新臺階。

下游任務評測

研究團隊訓練了DCPythia-2.8B和DCPythia-6.9B兩個模型在主流NLP下游任務上進行測評并和同規模的開源模型Pythia進行比較(訓練采用和Pythia完全相同超參數設置)

圖片
△表1. DCFormer 和 Pythia 在下游任務中的表現

從表1中可以看出,DCPythia-2.8B和6.9B不僅在Pile驗證集上的ppl 更低,而且在大部分下游任務上都顯著超過了Pythia,DCPythia6.9B在 ppl 和下游任務上的平均準確率甚至超過了Pythia-12B。

DCFormer++2.8B相對于DCPythia-2.8B有進一步的提升,驗證了DCMHA和Lllama架構結合的有效性。

訓練和推理速度

雖然引入DCMHA會帶來額外的訓練和推理開銷,但是從表2中可以看出DCFormer++的訓練速度是Transformer++的74.5%-89.2%,推理速度則是81.1%-89.7%,而且隨著模型參數的增長,額外的計算開銷會逐漸降低。

圖片
△表2. Transformer++和DCFormer++的訓練和推理速度對比

訓練速度是在TPU v3 pod,序列長度為2048,batch_size為1k的情況下對比得到的;推理速度是在A100 80G GPU上進行評測的,輸入長度1024,生成長度128。

消融實驗

結果如下:

圖片
△表3. DCMHA的消融實驗

從表3中可以看出以下幾點:

  • 雖然加入靜態的組合權重就可以降低ppl,但引入動態的組合權重可以進一步降低ppl,說明了動態組合的必要性。
  • 低秩動態組合比動態門控的效果更好。
  • 只用query-wise或者key-wise的動態組合得到的ppl相當,與DCFormer++的差距很小。
  • 在softmax后做注意力頭組合比在softmax前做更有效,可能是因為softmax后的概率能更直接影響輸出。
  • 動態組合權重的秩無需設置過大,也說明了組合權重的低秩性。

此外,研究人員還通過增加局部注意力層的比例和只用query-wise動態組合的方式去進一步減少訓練和推理開銷,詳見論文Table 10。

總的來說,研究團隊有兩點總結。

關于動態權重:近期Mamba,GLA,RWKV6,HGRN等SSM和線性注意力/RNN的工作,通過引入動態(input-dependent)權重的方式,追趕上了Transformer++,但DCFormer用動態組合注意力頭的方式說明了在使用 softmax 注意力的情況下,通過引入動態權重也可以大幅提升Transformer++的效果。

關于模型架構創新:這項工作表明,如果存在一個具有極限算力智能轉化效率的“理想模型架構”,當前的Transformer架構雖已非常強大,但距離這個理想架構很可能還存在很大的差距,仍有廣闊的提升空間。因此,除了堆算力堆數據的大力出奇跡路線,模型架構創新同樣大有可為。

研究團隊還表示,彩云科技會率先在旗下產品彩云天氣、彩云小譯、彩云小夢上應用DCformer。

有關更多研究細節,可參閱原始論文。

ICML2024論文鏈接:https://icml.cc/virtual/2024/poster/34047。
Arxiv 論文鏈接:https://arxiv.org/abs/2405.08553。
代碼鏈接:https://github.com/Caiyun-AI/DCFormer。

責任編輯:姜華 來源: 量子位
相關推薦

2024-07-01 12:17:54

2025-10-22 08:52:23

2024-06-28 08:04:43

語言模型應用

2025-03-18 09:23:22

2024-12-27 13:59:33

數據訓練模型

2025-10-16 09:00:00

大模型

2023-05-05 13:11:16

2024-12-09 00:00:10

2025-05-07 09:12:00

模型研究LLM

2025-07-16 10:15:51

2022-03-25 11:29:04

視覺算法美團

2024-04-03 14:31:08

大型語言模型PytorchGQA

2025-05-08 09:14:54

2024-02-01 12:43:16

模型數據

2024-12-17 14:39:16

2025-08-04 09:31:49

2023-05-15 09:43:49

模型數據

2025-08-11 06:17:54

2024-04-17 12:55:05

谷歌模型注意力

2018-05-03 16:27:29

RNN神經網絡ResNet
點贊
收藏

51CTO技術棧公眾號

日本免费在线视频不卡一不卡二| 欧美黄页在线免费观看| 成人黄色国产精品网站大全在线免费观看 | 凹凸成人精品亚洲精品密奴| 欧美乱妇20p| 国产va亚洲va在线va| 麻豆导航在线观看| 国产揄拍国内精品对白| 青青a在线精品免费观看| 日本伦理一区二区三区| 狼人天天伊人久久| 91精品国产一区二区三区| 成 年 人 黄 色 大 片大 全| av影片免费在线观看| 99久久婷婷国产综合精品电影| 国产欧美精品日韩| 日本午夜视频在线观看| 中文字幕免费一区二区三区| 亚洲欧美综合另类中字| 日本天堂在线播放| 天堂久久一区| 91久久线看在观草草青青| 国产一区二区三区小说| 欧美成年黄网站色视频| 国产亚洲精品福利| 精品无码久久久久国产| 成人h动漫精品一区二区无码| 日韩av一二三| 国产成人免费av| 韩国美女主播一区| 日本中文字幕片| 女同一区二区免费aⅴ| 国产精品看片你懂得| 欧美日韩亚洲综合一区二区三区激情在线 | 色婷婷精品久久二区二区蜜臂av| 天天想你在线观看完整版电影免费| 国产在线视频福利| eeuss鲁片一区二区三区在线观看| 91精品久久久久久久久久另类 | 久草成色在线| 亚洲精品自拍动漫在线| 一区二区精品国产| 成年人在线观看视频| 久久久久久久久久久久久女国产乱 | 日批视频免费观看| 日韩福利视频导航| 国产成人jvid在线播放| 黄色污污网站在线观看| 久久久人人人| 国产精品∨欧美精品v日韩精品| 丰满少妇乱子伦精品看片| 一本色道久久综合亚洲精品不卡 | 亚洲www免费| 色综合久久综合网欧美综合网| 日本午夜激情视频| 欧美巨大丰满猛性社交| 福利视频第一区| 亚洲成熟丰满熟妇高潮xxxxx| 在线男人天堂| 色综合久久久久综合99| 欧美精品成人网| 免费高清视频在线一区| 欧美系列亚洲系列| 九九热精品国产| 日韩中文字幕在线一区| 精品国产凹凸成av人网站| 精品欧美乱码久久久久久1区2区| 日本黄色一级网站| 136福利精品导航| 亚洲精品一区在线观看| 亚洲av片不卡无码久久| 欧美男同视频网| 中文字幕亚洲激情| 黑人巨大精品一区二区在线| 欧美视频四区| 欧美一区二区三区……| 亚洲中文无码av在线| 久久精品国产99国产精品| 91免费国产网站| 日本高清视频免费看| 久久久综合精品| 亚洲一区二区精品在线观看| av在线免费观看网址| 亚洲va国产va欧美va观看| 精品久久久久久久免费人妻| 成人永久在线| 亚洲精品国产精品国自产观看浪潮 | 欧美三级一区二区三区| 国内自拍视频在线播放| 国产在视频线精品视频www666| 色爱av美腿丝袜综合粉嫩av| 久久久久久av无码免费网站| 亚洲一区二区三区免费在线观看| 国产精品热视频| 性一交一乱一伧老太| 久久美女艺术照精彩视频福利播放| 伊人久久婷婷色综合98网| 高清视频在线观看三级| 欧美精品电影在线播放| 色天使在线视频| 88国产精品视频一区二区三区| 97视频在线播放| 亚洲天堂中文在线| 94色蜜桃网一区二区三区| 一本久道久久综合| 在线中文字幕播放| 欧美电视剧在线看免费| 欧美 日韩 成人| 亚洲二区在线| 91日本视频在线| 蜜桃视频在线入口www| 一级女性全黄久久生活片免费| 老司机午夜av| 女一区二区三区| 久久成人在线视频| 丰满熟女人妻一区二区三| av福利精品导航| 四虎4hu永久免费入口| 日韩制服一区| 精品一区电影国产| 国产高清精品一区二区三区| 老熟妇仑乱一区二区av| 国产成人精品一区二区三区四区| 亚洲激情图片| 亚洲最大成人| 精品99一区二区| 蜜臀久久精品久久久用户群体| 视频精品一区二区| 精品午夜一区二区| 免费毛片在线看片免费丝瓜视频| 欧美日韩在线亚洲一区蜜芽| 黄瓜视频污在线观看| 国产精品多人| 999热视频在线观看| 蜜芽在线免费观看| 欧美丝袜丝交足nylons| 欧美性猛交xxxx乱| 免费亚洲一区| 免费亚洲一区二区| 久草在线视频资源| 欧美sm极限捆绑bd| 久久久久久久久久综合| 韩国av一区二区三区在线观看| 日韩在线电影一区| av成人免费| 深夜福利91大全| 中文字幕在线视频第一页| 国产情人综合久久777777| 国产成人久久777777| 日本韩国欧美超级黄在线观看| 亚洲欧美一区二区三区国产精品 | 国产精品区在线| 精品久久成人| 国产精品网红直播| 视频三区在线| 欧美一级一区二区| 久久久久久久久久91| 久久99国产精品免费网站| 免费观看黄色的网站| 人人九九精品视频| 97精品国产aⅴ7777| 桃花色综合影院| 欧美视频一区二区三区四区| 国产老头老太做爰视频| 国产成人av一区二区三区在线观看| 男人添女荫道口女人有什么感觉| 凹凸成人在线| 日本精品免费一区二区三区| 成年人在线观看| 91麻豆精品91久久久久同性| 久操视频免费在线观看| jiyouzz国产精品久久| 国产亚洲天堂网| 成人在线视频免费观看| 亚洲最大福利网| 国产美女高潮在线观看| 亚洲人午夜色婷婷| 亚洲怡红院av| 亚洲第一久久影院| 国产suv精品一区二区| 中文在线免费观看| 亚洲激情校园春色| 亚洲男人在线天堂| 蜜桃精品视频在线| 亚洲精品影院| 97久久综合区小说区图片区| 日本免费久久高清视频| 米奇精品一区二区三区| 精品久久久久久久久久久久久久久久久| 日韩特级黄色片| 日韩美女精品在线| 成人免费无码大片a毛片| 麻豆视频一区二区| 国产精品秘入口18禁麻豆免会员| 91嫩草亚洲精品| 久久99导航| 蜜桃在线一区| 国产精品爱啪在线线免费观看| av网址在线| 亚洲人成网7777777国产| a在线观看免费| 欧美在线免费观看视频| 国产在线一二区| 国产欧美日韩在线| 无码人妻精品一区二区三区99不卡| 日韩av一区二区在线影视| 久久艹国产精品| 久久一区二区三区喷水| 免费精品视频一区| 大香伊人久久精品一区二区| 国产精品一区二区在线| 亚洲同志男男gay1069网站| 欧美成人免费在线观看| 9色在线视频网站| 精品亚洲夜色av98在线观看| 不卡视频在线播放| 欧美疯狂做受xxxx富婆| 国产女主播喷水视频在线观看| 亚洲国产成人av好男人在线观看| 亚洲国产精品一区二区久久hs| 一区二区三区视频网站| 欧美特级www| 国产大片中文字幕在线观看| 中文字幕一区二区在线观看| 91成年人网站| 91色porny在线视频| 91超薄肉色丝袜交足高跟凉鞋| 日本精品在线视频| 91高清在线视频| 国产精品美女久久久久aⅴ国产馆 国产精品美女久久久久av爽李琼 国产精品美女久久久久高潮 | 一炮成瘾1v1高h| 色嗨嗨av一区二区三区| 波多野结衣国产| 亚洲国产精品一区二区www在线 | 欧美另类久久久品| 中文亚洲av片在线观看| 在线欧美日韩精品| 五月婷婷激情视频| 色综合天天综合| 黄色片视频免费| 色欧美88888久久久久久影院| 国产毛片aaa| 欧美视频国产精品| 欧美性猛交bbbbb精品| 日韩欧中文字幕| 无码人妻丰满熟妇区五十路| 日韩欧美亚洲成人| 日韩三级视频在线播放| 欧美日韩精品在线播放| 在线观看国产亚洲| 日韩欧美在线免费| 国产一级片av| 欧美日韩久久久| 国产精品久久久久久69| 欧美一区2区视频在线观看| 国产哺乳奶水91在线播放| 日韩精品综合一本久道在线视频| 精品国产999久久久免费| 欧美电视剧在线看免费| 污视频软件在线观看| 精品亚洲一区二区三区四区五区| 伦理片一区二区三区| 深夜福利国产精品| 18+激情视频在线| 992tv成人免费视频| 韩日精品一区二区| 国产日韩欧美黄色| 玖玖玖电影综合影院| 国产九区一区在线| 精品国产乱码久久久久久果冻传媒 | 成人精品网站在线观看| 日韩中文字幕| 欧美精品久久久| 久久激情电影| 国产欧美久久久久| 美女诱惑一区| 欧美三级电影在线看| 超碰在线观看91| 在线不卡的av| 午夜性色福利影院| 中文字幕欧美日韩va免费视频| 中文在线手机av| 青青草成人在线| 国产精品久一| 美日韩免费视频| 91不卡在线观看| 亚洲熟妇av一区二区三区| 久久国产精品99精品国产| 深夜视频在线观看| 国产欧美日韩精品一区| 精国产品一区二区三区a片| 大桥未久av一区二区三区| 96亚洲精品久久久蜜桃| 日韩精品视频在线| 国产原创视频在线观看| 欧美一区二区三区免费观看 | 中文在线不卡| 性生生活大片免费看视频| 99久久99久久精品国产片果冻| 日本成人精品视频| 欧美性猛交xxxx免费看| 999久久久久| 在线观看日韩视频| 大桥未久在线视频| 91色精品视频在线| 欧美在线电影| 国产黄色一级网站| 国产精品白丝jk白祙喷水网站| 91成人在线免费视频| 亚洲一级二级在线| 国产情侣自拍小视频| 一区二区三区www| 男人av在线播放| 99re在线| 亚洲国产老妈| 亚洲久久中文字幕| 久久夜色精品国产噜噜av| 国产亚洲欧美精品久久久www| 欧美日本不卡视频| 国产视频网址在线| 欧美一级电影久久| 黄色网一区二区| 人人妻人人澡人人爽欧美一区| 九九在线精品视频| 超碰人人干人人| 91成人在线精品| 亚州视频一区二区三区| 久久久久亚洲精品| 午夜视频一区二区在线观看| 国产又粗又爽又黄的视频| 麻豆精品在线播放| 呻吟揉丰满对白91乃国产区| 欧美视频二区36p| 三级做a全过程在线观看| 国内自拍欧美激情| 国产一区二区三区亚洲| 欧美精品卡一卡二| 成人性生交大片免费看视频在线| 免看一级a毛片一片成人不卡| 日韩一区二区三区四区| 在线看女人毛片| 痴汉一区二区三区| 影音先锋久久| 日本一卡二卡在线| 免播放器亚洲一区| 狠狠久久综合婷婷不卡| 欧美三级乱码| 欧洲熟妇的性久久久久久| 一区二区免费看| 六月婷婷综合网| 91精品国产高清自在线 | 日韩毛片中文字幕| 无遮挡爽大片在线观看视频 | 国产高清免费av在线| 日韩av大片免费看| 日韩电影二区| 婷婷中文字幕在线观看| 亚洲精品国产成人久久av盗摄| 性欧美videos另类hd| 午夜精品久久久久久久白皮肤| 欧美男人操女人视频| 欧美女人性生活视频| 久久精品视频一区二区| 波多野结衣小视频| 久久影视免费观看| 97久久综合区小说区图片区| 日韩中文字幕三区| 国产欧美精品一区二区色综合 | 国产精品成人国产| 女同性恋一区二区| www.久久久久久久久| 久久精品国产成人av| 中文字幕欧美在线| 999久久久精品一区二区| 黄色影院一级片| 国产精品久久久久久久久免费樱桃 | 伊人精品久久久久7777| 成人午夜电影久久影院| 亚洲欧美一区二区三区在线观看| 日韩中文在线中文网三级| 中文字幕日韩在线| 亚洲色精品三区二区一区| 亚洲免费资源在线播放| 日韩欧美电影在线观看| 国产日韩在线视频| 在线亚洲激情| 小早川怜子一区二区的演员表| 亚洲国产精品字幕| 男人亚洲天堂| 欧美在线观看成人| 亚洲欧洲精品一区二区精品久久久| 免费a级片在线观看| 国产欧美中文字幕| 99pao成人国产永久免费视频| 久久精品色妇熟妇丰满人妻| 亚洲国产97在线精品一区| 成人福利一区二区| 日本韩国欧美在线观看| 国产精品久久久久久久裸模| 五月婷婷综合久久|