精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

歸一化提高預訓練、緩解梯度不匹配,F(xiàn)acebook的模型超越GPT-3

新聞 人工智能
最近的研究表明,在 Post-LN transformer 中,與較早層的網絡相比,在較后層的網絡中具有更大的梯度幅度。

  [[431684]]

在原始的 Transformer 架構中,LayerNorm 通常在 Residual 之后,稱之為 Post-LN(Post-Layer Normalization)Transformer,該模型已經在機器翻譯、文本分類等諸多自然語言的任務中表現(xiàn)突出。

最近的研究表明,在 Post-LN transformer 中,與較早層的網絡相比,在較后層的網絡中具有更大的梯度幅度。

實踐表明,Pre-LN Transformer 可以使用更大的學習率、極小的學習率進行預熱(即 warm-up),并且與 Post-LN Transformer 相比通常會產生更好的性能,所以最近大型預訓練語言模型傾向于使用 Pre-LN transformer。

來自 Facebook AI 的研究者表明,雖然 Pre-LN 比 Post-LN 提高了穩(wěn)定性,但也具有缺點:較早層的梯度往往大于較后層的梯度。這些問題可以通過該研究提出的 NormFormer 來緩解,它通過向每一層添加 3 個歸一化操作來緩解梯度幅度不匹配問題(見圖 1,中間):自注意力之后添加層歸一,自注意力輸出的 head-wise 擴展,在第一個全連接層之后添加層歸一。這些操作減少了早期層的梯度,增加了后期層的梯度,使不同層的梯度大小更接近。

此外,這些額外的操作產生的計算成本可以忽略不計(+0.4% 的參數(shù)增加),但這樣做可以提高模型預訓練困惑度和在下游任務的表現(xiàn),包括在 1.25 億參數(shù)到 27 億參數(shù)的因果模型和掩碼語言模型的性能。例如,該研究在最強的 1.3B 參數(shù)基線之上添加 NormFormer 可以將同等困惑度提高 24%,或者在相同的計算預算下更好地收斂 0.27 倍困惑度。該模型以快 60% 的速度達到了與 GPT3-Large (1.3B)零樣本相同的性能。對于掩碼語言模型,NormFormer 提高了微調好的 GLUE 性能,平均提高了 1.9%。

歸一化提高預訓練、緩解梯度不匹配,F(xiàn)acebook的模型超越GPT-3

論文地址:https://arxiv.org/pdf/2110.09456.pdf

與計算匹配、微調好的 Pre-LN 基線相比,NormFormer 模型能夠更快地達到目標預訓練的困惑度,更好地實現(xiàn)預訓練困惑度和下游任務性能。

論文一作 Sam Shleifer 在推特上表示:很高興發(fā)布 NormFormer,這是我們新的語言建模架構,在實驗過的每個擴展(高達 2.7B 參數(shù))上都優(yōu)于 GPT-3。

歸一化提高預訓練、緩解梯度不匹配,F(xiàn)acebook的模型超越GPT-3

來自魁北克蒙特利爾學習算法研究所的機器學習研究者 Ethan Caballero 表示:「更多的歸一化 is All You Need,在 GPT-3 架構中使用 NormFormer 達到了 SOTA 性能, 速度提高了 22%,并在下游任務中獲得了更強的零樣本性能?!?/p>

歸一化提高預訓練、緩解梯度不匹配,F(xiàn)acebook的模型超越GPT-3

方法架構

NormFormer 對 Pre-LN transformer 做了三處修改:在注意力模塊內部應用 head-wise 縮放,并添加兩個額外的 LayerNorm 操作(一個放在注意力模塊后面,另一個放在首個全連接層后面)。這些修改引入了少量額外的可學得參數(shù),使得每個層都能以經濟高效的方式改變特征大小,進而改變后續(xù)組件的梯度大小。這些變化的細節(jié)如下圖 1 所示:

歸一化提高預訓練、緩解梯度不匹配,F(xiàn)acebook的模型超越GPT-3

縮放注意力頭。標準多頭注意力操作定義如下:

歸一化提高預訓練、緩解梯度不匹配,F(xiàn)acebook的模型超越GPT-3

研究者提出通過學得的標量系數(shù)γ_i 縮放每個注意力頭的輸出:

歸一化提高預訓練、緩解梯度不匹配,F(xiàn)acebook的模型超越GPT-3

額外層歸一化以及將所有組件放在一起。在 Pre-LN transformer 中,每個層 l 將輸入 x_l 做出如下修改:

歸一化提高預訓練、緩解梯度不匹配,F(xiàn)acebook的模型超越GPT-3

相反,NormFormer 將每個輸入 x_l 修改如下:

歸一化提高預訓練、緩解梯度不匹配,F(xiàn)acebook的模型超越GPT-3

其中,新引入了 bolded operations。

實驗結果

對于因果語言模型(Casual Language Model),研究者預訓練的 CLM 模型分別為 Small(1.25 億參數(shù))、Medium(3.55 億參數(shù))、Large(13 億參數(shù))和 XL(27 億參數(shù))。

他們訓練了 3000 億個 token 的基線模型,并用等量的 GPU 小時數(shù)訓練 NormFormer 模型,由于歸一化操作的額外開銷,后者通常會減少 2%-6% 的 steps 和 tokens。

在使用的數(shù)據(jù)集上,研究者發(fā)現(xiàn) GPT-3 中提出的學習率不是最理想的。因此,對于除了 27 億參數(shù)之外的每個大小的基線和 NormFormer 模型,他們通過訓練 5 萬 steps 的模型并從 {1e−4, 6e−4, 3e−4, 6e−4, 1e−3, 3e−3} 中選擇性能最佳的學習率來對學習率進行調整。這一過程中獲得的學習率如下表 1 所示,NormFormer 的學習率是 GPT-3 的 3-5 倍。

歸一化提高預訓練、緩解梯度不匹配,F(xiàn)acebook的模型超越GPT-3

對于掩碼語言模型(Masked Language Model, MLM),研究者采用了 Liu et al. (2019)中使用的 RoBERTa-base、Pre-LN 架構和超參數(shù)。對于基線模型,他們對 100 萬個 token 預訓練了 200 萬個 batch,是原始 roberta-base 訓練預算的 1/4。相較之下,NormFormer 在相同時間內運行了 192 萬個 batch。

對于預訓練數(shù)據(jù),研究者在包含 CC100 英語語料庫以及由 BookCorpus、英文維基百科和 Common Crawl 過濾子集組成的 Liu et al. (2019)的數(shù)據(jù)英語文本集合上對所有模型進行預訓練。

在下圖 2 中,研究者將 CLM 和 MLM 的預訓練困惑度表示訓練時間,即 GPU days??梢钥吹?,NormFormer 的訓練速度明顯更快,并且在給定訓練計算預算下實現(xiàn)了更好的驗證困惑度。

歸一化提高預訓練、緩解梯度不匹配,F(xiàn)acebook的模型超越GPT-3

研究者在下游任務上也觀察到了類似的趨勢。如下表 2 所示,研究者使用 Brown et al. (2020)中的任務和 prompt 來觀察 CLM 模型的零樣本準確率。同樣地,NormFormer 在所有大小上均優(yōu)于 GPT-3。

歸一化提高預訓練、緩解梯度不匹配,F(xiàn)acebook的模型超越GPT-3

對于 MLM 模型,研究者在下表 3 中報告了在 GLUE 上的微調準確率。再次,NormFormer MLM 模型在每個任務上都優(yōu)于它們的 Pre-LN 模型。

歸一化提高預訓練、緩解梯度不匹配,F(xiàn)acebook的模型超越GPT-3

為了度量架構的穩(wěn)定性,研究者使用具有極大峰值學習率的學習率計劃對其進行訓練,使得學習率每個 step 增加一點,直到損失爆炸。圖 5 顯示了與基線相比,NormFormer 模型在此環(huán)境中可以承受更多的更新。

歸一化提高預訓練、緩解梯度不匹配,F(xiàn)acebook的模型超越GPT-3

 

 

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2021-03-23 15:21:00

人工智能機器學習技術

2022-03-30 15:20:19

AI自然語言模型

2022-03-14 09:33:56

神經網絡模型人工智能

2022-06-23 15:54:15

NLP訓練

2022-05-05 09:00:00

AI模型數(shù)據(jù)

2022-06-01 16:47:53

AI模型開源

2022-03-24 10:35:38

人工智能模型代碼

2023-02-16 13:48:56

模型論文

2023-12-04 13:38:55

模型3D可視化

2025-10-24 10:41:33

2022-05-26 05:37:00

人工智能機器學習AI

2023-03-01 16:15:16

2021-09-08 17:23:33

谷歌模型開發(fā)

2023-04-07 09:53:02

量子AI

2021-07-19 10:56:36

GPE-3OpenAI微軟

2021-01-19 16:34:30

開源技術 GPT-3

2023-06-08 15:33:31

人工智能GPT-3

2022-01-06 09:57:02

數(shù)據(jù)計算機神經網絡

2022-11-21 09:34:33

AI模型

2023-02-14 08:00:00

人工智能GPT-3語言模型
點贊
收藏

51CTO技術棧公眾號

麻豆av在线导航| 日韩国产精品一区二区| 色欲人妻综合网| 国产精品色婷婷在线观看| 国产精品日韩精品欧美在线| 国产精品美乳一区二区免费| 日本黄色特级片| 国产精品久久久久av电视剧| 日本一区二区免费在线观看视频| 国产日韩欧美中文在线播放| 粉嫩av性色av蜜臀av网站| 美女国产精品久久久| 一区二区高清视频在线观看| 国产伦精品一区二区三区四区视频| 天天操天天爽天天干| 精品国产不卡| 日韩情涩欧美日韩视频| 精品视频免费在线播放| av网站在线播放| 国产剧情av麻豆香蕉精品| 国内精品在线一区| 一级黄色片网址| 伊人久久亚洲| 91福利精品视频| 奇米777四色影视在线看| 人妻偷人精品一区二区三区| 日韩成人午夜精品| 欧美理论电影在线播放| 男女黄床上色视频| 欧美高清hd| 黑人狂躁日本妞一区二区三区 | 亚洲精品一区二区三区樱花| www香蕉视频| 日韩精品免费专区| www.久久色.com| aaaa黄色片| 亚洲狼人在线| 色欧美日韩亚洲| 久久www视频| 国产私人尤物无码不卡| 粉嫩高潮美女一区二区三区 | 久久久精品视频免费| 日韩成人精品一区二区| 日韩激情视频在线播放| 日本55丰满熟妇厨房伦| 成人午夜一级| 一本大道av伊人久久综合| a级网站在线观看| 大地资源中文在线观看免费版| 丰满少妇久久久久久久| 国产在线精品播放| 怡红院av久久久久久久| 一区二区日本视频| 欧美日韩福利电影| 99成人在线观看| 精品国产一级毛片| 亚洲精品一区二区三区福利| 天天操精品视频| 国产日本久久| 欧洲精品一区二区| 蜜臀av午夜一区二区三区| 国产伦久视频在线观看| 亚洲一区二区美女| 日韩亚洲欧美一区二区| 污的网站在线观看| 自拍av一区二区三区| 欧美日本亚洲| 水莓100国产免费av在线播放| 国产成人av电影在线播放| 91色中文字幕| 国产精品无码AV| 国产呦萝稀缺另类资源| 91久久夜色精品国产网站| 一区二区三区免费观看视频| 免费在线看一区| 国产精品久久精品| 波多野结衣电车痴汉| 免费在线亚洲欧美| 欧美在线亚洲在线| 波多野结衣啪啪| 六月婷婷一区| 国产精品99久久久久久www| 国产婷婷色一区二区在线观看| 国产精品亚洲产品| 欧美壮男野外gaytube| 无码人妻精品一区二区50| 天堂精品中文字幕在线| 国产精品福利网站| 亚洲综合视频在线播放| 精品午夜久久福利影院| 5566中文字幕一区二区| 风流少妇一区二区三区91| 97久久超碰国产精品| 蜜桃传媒一区二区| 草碰在线视频| 国产精品二区一区二区aⅴ污介绍| 中国人体摄影一区二区三区| 在线āv视频| 午夜精品免费在线观看| 亚洲国产精品久久久久婷蜜芽 | 国产精品久久久久久久久久久久久久 | 免费短视频成人日韩| 亚洲区在线播放| 国产又粗又长免费视频| 国产一区观看| 国产999精品久久久影片官网| 日韩精品久久久久久免费| 秋霞午夜鲁丝一区二区老狼| 成人免费福利视频| 三级小视频在线观看| 国产午夜精品久久久久久久| 黄色www在线观看| 2019中文字幕在线电影免费| 一本大道av伊人久久综合| 91热视频在线观看| 色婷婷精品视频| www.日韩免费| 久草精品视频在线观看| 日韩影院在线观看| 成人女人免费毛片| yiren22亚洲综合伊人22| 一区二区三区成人在线视频| 麻豆av免费在线| 久久久久九九精品影院| 精品性高朝久久久久久久| 美女三级黄色片| 亚洲女人av| 91久久久一线二线三线品牌| 女人偷人在线视频| 一区二区三区在线看| 污污视频网站免费观看| 激情综合婷婷| 精品丝袜一区二区三区| 91插插插插插插| 日本成人在线视频网站| 国产一区二区视频在线免费观看 | 日韩大片免费观看视频播放| 国产午夜精品理论片在线| 国产一区二区三区成人欧美日韩在线观看 | 国产永久免费高清在线观看视频| 一区二区成人在线观看| 日本激情视频在线播放| 香蕉视频一区二区三区| 九色91av视频| 91黄色在线视频| 国产三级欧美三级| 自慰无码一区二区三区| 中文字幕视频精品一区二区三区| 色噜噜狠狠狠综合曰曰曰| www.国产com| 成人免费毛片片v| 妞干网这里只有精品| 欧美a视频在线| 伊人伊人伊人久久| 精品在线视频观看| 国产一区二区三区在线观看精品 | 久久不射热爱视频精品| 中文字幕 视频一区| 久久久久国产一区二区三区四区| av高清在线免费观看| 1769国产精品视频| 欧美高清第一页| 99久久一区二区| 综合av第一页| 午夜一级免费视频| 99久久久久国产精品| 国产精品第七十二页| 四虎精品在线| 色狠狠综合天天综合综合| 一女三黑人理论片在线| 国产精品尤物| 欧美人与性禽动交精品| 欧美成人免费电影| 亚洲深夜福利在线| 国产成人精品亚洲| 国产精品免费人成网站| 中文字幕亚洲乱码| 午夜片欧美伦| 99视频在线免费观看| 都市激情久久综合| 亚洲国产欧美一区二区丝袜黑人 | 我不卡一区二区| 99精品国产在热久久| 精品久久久久久乱码天堂| 日本黄色免费在线| 亚洲一级免费视频| 国产精品久久777777换脸| 日韩毛片一二三区| 精品人妻一区二区免费| 99这里有精品| 日韩精品一区二区三区四区五区| 99只有精品| 久久亚洲精品成人| 少妇喷水在线观看| 日韩欧美综合在线视频| 特级西西人体高清大胆| 国内久久婷婷综合| 国产精品成人久久电影| 六月丁香久久丫| 国产精品久久久一区| 国产鲁鲁视频在线观看特色| 精品国产露脸精彩对白| 日韩熟女一区二区| 亚洲色图丝袜美腿| 国产精品入口麻豆| 免费观看日韩电影| 青青草影院在线观看| 欧洲亚洲成人| 国产精品入口尤物| 国产丝袜在线播放| 在线性视频日韩欧美| 精品国产av鲁一鲁一区| 亚洲一区电影777| 精品中文字幕在线播放| 另类av一区二区| 特色特色大片在线| 久久99久久人婷婷精品综合 | 无码免费一区二区三区免费播放| 国产一区二区三区黄网站| 91精品91久久久久久| 在线观看免费网站黄| 亚洲成人在线视频播放| 亚洲一卡二卡在线| 狠狠干狠狠久久| 欧美日韩在线观看成人| 久久午夜电影网| 亚洲成a人片在线www| 秋霞电影一区二区| 欧美日韩在线中文| 欧美fxxxxxx另类| 日韩欧美一区二区三区四区| 国产精品白浆| 成人av番号网| 性欧美18~19sex高清播放| 久久夜色精品国产欧美乱| 国产福利片在线| 亚洲精品国精品久久99热| 国内精品久久久久久久久久| 欧美三级日韩三级国产三级| 久久久久久久极品| 夜夜精品视频一区二区| 97精品在线播放| 国产午夜亚洲精品不卡 | 99久久久久免费精品国产 | 天天看片中文字幕| 国产精品天干天干在观线| 全黄一级裸体片| 国产黄色成人av| 超碰人人草人人| 麻豆成人久久精品二区三区红| 激情婷婷综合网| 午夜宅男久久久| 国产原创popny丨九色| 精品动漫3d一区二区三区免费版| 在线一区日本视频| 妖精视频一区二区三区免费观看 | 色综合.com| 久久久噜噜噜久噜久久| 69xxx在线| 久热精品视频在线观看一区| 男人资源在线播放| 最好看的2019年中文视频| 91网页在线观看| 这里只有精品在线播放| 国产在线视频网| 国产亚洲精品久久| 国产三级视频在线看| 亚洲性线免费观看视频成熟| 国产系列在线观看| 国产亚洲精品美女| 成人激情电影在线看| 中文字幕在线观看日韩| eeuss影院在线播放| 在线成人一区二区| 欧美69xxx| 欧美日本在线视频中文字字幕| 亚洲性图自拍| 久久久久久久久久久国产| 91美女精品| 欧美专区在线视频| 福利视频一区| 国产精品久久久久久搜索| 欧美男女视频| 成人日韩av在线| 日本一区二区乱| 国产伦精品一区二区三区在线| 美腿丝袜亚洲图片| 欧美日韩在线精品| 日韩伦理视频| 777久久精品一区二区三区无码 | 日韩视频二区| 日韩网址在线观看| 麻豆精品91| 成人日韩在线视频| 国产98色在线|日韩| 亚洲精品视频大全| 国产精品免费视频网站| 久久久久久久久久99| 精品毛片三在线观看| 中文字幕日韩三级| 精品久久一二三区| 欧美色视频免费| 另类少妇人与禽zozz0性伦| 国产网红女主播精品视频| 国产成人午夜视频网址| 996久久国产精品线观看| 国产成人av一区二区三区| 四虎5151久久欧美毛片| 一区二区三区视频在线播放| 黄色一区二区三区四区| 成人3d动漫一区二区三区| 国产精品456| 男女做爰猛烈刺激| 一区二区三区四区在线免费观看| 男人午夜免费视频| 91 com成人网| 日韩私人影院| 欧美成人三级视频网站| 欧美影视资讯| 97欧洲一区二区精品免费| 女同一区二区三区| 超碰97免费观看| 久久婷婷麻豆| 欧美一级大片免费看| 国产日韩精品一区二区三区| 久久高清无码视频| 欧美亚洲综合久久| 免费看黄色一级视频| 中文字幕免费国产精品| 僵尸再翻生在线观看| 97久久人人超碰caoprom欧美| 视频一区欧美| 欧美另类videosbestsex日本| 日韩精品午夜视频| 国内精品久久99人妻无码| 一区二区在线免费观看| 一区二区三区在线免费观看视频| 日韩毛片中文字幕| 黄色软件视频在线观看| 91欧美激情另类亚洲| jiujiure精品视频播放| 免费在线观看亚洲视频| 成人午夜视频福利| 欧美日韩精品亚洲精品| 欧美精选一区二区| 成人综合影院| 欧美综合第一页| 粉嫩精品导航导航| 在线丝袜欧美日韩制服| 日本强好片久久久久久aaa| 成年人网站免费看| 午夜精品久久久久影视| 天堂av在线免费| 久久噜噜噜精品国产亚洲综合| 日韩中文字幕无砖| 国产日韩第一页| 久久99久久99精品免视看婷婷 | 国产精品免费大片| 天天影视综合色| 国产精品美女久久久久av爽李琼| 国产影视一区二区| 久久99久久亚洲国产| 国产精品17p| 精品久久久久av| 国产精品美日韩| 国产浮力第一页| 4438全国成人免费| 精品视频免费在线观看| www.欧美激情.com| 无码av免费一区二区三区试看 | 中文字幕在线不卡国产视频| 国产99对白在线播放| 久久久久久噜噜噜久久久精品| 秋霞影视一区二区三区| 日本人视频jizz页码69| 亚洲精品高清视频在线观看| 午夜成人免费影院| 国产精品电影久久久久电影网| 亚洲精品97| 免费的av网站| 欧美精品丝袜久久久中文字幕| aa在线视频| 免费观看成人高| 久久99久国产精品黄毛片色诱| 日韩黄色a级片| 中文字幕精品久久| 第一区第二区在线| 九九热在线免费| 亚洲图片有声小说| 国产一级片在线播放| 91久久极品少妇xxxxⅹ软件| 麻豆九一精品爱看视频在线观看免费| 天天爽天天爽天天爽| 日韩成人在线视频| 996久久国产精品线观看| 亚洲午夜无码av毛片久久| 亚洲视频免费看| 免费理论片在线观看播放老| 91成人在线看| 日韩电影一区二区三区四区|