精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

訓練ViT和MAE減少一半計算量!Sea和北大聯合提出高效優化器Adan,深度模型都能用

人工智能 新聞
換個優化器,計算量少一半。

自Google提出Vision Transformer(ViT)以來,ViT漸漸成為許多視覺任務的默認backbone。憑借著ViT結構,許多視覺任務的SoTA都得到了進一步提升,包括圖像分類、分割、檢測、識別等。

然而,訓練ViT并非易事。除了需要較復雜的訓練技巧,模型訓練的計算量往往也較之前的CNN大很多。近日,新加坡Sea AI LAB (SAIL) 和北大ZERO Lab的研究團隊共同提出新的深度模型優化器Adan,該優化器可以僅用一半的計算量就能完成ViT的訓練。

圖片

論文鏈接:https://arxiv.org/pdf/2208.06677.pdf

代碼鏈接:?https://github.com/sail-sg/Adan?

此外,在計算量一樣的情況下, Adan在多個場景(涉及CV、NLP、RL)、多種訓練方式(有監督與自監督)和多種網絡結構/算法(Swin、ViT、ResNet、ConvNext、MAE、LSTM、BERT、Transformer-XL、PPO算法)上,均獲得了性能提升。

代碼、配置文件、訓練log均已開源。

深度模型的訓練范式與優化器

隨著ViT的提出,深度模型的訓練方式變得越來越復雜。常見的訓練技巧包括復雜的數據增強(如MixUp、CutMix、AutoRand)、標簽的處理(如label smoothing和noise label)、模型參數的移動平均、隨機網絡深度、dropout等。伴隨著這些技巧的混合運用,模型的泛化性與魯棒性均得到了提升,但是隨之而來的便是模型訓練的計算量變得越來越大。

在ImageNet 1k上,訓練epoch數從ResNet剛提出的90已經增長到了訓練ViT常用的300。甚至針對一些自監督學習的模型,例如MAE、ViT,預訓練的epoch數已經達到了1.6k。訓練epoch增加意味著訓練時間極大的延長,急劇增加了學術研究或工業落地的成本。目前一個普遍的解決方案是增大訓練的batch size并輔助并行訓練以減少訓練時間,但是伴隨的問題便是,大的batch size往往意味著performance的下降,并且batch size越大,情況越明顯。

這主要是因為模型參數的更新次數隨著batch size的增加在急劇減少。當前的優化器并不能在復雜的訓練范式下以較少的更新次數實現對模型的快速訓練,這進一步加劇了模型訓練epoch數的增長。

因此,是否存在一種新的優化器能在較少的參數更新次數情況下更快更好地訓練深度模型?在減少訓練epoch數的同時,也能緩解batch size增加帶來的負面影響?

被忽略的沖量

要想加速優化器的收斂速度,最直接的方法便是引入沖量。近年提出的深度模型優化器均沿用著Adam中使用的沖量范式——重球法

圖片

其中g_k是隨機噪聲,m_k是moment,eta是學習率。Adam將m_k的更新由累積形式換成了移動平均的形式,并引入二階moment(n_k)對學習率進行放縮,即:

圖片

然而隨著Adam訓練原始ViT失敗,它的改進版本AdamW漸漸地變成了訓練ViT甚至ConvNext的首選。但是AdamW并沒有改變Adam中的沖量范式,因此在當batch size超過4,096的時候,AdamW訓練出的ViT的性能會急劇下降。

傳統凸優化領域,有一個與重球法齊名的沖量技巧——Nesterov沖量算法

圖片

Nesterov沖量算法在光滑且一般凸的問題上,擁有比重球法更快的理論收斂速度,并且理論上也能承受更大的batch size。同重球法不同的是,Nesterov算法不在當前點計算梯度,而是利用沖量找到一個外推點,在該點算完梯度以后再進行沖量累積。

外推點能幫助Nesterov算法提前感知當前點周圍的幾何信息。這種特性使得Nesterov沖量更加適合復雜的訓練范式和模型結構(如ViT),因為它并不是單純地依靠過去的沖量去繞開尖銳的局部極小點,而是通過提前觀察周圍的梯度,調整更新的方向。

盡管Nesterov沖量算法擁有一定的優勢,但是在深度優化器中,卻鮮有被應用與探索。其中一個主要的原因就是Nesterov算法需要在外推點計算梯度,在當前點更新,期間需要多次模型參數重載以及需要人為地在外推點進行back-propagation (BP)。這些不便利性極大地限制了Nesterov沖量算法在深度模型優化器中的應用。

Adan優化器

通過結合改寫的Nesterov沖量與自適應優化算法,并引入解耦的權重衰減,可以得到最終的Adan優化器。利用外推點,Adan可以提前感知周圍的梯度信息,從而高效地逃離尖銳的局部極小區域,以增加模型的泛化性。

1) 自適應的Nesterov沖量

為了解決Nesterov沖量算法中多次模型參數重載的問題,研究人員首先對Nesterov進行改寫:

圖片

可以證明,改寫的Nesterov沖量算法與原算法等價,兩者的迭代點可以相互轉化,且最終的收斂點相同??梢钥吹剑ㄟ^引入梯度的差分項,已經可以避免手動的參數重載和人為地在外推點進行BP。

將改寫的Nesterov沖量算法同自適應類優化器相結合——將m_k的更新由累積形式替換為移動平均形式,并使用二階moment對學習率進行放縮:

圖片

至此已經得到了Adan的算法的基礎版本。

2) 梯度差分的沖量

可以發現,m_k的更新將梯度與梯度的差分耦合在一起,但是在實際場景中,往往需要對物理意義不同的兩項進行單獨處理,因此研究人員引入梯度差分的沖量v_k:

圖片

這里對梯度的沖量和其差分的沖量設置不同的沖量/平均系數。梯度差分項可以在相鄰梯度不一致的時候減緩優化器的更新,反之,在梯度方向一致時,加速更新。

3) 解耦的權重衰減

對于帶L2權重正則的目標函數,目前較流行的AdamW優化器通過對L2正則與訓練loss解耦,在ViT和ConvNext上獲得了較好的性能。但是AdamW所用的解耦方法偏向于啟發式,目前并不能得到其收斂的理論保證。

基于對L2正則解耦的思想,也給Adan引入解耦的權重衰減策略。目前Adan的每次迭代可以看成是在最小化優化目標F的某種一階近似:

圖片

由于F中的L2權重正則過于簡單且光滑性很好,以至于不需要對其進行一階近似。因此,可以只對訓練loss進行一階近似而忽略L2權重正則,那么Adan的最后一步迭代將會變成:

圖片

有趣的是,可以發現AdamW的更新準則是Adan更新準則在學習率eta接近0時的一階近似。因此,可從proximal 算子的角度給Adan甚至AdamW給出合理的解釋而不是原來的啟發式改進。

4)   Adan優化器

將2)和3)兩個改進結合進Adan的基礎版本,可以得到如下的Adan優化器。

圖片

Adan結合了自適應優化器、Nesterov沖量以及解耦的權重衰減策略的優點,能承受更大的學習率和batch size,以及可以實現對模型參數的動態L2正則。

5)   收斂性分析

這里跳過繁復的數學分析過程,只給出結論:

定理:在給定或未給定Hessian-smooth條件的兩種情況下,Adan優化器的收斂速度在非凸隨機優化問題上均能達到已知的理論下界,并且該結論在帶有解耦的權重衰減策略時仍然成立。

實驗結果

一、CV場景

1)有監督學習——ViT模型

針對ViT模型,研究人員分別在ViT和Swin結構上,測試了Adan的性能。

圖片

可以看到,例如在ViT-small、ViT-base、Swin-tiny以及Swin-base上,Adan僅僅消耗了一半的計算資源就獲得了同SoTA優化器接近的結果,并且在同樣的計算量下,Adan在兩種ViT模型上均展現出較大的優勢。

此外,也在大batch size下測試了Adan的性能:

圖片

可以看到,Adan在各種batch size下都表現得不錯,且相對于專為大batch size設計的優化器(LAMB)也具有一定的優勢。

2)有監督學習——CNN模型

除了較難訓練的ViT模型,研究人員也在尖銳局部極小點相對較少的CNN模型上也測試了Adan的性能——包括經典的ResNet與較先進的ConvNext。結果如下:

圖片

可以觀察到,不管是ResNet還是ConvNext,Adan均能在大約2/3訓練epoch以內獲得超越SoTA的性能。

3) 無監督學習

在無監督訓練框架下,研究人員在最新提出的MAE上測試了Adan的表現。其結果如下:

圖片

同有監督學習的結論一致,Adan僅消耗了一半的計算量就追平甚至超過了原來的SoTA優化器,并且當訓練epoch越小,Adan的優勢就越明顯。

二、NLP場景

1) 有監督學習

在NLP的有監督學習任務上,分別在經典的LSTM以及先進的Transformer-XL上觀察Adan的表現。

圖片

Adan在上述兩種網絡上,均表現出一致的優越性。并且對于Transformer-XL,Adan在一半的訓練步數內就追平了默認的Adam優化器。

2)   無監督學習

為了測試Adan在NLP場景下無監督任務上的模型訓練情況。研究人員從頭開始訓練BERT:在經過1000k的預訓練迭代后,在GLUE數據集的7個子任務上測試經過Adan訓練的模型性能,結果如下:

圖片

Adan在所測試的7個詞句分類任務上均展現出較大的優勢。值得一提的是,經過Adan訓練的BERT-base模型,在一些子任務上(例如RTE、CoLA以及SST-2)的結果甚至超過了Adam訓練的BERT-large.

三、RL場景

研究人員將RL常用的PPO算法里的優化器替換為了Adan,并在MuJoCo引擎中的4個游戲上測試了Adan的性能。在4個游戲中,用Adan作為網絡優化器的PPO算法,總能獲得較高的reward。

圖片

Adan在RL的網絡訓練中,也表現出較大的潛力。

結論與展望

Adan優化器為目前的深度模型優化器引入了新的沖量范式。在復雜的訓練范式下以較少的更新次數實現對模型的快速訓練。

實驗顯示,Adan僅需1/2-2/3的計算量就能追平現有的SoTA優化器。

Adan在多個場景(涉及CV、NLP、RL)、多個訓練方式(有監督與自監督)和多種網絡結構(ViT、CNN、LSTM、Transformer等)上,均展現出較大的性能優勢。此外,Adan優化器的收斂速度在非凸隨機優化上也已經達到了理論下界。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-06-27 08:34:19

2022-03-18 12:08:10

微分計算模式

2011-08-17 10:53:16

Firefox 7

2024-03-01 10:04:11

研究訓練編碼器

2023-07-12 10:04:20

模型訓練

2023-11-29 14:00:00

AI數據

2023-12-07 07:16:57

Meta訓練

2018-06-03 08:49:21

2023-12-09 15:21:47

模型分子

2023-03-07 09:40:33

內存死鎖操作系統

2023-03-02 08:35:38

內存算法設計

2015-07-27 10:24:01

蘋果中國

2025-10-16 08:56:00

模型AI技術

2020-10-13 17:30:45

Python代碼內存

2013-02-25 10:11:35

4GLTE商用網絡

2020-12-04 10:11:26

Unsafejava并發包

2025-02-18 09:27:20

2025-06-20 08:55:00

模型AI計算

2017-06-02 16:28:29

深度學習神經網絡神經元

2009-05-07 08:26:41

全美科技企業裁員
點贊
收藏

51CTO技術棧公眾號

日韩一级在线播放| 9.1成人看片| 大片免费在线看视频| 国产精品99精品久久免费| 欧美日韩成人精品| 97人妻精品一区二区三区免| 国产精品久久久久久妇女| 色爱综合网欧美| 8v天堂国产在线一区二区| 九九99久久| 中文字幕免费高清在线观看| 青青操综合网| 欧美在线免费播放| 国产在线观看欧美| 国产免费av高清在线| 国产精品99久久久久久有的能看| 中文字幕欧美日韩va免费视频| 国产三级精品三级在线| 国产欧美一区二区三区精品酒店| 亚洲人成网站影音先锋播放| 欧美二区三区在线| 午夜精品久久久久久久99| 久久天天综合| 国产最新精品视频| wwwxx日本| 成人在线免费| 欧美日韩中文在线观看| 中文精品无码中文字幕无码专区| 国产乱理伦片a级在线观看| 成人午夜av影视| 国产日韩av高清| 国产性生活视频| 亚洲午夜伦理| 麻豆成人在线看| 国产精品夜夜夜爽阿娇| 国产欧美日韩在线一区二区| 亚洲国产成人爱av在线播放| 日韩高清在线一区二区| 91cn在线观看| 粉嫩13p一区二区三区| 国产精品露脸av在线| 久久黄色精品视频| 亚洲日本久久| 欧美精品久久久久久久久久| 欧美日韩一级大片| 久久久久久久久久久妇女| 中文字幕v亚洲ⅴv天堂| 亚洲一区二区三区自拍| 成人亚洲激情网| 91丨porny丨在线中文 | 成人免费a视频| 亚洲国产日韩在线| 国内揄拍国内精品| 激情五月色婷婷| 99精品国产在热久久婷婷| 久久久欧美精品| 国产一级在线免费观看| 欧美午夜久久| 欧美激情videoshd| 在线黄色免费网站| 国产精品色在线网站| 亚洲第一级黄色片| free性中国hd国语露脸| 香蕉视频一区| 亚洲色图激情小说| 影音先锋男人在线| 99re久久最新地址获取| www.国产一区| 艳妇乳肉亭妇荡乳av| 精品久久ai电影| 日韩精品久久久久久久玫瑰园| 15—17女人毛片| 国产69精品久久久久按摩| 欧美日韩国产综合一区二区| 欧美一级小视频| 超碰成人福利| 亚洲欧洲午夜一线一品| 国产极品视频在线观看| 亚洲九九在线| 性欧美亚洲xxxx乳在线观看| 无码人妻精品一区二区三区9厂 | 亚洲一区在线观看网站| 尤物av无码色av无码| 精品裸体bbb| 日韩一区二区在线看片| 日本五十肥熟交尾| av一区二区在线观看| 精品精品欲导航| 一级国产黄色片| 成人影院天天5g天天爽无毒影院| 久久天天躁狠狠躁夜夜爽蜜月| 男女视频网站在线观看| 久久久久久久毛片| 最新国产精品视频| 日韩综合视频在线观看| 久久精品久久国产| 日韩精品成人一区二区三区| 欧美噜噜久久久xxx| 日本一二三区不卡| 麻豆精品视频在线| 国产精品免费一区二区三区四区 | 在线观看精品自拍私拍| 呦呦视频在线观看| 日韩成人精品一区| 久久久免费精品视频| 艳妇乳肉豪妇荡乳av| 成人国产精品免费观看视频| 2014亚洲精品| 日韩欧美亚洲系列| 99热99精品| 国产精品美女诱惑| 好了av在线| 在线精品视频一区二区三四| 国产精品偷伦视频免费观看了| 久久99国产精一区二区三区| 另类美女黄大片| 老熟妇一区二区三区啪啪| 成人爽a毛片一区二区免费| 亚洲国产精品日韩| 激情都市亚洲| 亚洲精品一区二区三区蜜桃下载| 国产在线免费看| 视频一区二区三区在线| 精品在线视频一区二区| 超碰个人在线| 欧美群妇大交群的观看方式| 在线国产视频一区| 激情婷婷综合| 91成人性视频| 国产精品第六页| 日韩电影免费在线看| 国产一区在线免费| 深夜国产在线播放| 日韩一区二区免费电影| 在线视频这里只有精品| 日本免费在线视频不卡一不卡二| 久久精品ww人人做人人爽| 国产理论电影在线| 精品国产一区二区三区av性色| 神马影院一区二区三区| 欧美人妻精品一区二区三区| 免费不卡在线视频| 欧洲视频一区二区三区| 性爽视频在线| 日韩高清av在线| 九九热在线免费观看| av不卡在线观看| 国产h视频在线播放| 国产区精品视频在线观看豆花| 欧美国产日韩视频| 不卡视频免费在线观看| 一卡二卡三卡日韩欧美| 99国产精品免费视频| 中文字幕免费一区二区| 91pron在线| 欧美理论片在线播放| 日韩美一区二区三区| 欧美精品99久久久| 成人精品视频一区二区三区 | 天天操天天舔天天射| 久久黄色网页| 日本福利一区二区三区| 欧洲一级精品| www.日韩.com| a毛片在线免费观看| 亚洲夂夂婷婷色拍ww47| www.88av| 天堂成人免费av电影一区| 深夜福利成人| 99精品美女视频在线观看热舞 | 一级黄色录像视频| 粉嫩蜜臀av国产精品网站| 欧美黑人经典片免费观看| 自拍亚洲一区| 成人激情视频免费在线| 日本在线视频网址| 亚洲国产小视频在线观看| www.av欧美| 欧美精品1区2区3区| 日韩精品中文字幕有码专区| a级在线观看视频| 在线亚洲一区| 欧美在线日韩精品| 亚洲青青一区| 午夜精品久久久久久久99黑人| 亚洲欧洲综合在线| 欧美性videosxxxxx| 粉嫩av性色av蜜臀av网站| av网站一区二区三区| 久久久久国产一区二区三区| 久久精品国产精品| 第一页在线视频| 亚洲人成高清| 翔田千里亚洲一二三区| 免费观看性欧美大片无片| 69av在线视频| 黄网站在线免费| 日韩av在线直播| 亚洲中文一区二区三区| 亚洲成av人在线观看| 黄大色黄女片18免费| 国产精品99精品久久免费| 欧美少妇性生活视频| 91精品国产91久久久久久黑人| 国产综合色一区二区三区| 精品乱码一区二区三区四区| 国内成人精品视频| 成人午夜在线影视| 一区二区欧美久久| 免费av网站在线播放| 欧美日韩夫妻久久| 久久中文字幕免费| 亚洲自拍偷拍av| 久久精品色妇熟妇丰满人妻| 91网站最新网址| 91成人在线观看喷潮蘑菇| 裸体在线国模精品偷拍| 欧美精品色婷婷五月综合| 欧美日韩福利| 正义之心1992免费观看全集完整版| 欧美日韩一区二区三区在线电影| 91亚洲国产成人精品性色| 日韩精品第一| 欧美一区二三区| h片精品在线观看| 久久91精品国产91久久久| 婷婷在线视频| 在线观看精品国产视频| 毛片免费在线| 色av成人天堂桃色av| 免费一级肉体全黄毛片| 中文字幕一区二区三区四区不卡| 在线免费观看麻豆| 99久久精品一区| 一区二区三区四区影院| 国产高清久久久久| 中文字幕无码毛片免费看| 久久精品二区亚洲w码| 亚洲性生活网站| 巨乳诱惑日韩免费av| 国模无码视频一区二区三区| 亚洲无线视频| 岛国大片在线播放| 国产精品啊v在线| www.欧美黄色| 亚洲先锋成人| avav在线播放| 亚洲人成高清| 欧美成人xxxxx| 天堂一区二区在线| 乱子伦视频在线看| 午夜一区不卡| 能看的毛片网站| 成人黄视频在线观看| 久久久午夜电影| 一区二区三区 日韩| 久久一本综合频道| 九九热免费精品视频| 日本aⅴ免费视频一区二区三区| 日本成人黄色网| 麻豆一区二区在线| 国产欧美精品一二三| 国产乱码精品一区二区三区av| 深爱五月综合网| 欧美视频成人| www.成人在线| 婷婷国产在线综合| 国内自拍在线观看| 亚洲自啪免费| 农村妇女精品一二区| 日韩高清不卡一区二区三区| 国产精品入口免费软件| 久久99久久99| 亚洲人一区二区| 欧美电影《睫毛膏》| 少妇高潮流白浆| 国内视频精品| 欧美 日韩 亚洲 一区| 久久精品欧洲| www.久久91| 国产成人免费视| www.久久国产| 国产精品不卡在线观看| 日韩欧美在线观看强乱免费| 六月婷婷七月丁香| 天堂va在线| 韩国成人福利片在线播放| 中文字幕精品av| 欧美一区二区视频在线播放| 久久久无码精品亚洲国产| 2020国产精品极品色在线观看| 日韩免费在线免费观看| 国产极品久久久久久久久波多结野| 91麻豆国产精品| avtt综合网| 国产一区二区三区无遮挡 | 亚洲激情 欧美| 中文字幕第一区| 国产无遮挡又黄又爽| 欧美性大战久久久久久久蜜臀| 开心激情综合网| 自拍亚洲一区欧美另类| 97超碰在线免费| www激情久久| 亚洲精品偷拍视频| 久久成人在线| 97超碰免费在线观看| 久久久久久久国产精品影院| 深夜福利影院在线观看| 欧美色电影在线| 天堂在线资源网| 欧美午夜视频一区二区| 国产精品无码免费播放| 亚洲精品一区中文| 日本理论片午伦夜理片在线观看| 国产精品户外野外| 日韩中文av| 97在线国产视频| 国产精品综合久久| 精品一区二区在线观看视频| 精品欧美激情精品一区| www.com欧美| 日韩网站免费观看| 日韩网站中文字幕| 精品欧美日韩在线| 国产综合色产| 手机在线播放av| 日韩毛片高清在线播放| 中文字幕无线码一区| 国产丝袜精品视频| 成人一级福利| 黄色99视频| 亚洲美女毛片| 久久久久国产精品无码免费看| 一区二区三区四区在线播放| 国产精品毛片久久久久久久av| 一道本无吗dⅴd在线播放一区| 日韩在线影院| 国产自摸综合网| 成人免费看片39| 密臀av一区二区三区| 瑟瑟视频在线看| 黄色小说综合网站| 欧美激情亚洲天堂| 国内精品在线播放| 久久av红桃一区二区禁漫| 欧美日本在线看| 中国日本在线视频中文字幕| 国产精品久久久久久搜索 | 国产福利视频网站| 欧美黑白配在线| 精品国产一区二区三区日日嗨| 欧美视频在线观看| 久久久久亚洲av片无码v| 成人免费一区二区三区在线观看| 一区二区三区www污污污网站| www.久久久久| 欧美区一区二区| 男人添女人荫蒂免费视频| 成人午夜视频在线| 日韩免费一级片| 亚洲乱码av中文一区二区| 日韩电影免费观| 亚洲国产精品www| 校园春色亚洲| 国产精品狼人色视频一区| 中文字幕欧美色图| 国产精品午夜电影| 97超碰资源站| 欧美大片免费观看在线观看网站推荐 | 99视频免费看| 久久久伊人日本| 九九热精品视频在线观看| 男女污污的视频| 亚洲免费观看高清完整版在线观看熊| av免费在线观看不卡| 91超碰caoporn97人人| 国产一区二区观看| 国产精品区在线| 亚洲午夜一区二区三区| 青青草免费观看免费视频在线| 国产精品久久二区| 欧美成人高清| 麻豆av免费观看| 欧美日本在线播放| 欧美亚洲日本精品| 一本久道久久综合| 成人免费视频app| 人妻中文字幕一区二区三区| 欧美精品制服第一页| 偷拍精品福利视频导航| 日韩av一卡二卡三卡| 亚洲不卡在线观看| 日本中文字幕在线观看| 国产精品免费一区二区三区在线观看 | 国产又粗又猛视频| 欧美一级大胆视频| 欧美淫片网站| 欧美黄色一级生活片| 欧美大胆人体bbbb|