精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

斯坦福:優化器「諸神之戰」?AdamW 憑「穩定」勝出

人工智能 新聞
斯坦福大學 Percy Liang 團隊的研究指出,盡管存在許多聲稱能提供顯著加速(1.4 至 2 倍)的替代方案,AdamW 依然是預訓練的穩健首選,但矩陣型方法在特定數據–模型比例下展現出明顯優勢。

自 2014 年提出以來,Adam 及其改進版 AdamW 長期占據開放權重語言模型預訓練的主導地位,幫助模型在海量數據下保持穩定并實現較快收斂。

隨著模型規模迅速擴大,預訓練已成為計算密集型任務的典型代表,在大模型研發中往往是最主要的計算開銷。在這種背景下,優化器的設計直接關系到收斂速度與計算成本。

研究者們探索了多種改進方向,其中最快的優化器往往采用矩陣型預條件子(如 Muon、Soap、Kron),相較于經過嚴格調優的 AdamW,可以帶來約 30–40% 的迭代級別加速。

斯坦福大學 Percy Liang 團隊的研究指出,盡管存在許多聲稱能提供顯著加速(1.4 至 2 倍)的替代方案,AdamW 依然是預訓練的穩健首選,但矩陣型方法在特定數據–模型比例下展現出明顯優勢。

  • 論文標題:Fantastic Pretraining Optimizers and  Where to Find Them
  • 論文地址:https://www.arxiv.org/pdf/2509.02046v1
  • Github:https://github.com/marin-community/marin/issues/1290
  • 博客:https://wandb.ai/marin-community/marin/reports/Fantastic-Optimizers-and-Where-to-Find-Them--VmlldzoxMjgzMzQ2NQ

研究者認為,這種現象可能源于兩個關鍵的方法論缺陷:

  • 問題 1:不公平的超參數調優。

基線模型通常調優不足:在常用的 AdamW 基線中,僅僅是調優學習率這一個參數,就能在 1.3 億參數規模的模型上實現 2 倍的加速。

固定共享的超參數并不能保證比較的公平性:例如,與標準的權重衰減值 0.1 相比,Lion 優化器更偏好較高的權重衰減值(如 0.6)。

左:常用的 AdamW 基線存在調優不足的問題。 在 Brown 等人 [2020] 提出、并被后續多項研究采用的 GPT-3 訓練方案中,僅僅針對一個 1 億參數的模型調整學習率這一個超參數,便可實現高達 2 倍的加速,這凸顯了進行恰當超參數優化的重要性。右:在不同優化器之間固定超參數并不能保證比較的公平性。 在以往的研究中,像學習率和權重衰減這類共享超參數通常被設為常量。然而,即使是概念上相似的優化器,其對應的最優超參數也可能大相徑庭。

  • 問題 2:測試規模不足

大多數測試僅使用小型模型(參數遠小于 10 億)或遵循 Chinchilla 論文提出的 1 倍數據配比。那么,在更大規模的模型或更高的數據配比下,結果會如何呢?

此外,訓練早期的檢查點也可能產生誤導,在學習率衰減階段,不同方法的損失曲線可能會發生交叉,從而導致最終排名反轉。因此,必須在(不同的)設定下進行訓練結束時的最終評估。

左:加速效果隨模型規模的增大而衰減。 盡管一些優化器在參數量小于 10 億的模型上相比 AdamW 能展現出較高的加速比(1.3-1.4 倍),但當模型規模增至 12 億參數時,其加速比會衰減至僅 1.1 倍。右:基于矩陣的優化器性能穩定優于基于標量的優化器。 該圖展示了三種基于標量的優化器(AdamW, Nesterov AdamW, Mars)和三種基于矩陣的優化器(Kron, Soap, Muon)在不同 Chinchilla 數據配比下訓練時的損失曲線。基于矩陣的優化器相比基于標量的優化器實現了一致的加速效果。此外,在過訓練(overtrained)的情況下,這三種基于矩陣的優化器最終會收斂到相似的損失值。

為了驗證這一假設,研究人員進行了系統性的比較研究,涵蓋了十一種不同的深度學習優化器。他們在多種模型規模(從 1 億到 12 億參數)和數據–模型比例(參照 Chinchilla 最優比例的 1 倍至 8 倍)下,為每一種優化器都進行了嚴謹、獨立的超參數調優。

本研究所使用的優化器。

研究發現:

  • 獨立調優至關重要:一個優化器的最優超參數配置往往無法直接遷移到另一種優化器上。如果缺乏獨立調優,不僅比較結果缺乏公平性,而且新優化器相較于精心調優過的 AdamW,實際加速效果遠低于其聲稱的數值。
  • 短期評估具有誤導性:僅在短時間訓練窗口內評估優化器性能是不可靠的。隨著訓練的進行和學習率衰減,不同優化器的性能排名可能會發生逆轉,其損失曲線甚至會多次交叉。
  • 矩陣方法性能領先:所有速度最快的優化器都采用了基于矩陣的預條件子,而非傳統的逐元素標量縮放。Muon、Soap 和 Kron 等方法,相比嚴格調優后的 AdamW,能夠實現 30–40% 的單步訓練速度提升。

有趣的是,最優選擇也與具體場景相關:在標準 Chinchilla 數據比例下,Muon 表現最佳;而當數據量相對于模型規模的比例提升至 8 倍以上時,Soap 則成為更優的選擇。

方法

研究設計了一套嚴謹的方法論來評估這些優化器,該方法分為三個主要階段。首先是通用設置階段,明確了實驗環境。研究使用了四種不同規模的 Transformer 模型,參數量從 130M 到 1.2B,序列長度均為 4096,并詳細列舉了各模型層數、隱藏維度等具體配置。

所研究的各個模型規模的詳細架構超參數。

數據方面,研究混合使用了 DCLM-baseline、StarCoder V2 和 ProofPile 2 數據集,并使用 LLaMA-3 分詞器進行分詞,確保了訓練數據的豐富性。評估的優化器涵蓋了 AdamW、NAdamW、Mars、Cautious、Lion、Adam-mini、Muon、Scion、Kron (PSGD) 、Soap 和 Sophia,代表了當前深度學習優化領域的主流和前沿方法。

階段 I: 全面參數掃描

研究旨在解決基線優化器超參數調整不當導致其性能被低估的問題。研究采用了坐標下降法,對所有優化器的超參數(包括學習率、權重衰減、預熱步數、β?、β?、ε、最大梯度范數和批次大?。┰陬A設網格上進行了詳盡搜索。

這一階段的實驗設置涵蓋了 130M、300M 和 500M 模型在 1 倍 Chinchilla 數據量下的訓練,以及 130M 模型在 2 倍、4 倍、8 倍 Chinchilla 數據量下的訓練。

研究發現,對每個優化器進行嚴格的超參數調整至關重要,因為不同優化器之間的最優超參數配置差異顯著,盲目遷移超參數會導致不公平的比較。

此外,研究也觀察到,與經過精心調整的基線 AdamW 相比,實際的加速效果普遍低于此前一些研究所聲稱的水平。

階段 II: 敏感超參數識別

研究根據第一階段的結果,識別出那些最優值會隨模型規模變化的敏感超參數,例如學習率和預熱長度。隨后,這些敏感超參數在 300M 和 500M 模型以及 2 倍、4 倍、8 倍 Chinchilla 數據量下進行了進一步的網格搜索。

第一階段與第二階段的主要結果。上圖: 我們繪制了第一階段和第二階段實驗中,模型在 C4/EN 數據集上的驗證集損失。圖中的每一個點都對應于每種優化器在相應的 Chinchilla 數據配比下所能達到的最優損失值。下圖: 我們針對部分優化器,繪制了它們在 HellaSwag 基準上的性能。這些優化器包括:AdamW 基線、性能排名前 2 的基于標量的優化器,以及性能排名前 3 的基于矩陣的優化器。性能數據來自于它們各自最優的運行批次。

通過結合前兩個階段的結果,研究獲得了 12 種不同設置下的近乎最優超參數集及其對應的損失。為了量化不同優化器相對于 AdamW 的加速效果,研究擬合了 AdamW 損失隨數據預算變化的縮放定律,并以此計算出達到相同損失所需的 AdamW 數據量與優化器實際所需數據量之比,作為加速比。

研究發現,基于矩陣的優化器雖然表現普遍優于基于標量的優化器,但其加速比在實際測試中均未超過 1.4 倍。許多替代優化器在小規模模型或有限數據比例下看似具有優勢,但隨著模型規模擴大,這些加速優勢逐漸消失甚至反轉,AdamW 依然是最穩健的預訓練首選。

階段 III: 案例研究

該階段旨在對更大規模的實驗進行深入探索。研究首先檢驗了超參數的擬合程度,通過擬合形式為 的平滑定律,預測了在模型規模 N 和數據規模 D 下的最優設置。

為了驗證這些縮放定律,研究對 1.2B 模型在 1 倍 Chinchilla 數據量下進行了全面掃描,結果顯示預測的配置與實際最優配置之間的性能差異極小,證明了預測的有效性。

隨后,研究進行了兩項案例研究:一是訓練 1.2B 模型在 1 至 8 倍 Chinchilla 數據量下,以檢驗優化器加速效果隨模型規模擴展的變化;二是在 16 倍 Chinchilla 數據量下訓練 130M 和 300M 模型,以觀察在極端數據量與模型比例下的優化器表現。

案例分析。左圖: 在 12 億參數模型上,AdamW、NAdamW、Muon 和 Soap 四種優化器的驗證集損失縮放情況。結果顯示,Muon 和 Soap 相比 AdamW 仍有顯著的加速效果,但相比 NAdamW 已無明顯加速優勢。中圖: 采用與圖 3 相同的方法估算加速比。我們觀察到,Muon 和 Soap 的加速比隨模型規模增大而衰減,最終降至僅 1.1 倍。右圖: 在 3 億參數模型和 16 倍 Chinchilla 數據配比的設定下,實驗結果表明,當數據與模型的比例進一步增大時,Soap 的性能優于 Muon。

這一階段的結果進一步揭示了 Muon 優化器的潛在局限性:盡管 Muon 對高達 1.2B 參數的模型仍有加速效果,但加速比會下降到 1.2 倍以下。在高數據與模型比例(如 16 倍 Chinchilla)下,NAdamW 和 Soap 在 130M 模型上超越了 Muon,且 Soap 在 300M 模型上也超過了 Muon。研究推測,在數據與模型比例很高時,Soap 和 Kron 所維持的二階動量變得更為有效。

更多細節請閱讀原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-03-15 10:35:16

GPTAI

2013-01-31 09:45:14

斯坦福超級電腦百萬內核

2012-03-21 21:38:27

蘋果

2009-05-19 09:06:41

Apple斯坦福iPhone

2019-12-16 14:33:01

AI人工智能斯坦福

2018-08-13 21:19:07

Weld開源數據

2024-09-26 10:23:46

2025-01-17 10:26:19

模型開發ChatGPT

2025-09-08 08:59:00

2017-11-28 14:18:29

2018-12-03 09:35:26

互聯網

2016-09-27 16:06:48

2025-10-24 17:29:54

2023-03-06 10:26:37

AI研究

2024-10-21 12:40:00

視頻生成模型

2019-03-24 12:11:47

AI 數據人工智能

2022-02-09 10:06:21

觸覺設備計算機人工智能

2023-03-31 13:55:00

模型智能

2024-04-24 09:47:36

點贊
收藏

51CTO技術棧公眾號

一区二区中文| 国产色99精品9i| 国产蜜臀97一区二区三区 | 欧美精品成人一区二区在线观看| 久久精品亚洲无码| 欧美自拍视频| 欧美日韩激情一区二区三区| 亚洲高潮无码久久| 国产一二三在线观看| 国内一区二区在线| 2019亚洲日韩新视频| 人与动物性xxxx| 久久精品色播| 91精品国产综合久久久久久| 日韩一级在线免费观看| 羞羞网站在线看| 久久久不卡网国产精品二区| 国产精品久久波多野结衣| 凹凸精品一区二区三区| 极品日韩av| 日韩中文字幕在线视频| 欧美图片一区二区| 欧美黑粗硬大| 色视频成人在线观看免| 人妻少妇精品无码专区二区| www.av在线| 2023国产精品| 精品乱码一区二区三区| 国产按摩一区二区三区| 视频一区欧美精品| 91国语精品自产拍在线观看性色| 草视频在线观看| 欧美wwwww| 国产亚洲免费的视频看| 风间由美一二三区av片| 国产美女撒尿一区二区| 日韩色在线观看| 中文字幕一区久久| 成人精品国产| 欧美中文字幕一区| 成人黄色一区二区| 黄色成人免费网| 欧美丝袜一区二区| 怡红院av亚洲一区二区三区h| 欧美性爽视频| 一区二区三区在线视频观看| 国产日韩视频在线播放| 欧美r级在线| 国产精品久久久久久久久久久免费看 | 午夜国产在线视频| 菠萝蜜视频在线观看一区| 亚洲最大福利网| a在线观看视频| 国产精品一级片| 3d动漫精品啪啪一区二区三区免费| 亚洲影视一区二区| 久热成人在线视频| 成人午夜黄色影院| 国产成人a人亚洲精品无码| 精品写真视频在线观看| 国产免费一区视频观看免费| 一级二级三级视频| 久久成人18免费观看| 成人黄色免费在线观看| 国产日韩在线观看一区| 国产剧情在线观看一区二区| 超碰97在线资源| 人成网站在线观看| 久久免费的精品国产v∧| 日本亚洲自拍| 欧美尤物美女在线| 亚洲精品久久7777| 亚洲 自拍 另类小说综合图区| 婷婷电影在线观看| 欧亚洲嫩模精品一区三区| 国产又黄又猛又粗| 麻豆一区在线| 亚洲电影免费观看| 国产三级av在线播放 | 99热这里只有精品免费| segui88久久综合| 色综合天天综合色综合av | 国产成人免费在线观看不卡| 国产精品一区在线观看| 久香视频在线观看| 国产精品美女久久久久久| 日本a级片在线观看| 蜜桃视频动漫在线播放| 在线中文字幕一区| 天天操夜夜操很很操| 久久精品66| 中文字幕亚洲欧美| 豆国产97在线 | 亚洲| 视频一区中文字幕| 粉嫩av四季av绯色av第一区| 九九热视频在线观看| 自拍偷拍国产精品| 国产无限制自拍| 国产成人午夜性a一级毛片| 欧美成人精品福利| 亚洲欧洲久久久| 极品中文字幕一区| 国产一区二区视频在线观看| 视频三区在线观看| 亚洲日本一区二区| 色综合av综合无码综合网站| 精品亚洲a∨一区二区三区18| 日韩不卡中文字幕| 久久久久亚洲av片无码| 亚洲综合三区| 97se在线视频| 91大神在线网站| 欧美日韩激情网| 青娱乐国产精品视频| 国产精品入口久久| 久久久久久久久久久亚洲| 亚洲系列第一页| 91免费视频观看| 国产视频在线观看网站| 成人一区视频| 亚洲欧美三级伦理| 尤物视频在线观看国产| 韩国精品免费视频| 亚洲高清在线播放| 波多野结衣亚洲| 亚洲福利视频网| 九九九在线视频| 国产制服丝袜一区| 亚洲不卡中文字幕| 范冰冰一级做a爰片久久毛片| 欧美不卡视频一区| 91人妻一区二区三区蜜臀| 欧美a级理论片| 日本高清一区| 欧美羞羞视频| 亚洲人成电影在线| 台湾佬中文在线| 91视频91自| 青青草精品视频在线| 99精品国产高清一区二区麻豆| 久久久精品国产网站| 在线观看国产小视频| 国产日韩欧美精品综合| 蜜臀久久99精品久久久酒店新书| 琪琪久久久久日韩精品| 国语自产精品视频在线看| 亚洲精品一区二区三区四区 | 在线观看欧美日韩国产| 9i精品福利一区二区三区| 26uuu色噜噜精品一区| 欧美视频免费看欧美视频| 国产精品网站在线看| 欧美激情综合亚洲一二区| 亚洲av色香蕉一区二区三区| 亚洲综合在线观看视频| 欧美双性人妖o0| 999亚洲国产精| 免费看污久久久| 经典三级一区二区| 正在播放欧美视频| 亚洲永久精品视频| 伊人夜夜躁av伊人久久| 国产精品果冻传媒| 亚洲伦伦在线| 牛人盗摄一区二区三区视频| 91成人在线| 久久精品国产久精国产思思| 国产成人精品免费看视频| 亚洲风情在线资源站| 中文成人无字幕乱码精品区| 国产欧美在线| 日韩久久久久久久| 自拍偷拍欧美日韩| 欧美激情亚洲国产| 久久久久久久久亚洲精品| 欧美亚洲一区二区三区四区| 乱老熟女一区二区三区| 国产99一区视频免费 | 精品一二三四在线| 男人添女人下部视频免费| 国内视频在线精品| 国产精品福利在线观看网址| 国产1区在线| 亚洲第一男人av| 成年人视频免费| 亚洲欧美一区二区三区极速播放 | 国产探花精品一区二区| 亚洲成人av一区| 在线观看免费小视频| 国产一区二区伦理| 日本wwww视频| 欧美福利电影在线观看| 欧美三级网色| 精品国产不卡一区二区| 57pao成人永久免费视频| 日本在线视频站| 亚洲第一中文字幕| 国产精品久久久久久无人区| 午夜电影一区二区| 肉色超薄丝袜脚交69xx图片 | 国产传媒一区二区| 久久久成人av毛片免费观看| 久久69精品久久久久久久电影好| 日本一区视频| 日韩欧美中文字幕精品| 日本va欧美va国产激情| 亚洲视频在线观看三级| 国产男男chinese网站| 国产风韵犹存在线视精品| 午夜激情福利在线| 尤物网精品视频| 在线不卡日本| 国产成人三级| 国产亚洲欧美另类一区二区三区| 久久亚洲资源中文字| 午夜精品一区二区三区av| 日本美女在线中文版| 亚洲欧美在线第一页| 亚洲欧美激情在线观看| 欧美老肥妇做.爰bbww| 国产91国语对白在线| 午夜日韩在线电影| 欧美日韩综合一区二区| 国产精品欧美久久久久无广告| 极品人妻一区二区三区| 国产激情偷乱视频一区二区三区| 在线免费观看视频黄| 久久综合网络一区二区| 欧美一区二区中文字幕| 欧美三级网页| www国产免费| 亚洲一级淫片| 97超碰免费观看| 99精品视频在线| 亚洲在线视频一区二区| 精品久久久久中文字幕小说 | 精品久久av| 日韩成人性视频| 天天综合永久入口| 亚洲精品在线网站| 亚洲欧美黄色片| 亚洲精品一区二区精华| 懂色av一区二区三区四区| 91精品国产欧美日韩| 国产毛片一区二区三区va在线| 欧美卡1卡2卡| 97人妻精品一区二区三区视频| 欧美日韩久久一区| 在线观看黄色国产| 欧美男生操女生| 国产精品久久久久久久久久久久久久久久 | 91精品国产自产在线丝袜啪| 69174成人网| h视频久久久| 国产免费一区二区三区| 欧美午夜18电影| 欧美日韩精品免费观看视一区二区 | 老司机午夜精品视频在线观看| 日韩中文字幕二区| 日韩黄色免费网站| www.色欧美| 国产丶欧美丶日本不卡视频| 久久久久无码国产精品一区李宗瑞| 成人午夜视频在线观看| 亚洲久久久久久| 久久久夜色精品亚洲| 精品人妻无码一区二区三区换脸 | 精品亚洲永久免费| 婷婷激情综合网| 一级黄色在线视频| 欧美日韩在线精品一区二区三区激情| 亚洲一区二区影视| 欧美tk—视频vk| 性插视频在线观看| 在线观看91久久久久久| 大片免费在线观看| 性欧美办公室18xxxxhd| 天天综合网站| **亚洲第一综合导航网站| 黄色美女久久久| 日韩免费一区二区三区| 欧美精品网站| 国产熟人av一二三区| 国产精品综合一区二区三区| 国产麻豆xxxvideo实拍| 中文在线一区二区| 久久人人爽人人爽人人| 一本久道久久综合中文字幕| 国产精品毛片一区二区在线看舒淇| 精品国产伦一区二区三区观看体验 | 国产成人亚洲综合a∨猫咪| 亚洲一区二区三区无码久久| 欧美国产国产综合| 国产一级中文字幕| 欧美视频在线一区| 免费看黄色一级视频| 在线看福利67194| 国产精品25p| 91欧美日韩一区| 欧美日韩爱爱| 日本福利视频一区| 麻豆精品久久久| 香蕉视频黄色在线观看| 尤物在线观看一区| 911精品美国片911久久久| 久艹在线免费观看| 免费观看30秒视频久久| 欧美大喷水吹潮合集在线观看| 中文字幕免费不卡| 国产在线视频你懂的| 欧美三电影在线| 日韩av成人| 欧美激情精品久久久久久| 欧美一级在线| 欧美高清性xxxxhd| 海角社区69精品视频| 91人人澡人人爽人人精品| 99国产一区二区三精品乱码| 动漫性做爰视频| 欧美日韩你懂得| 精品视频二区| 日本91av在线播放| 黄色欧美网站| 可以看毛片的网址| 国产成人精品一区二区三区四区 | 九九免费精品视频在线观看| 国产911在线观看| 久久99国产精品尤物| 六月婷婷七月丁香| 天天综合网天天综合色| www.色呦呦| 久久天天躁狠狠躁夜夜爽蜜月| 欧美日韩尤物久久| 久久综合中文色婷婷| 99视频一区| 天天躁日日躁狠狠躁av麻豆男男| 一区二区三区四区视频精品免费| 国产毛片一区二区三区va在线| 日韩中文字幕网| 日韩综合久久| 特级毛片在线免费观看| 久久精品国产一区二区| 成年人视频软件| 欧美日韩在线三级| 九义人在线观看完整免费版电视剧| 国产精品久久久久久久久免费看| 伊人久久大香线蕉综合网站| 北条麻妃av高潮尖叫在线观看| xnxx国产精品| 久久久久久久久久成人| 亚洲欧美精品一区| 精品成人免费一区二区在线播放| 日韩精品久久一区二区三区| 美女久久一区| 久久日免费视频| 欧美日韩mp4| 中文字幕资源网在线观看| 粉嫩av四季av绯色av第一区| 91久久黄色| 性少妇bbw张开| 欧美日韩一级片网站| 老司机在线永久免费观看| 91中文精品字幕在线视频| 欧美日韩ab| 国产精品无码在线| 色综合久久综合网97色综合| 成年人视频在线免费观看| 成人天堂噜噜噜| 精品动漫av| 精品人妻无码一区二区三区换脸| 欧美性做爰猛烈叫床潮| 麻豆影视国产在线观看| 99精品欧美一区二区三区| 91久久久久| a资源在线观看| 日韩欧美在线不卡| 免费在线小视频| 小说区图片区图片区另类灬| 国产一区二三区| 日韩欧美大片在线观看| 中文字幕日韩欧美在线| 最新精品在线| 能看的毛片网站| 亚洲男人的天堂一区二区| 天天干天天摸天天操| 国产精品久久久精品| 欧美三级第一页| 人妻aⅴ无码一区二区三区| 欧美一区二区视频观看视频 | 国产精品视频yy9099| 最新欧美人z0oozo0| 老司机福利av| 91精品国产黑色紧身裤美女| 中文字幕在线看片| 免费观看中文字幕| 国产亚洲午夜高清国产拍精品| 99久久免费国产精精品| 欧美综合在线第二页| 亚洲情侣在线| 国产精品国产三级国产专业不 |