精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

開源賽道太擠了!月之暗面開源新版Muon優化器

人工智能 開源
省一半算力跑出2倍效果,月之暗面開源優化器Muon,同預算下全面領先。

月之暗面和 DeepSeek 這次又「撞車」了。

上次是論文,兩家幾乎前后腳放出改進版的注意力機制,可參考《撞車 DeepSeek NSA,Kimi 楊植麟署名的新注意力架構 MoBA 發布,代碼也公開》、《剛剛!DeepSeek 梁文鋒親自掛名,公開新注意力架構 NSA》。

這次是開源。

上周五,DeepSeek 剛剛官宣這周要連續開源 5 個代碼庫,卻被月之暗面深夜截胡了。

昨天,月之暗面搶先一步開源了改進版 Muon 優化器,比 AdamW 優化器計算效率提升了 2 倍。

image.png

團隊人員表示,原始 Muon 優化器在訓練小型語言模型方面表現出色,但其在擴展到更大模型方面的可行性尚未得到證明。因此,團隊人員確定了兩種對擴展 Muon 至關重要的技術:

  • 添加權重衰減:對擴展到更大模型至關重要。
  • 一致的 RMS 更新:在模型更新上執行一致的均方根。

這些技術使得 Muon 能夠在大規模訓練中直接使用,而無需調整超參數。Scaling law 實驗表明,與計算最優訓練的 AdamW 相比,Muon 的計算效率提升了 2 倍。

基于這些改進,月之暗面推出了 Moonlight,這是一個 3B/16B 參數的 Mixture-of-Expert(MoE)模型,使用 Muon 進行了 5.7 萬億 tokens 的訓練。該模型刷新了當前的「帕累托前沿」,換句話說,在相同的訓練預算下,沒有其他模型能在所有性能指標上同時超越它。

與之前的模型相比,Moonlight 也以更少的訓練 FLOPs 獲得了更好的性能。

如下圖所示,該研究進行了 Scaling law 研究,將 Muon 與強大的 AdamW 基線進行了比較,結果展示了 Muon 的卓越性能。Muon 實現了與 AdamW 訓練相當的性能,同時僅需要大約 52% 的訓練 FLOP。

image.png

月之暗面不但開源了內存優化且通信高效的 Muon 實現代碼,并且還發布了預訓練、指令調優以及中間檢查點,以支持未來的研究。

論文《 MUON IS SCALABLE FOR LLM TRAINING 》。

image.png

  • 論文地址:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf
  • 代碼地址:https://github.com/MoonshotAI/Moonlight
  • 模型地址:https://huggingface.co/moonshotai/Moonlight-16B-A3B

研究介紹

擴展 Muon 

Muon 優化器為 OpenAI 研究者 Keller Jordan 等人在 2024 年提出的,他們的研究表明在小規模訓練中 Muon 的表現顯著優于 AdamW。

但月之暗面發現,當將其擴展到訓練更大模型并使用更多 token 時,模型性能提升逐漸減弱。他們觀察到,權重和層輸出的 RMS 值持續增長,最終超出了 bf16 的高精度范圍,這可能會損害模型的性能。

為了解決這個問題,月之暗面在 Muon 中引入了標準的 AdamW(Loshchilov 等人,2019)權重衰減機制。

為了探究這一機制,研究者對 Muon 進行了有無權重衰減的實驗,他們訓練了一個包含 800M 參數和 100B token(約為最優訓練 token 量的 5 倍)的模型。圖 2 展示了使用 AdamW、無權重衰減的原始 Muon 以及帶權重衰減的 Muon 訓練的模型的驗證損失曲線。

image.png

結果顯示,雖然原始 Muon 在初期收斂速度更快,但一些模型權重隨時間的推移增長過大,可能會影響模型的長期性能。

加入權重衰減后解決了這一問題 —— 結果表明,帶權重衰減的 Muon 優于原始 Muon 和 AdamW,獲得了更低的驗證損失。公式 3 為表達式,其中 λ 為權重衰減比率。

一致的 RMS 更新。研究者發現 Adam 和 AdamW 的一個重要特性是,它們將更新的 RMS 維持在 1 左右。然而,月之暗面發現 Muon 更新 RMS 會根據參數矩陣形狀的變化而變化,具體如下引理 1 所示:

image.png

為了在不同形狀矩陣之間保持一致的 RMS 更新,該研究通過image.png來擴展 Muon 矩陣更新,從而抵消引理 1 中提到的影響。

在實際應用中,研究者通常將 AdamW 與 Muon 結合使用,以處理非矩陣參數。本文希望優化器超參數(學習率 η、權重衰減 λ)能夠在矩陣參數和非矩陣參數之間共享。

因此他們提出將 Muon 更新的 RMS 調整到與 AdamW 相似的范圍。他們通過以下調整將 Muon 更新 RMS 縮放至這一范圍:

分布式 Muon

月之暗面團隊還提出了一種基于 ZeRO-1 的分布式解決方案,稱為分布式 Muon(Distributed Muon)。分布式 Muon 遵循 ZeRO-1 在數據并行(DP)上對優化器狀態進行劃分,并與普通的 ZeRO-1 AdamW 優化器相比引入了兩個額外的操作,算法 1 描述了分布式 Muon 的實現。

image.png

實驗

RMS 的一致性

為了使所有矩陣參數更新的 RMS 值與 AdamW 的 RMS 保持一致,研究團隊嘗試了兩種方法來控制參數更新的 RMS,并將其與只用了 AdamW 的基線的 RMS 進行了對比。

由于大規模訓練模型時,會出現各種意料之外的情況,因此,研究團隊測試了 Muon 對訓練早期階段的影響。當矩陣維度差異增大時,更新 RMS 不一致的問題會更加明顯。該團隊對模型架構進行了微調,用標準的 2 層 MLP 替換了 Swiglu MLP,并將其矩陣參數的形狀從 [H, 2.6H] 改為 [H, 4H]。

團隊評估了模型的損失,并監控了關鍵參數的 RMS,尤其是形狀為 [H, H] 的注意力查詢權重和形狀為 [H, 4H] 的 MLP 權重。

實驗結果表明(見表 1),Update Norm 和 Adjusted LR 均優于基線方法,且 Adjusted LR 的計算成本更低,因此被選用于后續實驗。

Muon 的 Scaling Law

為了與 AdamW 公平比較,該團隊在一系列基于 Llama 架構的模型上對 Muon 進行了拓展。

對于 Muon,由于其 RMS 與 AdamW 匹配,團隊直接復用了 AdamW 的超參數。

實驗結果顯示,擬合的 Scaling Law 曲線表明,在計算最優設置下,Muon 僅需約 52% 的訓練 FLOPs 即可達到與 AdamW 相當的性能。這進一步說明了 Muon 在大規模語言模型訓練中的高效性。

使用 Muon 進行預訓練

為了評估 Muon 在模型架構中的表現,該團隊使用 DeepSeek-V3-Small 架構從頭開始預訓練了 Moonlight 模型。

Moonlight 模型總共進行了 5.7 萬億 tokens 的訓練,但在訓練到 1.2 萬億 tokens 的階段,團隊將其與 DeepSeek-V3-Small(使用 1.33T tokens 訓練的 2.4B/16B 參數 MoE 模型)和 Moonlight-A(與 Moonlight 設置相同,但使用 AdamW 優化器)進行了比較。如表 4 所示,Moonlight 在語言、數學和編碼等任務上都顯著優于 Moonlight-A,證明了 Muon 的擴展優勢。

在完整訓練后,Moonlight 與類似規模的開源模型(如 LLAMA3-3B、Qwen2.5-3B 和 Deepseek-v2-Lite)進行了比較。結果顯示,Moonlight 在性能上優于使用相同數量 tokens 訓練的模型,與更大參數規模模型相比,也較有競爭力。

此外,研究團隊還發現,Muon 可以讓模型的權重更新更「多樣化」,尤其在 MoE 模型中表現突出。

在微調階段,在預訓練和微調階段都使用 Muon,模型表現會比用 AdamW 的組合更好,但如果微調和預訓練的優化器不一致,優勢就不明顯了。

更多細節,請參閱論文原文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-24 09:15:00

2025-07-17 07:12:45

2025-08-14 10:20:10

2025-06-17 15:24:48

開源模型AI

2025-05-13 09:21:30

2012-10-09 09:25:57

2025-01-21 08:00:00

2012-02-23 23:08:50

mailpostfix開源

2012-02-23 23:20:46

2012-02-22 23:17:10

2009-08-18 09:32:21

Silverlight

2025-11-17 16:13:30

AI開源模型

2025-08-14 18:14:38

智能模型開源

2012-02-22 21:53:18

CentOS開源

2012-02-22 22:11:20

開源Tomcat

2009-05-26 09:04:07

skyeye嵌入式模擬器

2020-03-30 15:20:56

Java開發代碼

2025-06-23 09:00:00

2021-12-21 09:20:47

ReactOS開源Windows

2012-02-22 22:31:18

Nginx開源
點贊
收藏

51CTO技術棧公眾號

国产青青草视频| 国产女人被狂躁到高潮小说| 超碰国产一区| 国产精品久久综合| 99re国产| 成人午夜视频在线播放| 成人直播大秀| 欧美成人精品3d动漫h| 国产视频九色蝌蚪| 日本高清视频在线观看| 成人小视频在线| 日韩美女视频免费看| 欧美风情第一页| 欧美五码在线| 9191成人精品久久| 男人日女人bb视频| www免费在线观看| 91丨九色丨黑人外教| 国产视频观看一区| 天天操天天摸天天干| 天天av综合| 精品无人国产偷自产在线| 午夜国产福利在线观看| 亚洲啊v在线| 一二三四区精品视频| 亚洲国产欧美日韩| 无码精品在线观看| 国产成人精品影院| 成人精品久久一区二区三区| 黄色片视频网站| 欧美在线高清| 在线性视频日韩欧美| 日本黄色片在线播放| 91久久偷偷做嫩草影院电| 欧美美女激情18p| 日韩av播放器| 日韩欧美看国产| 精品久久久久久国产91| 蜜桃视频一区二区在线观看| 免费人成在线观看播放视频| 久久精品夜夜夜夜久久| 国语精品免费视频| 亚洲免费一级片| 韩国成人在线视频| 国产日韩一区在线| 亚洲永久精品一区| 日韩专区欧美专区| 日本aⅴ大伊香蕉精品视频| 精品小视频在线观看| 牛牛国产精品| 大胆欧美人体视频| 国产成人av免费在线观看| 成人写真视频| 中文字幕亚洲综合久久筱田步美 | 精品欧美一区二区三区免费观看| 欧美jizzhd精品欧美巨大免费| 日韩最新在线视频| 美国黄色片视频| 久久密一区二区三区| 自拍偷拍亚洲精品| 国产激情av在线| 欧美一区电影| www.欧美三级电影.com| 人人艹在线视频| 天堂网在线观看国产精品| 久久精品电影网站| 色哟哟一一国产精品| 亚洲91视频| 欧美成人午夜剧场免费观看| 国产一区二区三区在线视频观看| 亚洲成人日韩| 欧美激情videoshd| 国产精品6666| 免费久久99精品国产自在现线| 欧美最顶级丰满的aⅴ艳星| 久久精品无码av| 日韩二区在线观看| 成人精品视频在线| 国产区精品在线| 丁香一区二区三区| 麻豆亚洲一区| 9色在线视频网站| 综合久久久久久| 久久男人资源站| 亚洲天堂免费电影| 欧美撒尿777hd撒尿| 图片区乱熟图片区亚洲| 国产精品香蕉| 中文字幕一精品亚洲无线一区| 日本妇女毛茸茸| 亚洲日本激情| 国产精品久久久久久久久久ktv| 国产精品日韩无码| av中文字幕不卡| 翔田千里亚洲一二三区| 人人妻人人澡人人爽 | 在线视频综合导航| 蜜臀一区二区三区精品免费视频| 久久在线观看| 亚洲精品视频免费| 国精产品视频一二二区| 黄色欧美日韩| 国产精品成人品| 好吊视频一二三区| 国产欧美日韩三区| 精品国偷自产一区二区三区| 欧美激情喷水| 欧美va亚洲va| 久操视频在线观看免费| 好吊视频一区二区三区四区| 国产精品成人免费视频| 丁香六月天婷婷| 国产精品超碰97尤物18| 国产免费成人在线| 日韩高清一区| 少妇高潮久久久久久潘金莲| 天天操天天干视频| 精品一区二区在线观看| 免费亚洲一区二区| 大黄网站在线观看| 欧美片网站yy| 亚洲一级中文字幕| 精品动漫3d一区二区三区免费| 国产精品色视频| 暖暖视频在线免费观看| 亚洲一区二区三区四区在线免费观看 | 青青草视频成人| 午夜精品久久| 国产日本欧美一区二区三区| 深夜福利视频在线免费观看| 一区二区三区日韩| 91热视频在线观看| 日韩精品免费| 国产精品夫妻激情| 你懂的在线免费观看| 亚洲地区一二三色| 91福利视频免费观看| 欧美电影一区| 国产日韩在线亚洲字幕中文| av中文资源在线| 色婷婷亚洲婷婷| 亚洲av无码国产精品久久| 99视频精品| 国产欧美日韩一区二区三区| 色爱综合区网| 日韩欧美二区三区| 欧美人禽zoz0强交| 国产一区二区三区美女| 国产盗摄视频在线观看| 亚洲伊人伊成久久人综合网| 日韩在线播放av| 在线亚洲欧美日韩| 国产精品乱人伦一区二区| 中国黄色片免费看| 日韩一区二区三区免费播放| 国产精品美女网站| 一级毛片视频在线| 欧美日韩午夜在线视频| 很污很黄的网站| 国内精品免费**视频| 日本黄色播放器| 麻豆国产精品| 久久久久久国产精品美女| 午夜久久久久久久久久| 亚洲国产精品久久久久婷婷884| 国内精品免费视频| 亚洲美女91| 久久久久久99| 日本免费久久| 中文字幕亚洲欧美| 国产区精品在线| 亚洲高清免费视频| 性少妇bbw张开| 免费成人在线网站| 午夜久久久久久久久久久| 日韩精品一区二区三区免费视频| 欧美激情视频在线观看| 色呦呦视频在线| 91国产精品成人| 91禁男男在线观看| 国产高清不卡一区| 岳毛多又紧做起爽| 成人综合专区| yy111111少妇影院日韩夜片| 日韩精品美女| www.久久久久| 色香蕉在线视频| 欧洲一区二区av| 欧美三级日本三级| 97国产一区二区| 91n.com在线观看| 欧美精品一卡| 欧美日韩无遮挡| 精品视频国内| 国产91在线播放精品91| 超碰porn在线| 亚洲性线免费观看视频成熟| 国产特黄一级片| 色综合一区二区| avtt天堂在线| 国产午夜亚洲精品理论片色戒| 日韩av自拍偷拍| 亚洲一区视频| 蜜桃网站在线观看| 国产中文精品久高清在线不| 97久久夜色精品国产九色| 久久uomeier| 欧美国产日本高清在线 | 久久不射热爱视频精品| 亚洲av成人精品毛片| 337p亚洲精品色噜噜| 国产又黄又猛又粗又爽| 中文字幕佐山爱一区二区免费| 日本黄色特级片| 国产成人在线视频网站| 91国产精品视频在线观看| 亚洲天堂男人| 中文字幕一区二区三区四区五区六区 | 三级黄色片网站| 国产一区二区三区四区五区美女| 男人天堂网视频| 黄色免费成人| av动漫免费观看| 精品久久久中文字幕| 精品日韩电影| 久久综合给合| 国产日韩av在线| 性感美女一区二区在线观看| 欧美激情视频一区二区三区不卡| 国产激情视频在线| 中文字幕日韩精品在线| 免费在线一级视频| 日韩高清欧美高清| 黑人乱码一区二区三区av| 91麻豆精品91久久久久久清纯| 久久久久亚洲视频| 欧美性极品xxxx做受| 亚洲男人第一av| 亚洲va欧美va人人爽午夜| 男的操女的网站| 亚洲日本青草视频在线怡红院| 丰满的亚洲女人毛茸茸| 久久美女高清视频| 亚洲精品成人无码熟妇在线| 99久久精品情趣| 欧美在线一级片| av一区二区三区黑人| www男人天堂| 成人av电影免费在线播放| 国产乱淫av麻豆国产免费| 国产乱码精品一区二区三 | 成人国产在线| 国产精品激情av电影在线观看 | 色综合久久五月| 成人黄色小视频在线观看| 亚洲欧美日韩色| 99久久精品情趣| brazzers精品成人一区| 久久久午夜精品理论片中文字幕| 一级片手机在线观看| 国产亚洲人成网站| 影音先锋男人在线| 亚洲欧洲日产国码二区| 欧美激情图片小说| 亚洲一区二区三区四区中文字幕| 日韩免费不卡视频| 欧美天天综合色影久久精品| 成年人视频免费| 欧美视频日韩视频在线观看| 一级全黄裸体免费视频| 日韩一级欧美一级| 国产成人手机在线| 亚洲欧洲国产伦综合| 国产精品一二三区视频| 久久久精品一区二区| 欧美一卡二卡| 26uuu久久噜噜噜噜| 成人免费福利| 91久久国产婷婷一区二区 | 日本一区视频在线观看| 日韩精品一区二区三区免费观看 | 91网站免费入口| 国产精品国产三级国产aⅴ无密码 国产精品国产三级国产aⅴ原创 | 国产亚洲欧美日韩一区二区| 日韩欧美小视频| 欧美激情va永久在线播放| 成人影院网站| 91亚洲国产精品| 精品深夜福利视频| 先锋影音日韩| 极品中文字幕一区| 久久久久免费精品| 国产精品99精品久久免费| jjzz黄色片| 国产亚洲精品福利| 青青青在线视频| 91精品福利视频| 亚洲国产精品久久久久久6q| 亚洲视频在线看| 亚洲区欧洲区| 国产精品美女呻吟| 久久久久久毛片免费看 | 97免费高清电视剧观看| 亚洲精品3区| 成人国产在线看| 日韩精品免费视频人成| 免费黄色av网址| 中文天堂在线一区| 日本熟妇乱子伦xxxx| 欧美美女一区二区在线观看| 午夜视频免费在线| 按摩亚洲人久久| 欧美最新精品| 精品视频高清无人区区二区三区| 国产精品二区不卡| 国产成人综合一区| 福利电影一区二区三区| 青青青视频在线播放| 黑人与娇小精品av专区| www.色婷婷.com| 日韩在线视频观看| 欧美人体一区二区三区| 加勒比在线一区二区三区观看| 91tv精品福利国产在线观看| 国产精品igao| 久久婷婷久久一区二区三区| 国产无套粉嫩白浆内谢| 欧美一区二区成人| 91在线高清| 国产91精品在线播放| 亚州综合一区| 国产一级做a爰片久久毛片男| 国产一区二区三区久久悠悠色av| 永久免费av无码网站性色av| 色婷婷久久久综合中文字幕| 五月激情丁香婷婷| 久久久久久香蕉网| 亚洲开心激情| 成人午夜免费剧场| 精品综合久久久久久8888| 影音先锋男人在线| 欧美三区在线观看| 国产精品麻豆一区二区三区 | chinese国产精品| 日韩久久免费电影| 福利影院在线看| 国产一区二区免费电影| 激情综合中文娱乐网| 久久国产免费视频| 一区二区三区四区乱视频| 精品人妻无码一区二区色欲产成人| 久久这里只有精品99| 国产精品欧美一区二区三区不卡 | 亚洲人成人无码网www国产| 欧美日韩综合视频| 飘雪影视在线观看免费观看 | 欧美成人在线免费视频| 天堂精品久久久久| 妺妺窝人体色www看人体| 不卡一区中文字幕| www.毛片.com| 夜夜嗨av一区二区三区免费区| 视频一区在线免费看| 亚洲一卡二卡三卡四卡无卡网站在线看 | 久久综合久久色| 中文字幕欧美激情一区| 亚洲天堂视频网| 欧美成人免费大片| 成人香蕉社区| 精品国产成人av在线免| 中文欧美字幕免费| 国产不卡精品视频| 69精品小视频| 成人亚洲一区二区| 亚洲视频在线不卡| 亚洲成av人片在线| 韩国中文字幕2020精品| 成人免费激情视频| 亚洲午夜精品久久久久久app| 亚洲熟妇无码av| 欧美人动与zoxxxx乱| 国产精品偷拍| 奇米视频888战线精品播放| 精品一区二区免费在线观看| 精品人妻在线播放| 亚洲人成在线观看| 精品网站999| 亚洲熟女乱色一区二区三区| 国产精品毛片高清在线完整版 | 欧美午夜三级| 日本香蕉视频在线观看| 久久奇米777| 国产三级在线观看视频| 91成人精品网站| 亚洲va在线| 欧美图片一区二区| 91精品国产丝袜白色高跟鞋| 日韩大片免费观看| 欧美少妇一级片| 久久久99精品免费观看不卡|