精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Muon優化器:AI模型訓練算法的下一個里程碑?| 目前還不是業界焦點,但有潛力是重大基礎創新 精華

發布于 2025-4-17 06:40
瀏覽
0收藏

人工智能(AI)快速發展,模型訓練是核心環節,優化器扮演著至關重要的角色,它負責調整模型的參數,讓模型在數據上表現得更好。多年來,AdamW優化器一直是優化器的標桿,因其穩定性和高效性深受研究者和工程師的喜愛。然而,隨著AI模型規模的不斷擴大,訓練成本和時間的需求也在激增,這讓人們開始尋找更高效的優化方法。近期,一種名為Muon的優化器算法悄然出現(源代碼 ????https://github.com/KellerJordan/Muon ????),盡管它還未成為業界焦點,但其獨特的設計和卓越的性能表明,它可能是AI模型訓練領域的一次重大基礎創新。

優化器算法:AI訓練的“幕后推手”

為什么優化器如此重要?

在深度學習中,模型訓練的目標是通過調整參數,讓模型的預測結果盡可能接近真實數據。這個過程通常是通過定義一個損失函數來實現的,損失函數衡量了模型預測與真實值之間的差距。而優化器的任務,就是根據損失函數的梯度(gradient),一步步調整模型的參數,找到損失最小的“最佳狀態”。

想象一下,我們在一個崎嶇的山谷中尋找最低點。優化器就像我們的導航儀,告訴我們每一步該往哪個方向走、走多遠。一個好的優化器不僅能更快地帶我們到達谷底(收斂),還能避免在陡峭的坡道上上上下下(訓練不穩定)。優化器的效率直接決定了訓練速度、計算資源需求,以及最終模型的性能。

過去幾年,AdamW(Adam with Weight Decay)一直是訓練大型語言模型的首選(如Qwen、DeepSeek、LLaMA等,閉源的大模型不清楚,但大概率也是AdamW)。它結合了自適應學習率和權重衰減(weight decay)的優點,能夠在復雜的參數空間中穩定、高效地工作。然而,隨著模型參數從幾億增加到幾千億,訓練時間從幾天變成幾周甚至幾個月,AdamW的局限性開始顯現——它在超大規模場景下的效率開始受到挑戰。進一步提升AI能力,我們需要更大的模型和更多的訓練資源。但計算資源的成本高昂,訓練時間過長也會拖慢研究和應用的進度。因此,開發更高效的優化器,不僅是技術上的追求,更是經濟和實踐上的迫切需求。

Muon:從動量到正交化的革新

Muon的基本原理

Muon的全稱是MomentUm Orthogonalized by Newton-Schulz(動量正交化Newton-Schulz),它是一種專為神經網絡隱藏層設計的優化器。它的核心思想并不復雜,但卻非常巧妙:先用經典的SGD(隨機梯度下降)動量法生成參數更新,然后通過一個特殊的“后處理”步驟——Newton-Schulz正交化,讓這些更新更高效。

讓我們一步步拆解這個過程:

  1. 動量法生成更新Muon首先沿用了SGD動量的思路。動量法就像給梯度加了一個“慣性”,讓參數更新不僅依賴當前梯度,還參考之前的更新方向。這樣可以加速收斂,避免在參數空間中“左搖右晃”。在Muon中,這一過程生成一個更新矩陣(記為(Bt))。
  2. 正交化:讓更新更“聰明”接下來,Muon引入了關鍵創新:通過Newton-Schulz迭代,將更新矩陣(Bt)“正交化”,生成一個新的更新矩陣(Ot)。所謂正交化,簡單來說,就是讓更新矩陣的列(或行)彼此垂直,變成一個“半正交矩陣”(滿足( OTO = I )或( O OT= I ))。為什么這樣做?傳統的動量更新往往會被某些“主導方向”牽著走,而其他“稀有方向”(對學習也很重要,但幅度小)的貢獻被掩蓋。正交化就像重新分配了這些方向的“發言權”,讓更新更全面、更高效地探索參數空間。
  3. 參數更新最后,Muon用正交化后的更新矩陣( Ot)來調整參數:

    Muon優化器:AI模型訓練算法的下一個里程碑?| 目前還不是業界焦點,但有潛力是重大基礎創新-AI.x社區

這里,η是學習率,θ是模型參數。

Newton-Schulz迭代:高效的正交化工具

正交化聽起來很高級,計算上也很復雜。如果用傳統的SVD(奇異值分解)來正交化,計算量太大,速度太慢,完全不適合現代GPU加速的訓練環境。而Muon采用的Newton-Schulz迭代,則是一個高效的替代方案。

這個迭代過程的核心是,通過反復計算一個多項式函數(比如五次多項式),逐步將更新矩陣調整到接近正交的狀態。它的優點在于:

  • 低計算開銷:每次迭代只需幾次矩陣乘法,遠比SVD快。
  • 數值穩定性:可以用bfloat16(一種低精度浮點格式)運行,非常適合現代GPU。

例如,Muon的實現中,Newton-Schulz迭代的公式是:

Muon優化器:AI模型訓練算法的下一個里程碑?| 目前還不是業界焦點,但有潛力是重大基礎創新-AI.x社區

其中,(a = 3.4445, b = -4.7750, c = 2.0315)是精心調優的系數。經過5次迭代,就能得到一個“足夠正交”的更新矩陣,既高效又實用。

Muon的優勢:效率與潛力的結合

Muon并不是憑空出現的“黑魔法”,它的優勢經過了多次實驗驗證。以下是Muon相比AdamW的幾個突出優點:

  1. 更快的訓練速度在多個基準測試中,Muon展現了驚人的加速能力。例如:
  • 在CIFAR-10圖像分類任務中,Muon將達到94%準確率的時間從3.3 A100-seconds降到2.6 A100-seconds。
  • 在NanoGPT speedrunning任務(訓練一個小規模GPT模型)中,Muon將訓練速度提升了1.35倍。 這些結果表明,Muon能顯著縮短訓練時間,尤其是在資源有限的場景下。
  1. 卓越的可擴展性Muon在大規模模型上同樣表現出色。例如,在訓練一個1.5億參數的語言模型時,Muon僅用10個8xH100-hours就達到了GPT-2 XL的性能水平,而AdamW需要13.3 hours。隨著模型規模繼續擴大,這種差距可能會更明顯。
  2. 低計算開銷盡管正交化聽起來很復雜,但Muon的額外計算開銷非常小。在典型語言模型訓練中,Muon的FLOP(浮點運算)開銷低于1%。這得益于Newton-Schulz迭代的高效性,以及對現代硬件的優化。
  3. 與現有框架兼容Muon并非完全替代AdamW,而是與之互補。實際應用中,Muon通常優化網絡的隱藏層參數,而嵌入層(embedding)和分類器頭(head)仍由AdamW處理。這種“分工合作”的方式,讓Muon可以無縫集成到現有訓練流程中。

如果Muon替代AdamW

假設Muon的潛力被充分驗證,并逐步取代AdamW成為新的標準優化器,AI領域可能會迎來以下重大變化:

  1. 訓練成本大幅降低Muon的高效性意味著,訓練一個大規模模型所需的計算資源和時間將顯著減少。這不僅能節省數千萬RMB的算力成本,還能讓更多中小型研究團隊參與到前沿AI研究中,降低技術門檻。
  2. 模型規模的進一步突破更高的訓練效率,讓研究者有能力嘗試更大規模的模型。比如,現在訓練一個1000億參數模型可能需要數月,而有了Muon,或許幾周就能完成。這將推動AI能力的上限不斷提升。
  3. AI應用加速落地更快的訓練速度意味著模型從研究到應用的時間縮短。無論是工業大模型(創新奇智在做的事情),還是其他行業大模型,AI技術的普及速度都可能因此加快。
  4. 優化器研究的復興Muon的成功可能會重新點燃對優化器算法的興趣。過去幾年,AdamW幾乎“一統江湖”,新優化器的研究相對沉寂。如果Muon證明了創新優化器的價值,研究者可能會投入更多精力,探索其他潛在的突破。

OpenAI:Muon的未來舞臺?

2024年,Muon的開發者Jordan在個人博客中詳細介紹了Muon的設計理念和實驗結果,隨后不久,他宣布加入OpenAI。這一動向并非巧合,很可能OpenAI看中了Muon的潛力。

月之暗面的實踐:Muon的驗證

Moonshot AI(月之暗面)近期在Muon的基礎上進行了大規模實踐,驗證了它在真實場景中的潛力。他們不僅改進了Muon,還訓練了一個名為Moonlight的3B/16B參數Mixture-of-Expert(MoE)模型,用5.7萬億tokens的數據進行了測試。

Moonshot AI的改進

Moonshot AI發現,原始Muon在小規模任務上表現出色,但在超大規模訓練中會遇到問題,比如模型權重增長過大,影響穩定性。為此,他們提出了兩個關鍵改進:

  1. 引入權重衰減他們將AdamW的權重衰減機制融入Muon,更新公式變為:
  2. Muon優化器:AI模型訓練算法的下一個里程碑?| 目前還不是業界焦點,但有潛力是重大基礎創新-AI.x社區

  3. 這有效控制了權重大小,提升了長期訓練的性能。
  4. 調整更新尺度Muon的更新幅度(RMS)會因參數矩陣的形狀而變化,可能導致訓練不穩定。Moonshot AI提出按矩陣最大維度縮放更新,比如:
  5. Muon優化器:AI模型訓練算法的下一個里程碑?| 目前還不是業界焦點,但有潛力是重大基礎創新-AI.x社區

 這樣可以保持更新幅度一致,并與AdamW兼容。

Moonlight的驚艷表現

基于這些改進,Moonshot AI用Muon訓練了Moonlight模型,并在多個基準測試中取得了優異成績。例如:

  • 在MMLU(英語理解)上,Moonlight得分70.0,超越了同規模的Llama3.2-3B(54.7)和Deepseek-v2-Lite(58.3)。
  • 在GSM8K(數學推理)上,得分77.4,接近Qwen2.5-3B(79.1),但訓練tokens僅為后者的三分之一。
  • 訓練效率上,Moonlight只需約52%的FLOPs,就能達到AdamW的性能水平。

這些結果表明,Muon不僅能加速訓練,還能提升模型性能,尤其在數學和代碼任務上表現突出。

Muon優化器:AI模型訓練算法的下一個里程碑?| 目前還不是業界焦點,但有潛力是重大基礎創新-AI.x社區

結語:Muon的潛力與未來

Muon作為一種新興的優化器算法,以其獨特的設計和卓越的性能,展現了巨大的潛力。它通過正交化更新矩陣,打破了傳統優化器的局限,在訓練速度、可擴展性和計算效率上都超越了AdamW。盡管目前它還未引起全球關注,但Keller Jordan的加入OpenAI,以及Moonshot AI的成功實踐,都預示著Muon可能成為AI訓練領域的下一個里程碑。

Muon優化器:AI模型訓練算法的下一個里程碑?| 目前還不是業界焦點,但有潛力是重大基礎創新-AI.x社區

Muon優化器:AI模型訓練算法的下一個里程碑?| 目前還不是業界焦點,但有潛力是重大基礎創新-AI.x社區

?本文轉載自???后向傳播???,作者: 張發恩

收藏
回復
舉報
回復
相關推薦
2022国产精品视频| 亚洲理论在线| 日韩视频中午一区| 日韩欧美国产综合在线| 日韩美女一级视频| 日本不卡一区二区三区高清视频| 日韩在线观看网址| 影音先锋资源av| 亚洲精品粉嫩美女一区| 亚洲精品乱码久久久久久久久 | 精品国产99| 欧美一级高清片在线观看| 日本三级免费网站| 国产在线69| 91老司机福利 在线| 亚洲一区二区三区四区在线播放| www成人在线| 911久久香蕉国产线看观看| 国产婷婷97碰碰久久人人蜜臀| 亚洲欧美手机在线| 日韩免费va| 亚洲午夜激情网页| 欧美xxxx吸乳| 中文字幕在线观看日本| 91麻豆成人久久精品二区三区| 91香蕉电影院| 在线观看国产黄| 麻豆成人精品| 69久久夜色精品国产7777| 日韩欧美123区| 国产探花在线精品| 日韩电影在线观看中文字幕| 日本中文字幕在线不卡| 日本成人福利| 一本色道久久综合精品竹菊| 天天爱天天做天天操| 黑人与亚洲人色ⅹvideos| av不卡在线播放| av资源站久久亚洲| 99久久精品国产一区二区成人| 男人的天堂亚洲一区| 欧美一区在线直播| 国产又黄又粗又爽| 一道本一区二区| 91成人性视频| 毛片在线免费视频| 亚洲麻豆av| 韩国三级日本三级少妇99| 久草成人在线视频| 欧美在线亚洲综合一区| 欧美精品一区三区| 五月天丁香激情| 亚洲电影在线一区二区三区| 俺去了亚洲欧美日韩| 色婷婷国产精品免| 日韩精品dvd| 在线精品视频视频中文字幕| 无码少妇精品一区二区免费动态| 国产成人手机高清在线观看网站| 日韩精品极品在线观看播放免费视频| 在线xxxxx| 欧美自拍一区| 亚洲美女av黄| 九九九视频在线观看| 成人精品中文字幕| 丝袜情趣国产精品| 日韩一区二区三区四区在线| 午夜日韩电影| 国内免费精品永久在线视频| 国产精品男女视频| 日本视频免费一区| 91美女片黄在线观看游戏| 国产视频在线观看视频| 成人午夜电影小说| 麻豆av一区二区三区| 国产中文字幕在线看| 亚洲国产精品精华液ab| 老汉色影院首页| 波多野结衣精品| 欧美性xxxx极品hd欧美风情| 久久精品免费网站| 日韩av综合| 日韩av在线网址| 自拍偷拍亚洲天堂| 综合激情一区| 韩国精品久久久999| 中文字幕永久在线| 国产一区二区美女诱惑| 精品国产中文字幕| 中文字幕在线播放| 午夜亚洲国产au精品一区二区| 日本免费一级视频| 超碰国产精品一区二页| 精品国产一区二区在线观看| 亚洲天堂岛国片| 欧美日韩爆操| 国产精品欧美日韩久久| 国产成人手机在线| 国产午夜三级一区二区三| 国产免费xxx| 性欧美gay| 精品久久久久av影院| 国产精品国产三级国产专业不| 亚洲人体av| 国产成人久久久| 国产综合无码一区二区色蜜蜜| 国产日产精品一区| 婷婷五月综合缴情在线视频| 欧美亚洲综合视频| 亚洲女同性videos| 黄色一级视频在线观看| 日本不卡一区二区| 国产乱码精品一区二区三区中文| 超碰国产在线观看| 午夜精品视频一区| 日本一区二区三区在线免费观看| 免费短视频成人日韩| 欧美激情视频三区| 国产又粗又黄视频| 国产日韩欧美a| 欧美性久久久久| jizzjizzjizz欧美| 欧美精品在线观看| 亚洲性生活大片| 久久久精品免费网站| 成人免费观看在线| 日韩高清一区| www.国产精品一二区| 免费观看日批视频| 91蝌蚪国产九色| 日韩精品视频在线观看视频| 久久久久毛片免费观看| 日韩视频中文字幕| 最近中文字幕在线观看视频| 久久青草欧美一区二区三区| 欧美日韩成人免费视频| 99精品在免费线中文字幕网站一区 | 好男人免费精品视频| 午夜日韩在线电影| 911亚洲精选| 国内精品久久久久久久影视蜜臀| 91美女片黄在线观看游戏| 免费在线观看黄色| 欧美精品v日韩精品v韩国精品v| 好吊日免费视频| 在线亚洲观看| 欧美三日本三级少妇三99| 亚洲欧洲日本韩国| 亚洲乱码av中文一区二区| 国产a∨精品一区二区三区仙踪林| 成人一级片网址| 日韩久久久久久久久久久久| 日本在线成人| 久久久久久欧美| 四虎在线视频免费观看| 香蕉久久一区二区不卡无毒影院| 中文字幕人妻一区二区三区| 一本久道久久久| 久久亚洲午夜电影| 丝袜美腿一区| 主播福利视频一区| a在线观看免费| 一区二区三区精品在线| 国产性生活毛片| 久久看片网站| 亚洲精品一区二区三区av| 97精品资源在线观看| 欧美肥臀大乳一区二区免费视频| 高清国产mv在线观看| 日韩欧美高清视频| 国产又黄又粗的视频| 国内精品久久久久影院薰衣草| 一二三四中文字幕| 女同一区二区三区| 国产精品美乳一区二区免费| 黄网址在线观看| 亚洲精品一区二区三区在线观看| 国产毛片aaa| 国产精品国产三级国产普通话三级| 手机免费看av网站| 国产日韩综合| 亚洲欧洲一区二区福利| 亚洲一区二区电影| 国产不卡视频在线| 制服丝袜在线播放| 日韩国产精品视频| 91资源在线视频| 亚洲国产视频在线| 人妻视频一区二区| 风间由美性色一区二区三区| 四虎永久在线精品无码视频| 五月婷婷亚洲| 欧美一区二区高清在线观看| 精品国产亚洲日本| 日韩av免费在线观看| 精品视频在线一区二区| 精品一区二区三区四区| 国产精品无码在线播放| 精品久久久久久久大神国产| 免费一级suv好看的国产网站 | 成人精品一二区| 卡通欧美亚洲| 欧美伦理91i| 福利在线播放| 亚洲黄色av网站| 国产麻豆一精品一男同| 色婷婷综合久色| 久久久久久久久精| 国产精品美女久久久久高潮| 国产免费一区二区三区最新6| 麻豆久久久久久久| 97国产精东麻豆人妻电影 | 不卡av在线播放| 免费在线黄色网址| 亚洲精品一区二区三区香蕉| 亚洲在线免费观看视频| 欧美性20hd另类| 久久精品亚洲无码| 亚洲日韩欧美一区二区在线| 久久久视频6r| 91丝袜美腿高跟国产极品老师| 欧美污在线观看| 久久超级碰视频| 免费看污污网站| 久久精品毛片| 日本一区二区黄色| 一区二区国产精品| 成人免费在线网| 欧美色123| 四虎精品欧美一区二区免费| 日韩一区三区| 杨幂一区欧美专区| 成人激情诱惑| 亚洲精品影院| 欧美亚洲精品在线| 日韩电影天堂视频一区二区| 亚洲精品白浆高清| 久久久久久久免费| 九一亚洲精品| 日本精品一区| 成人看的视频| 亚洲高清视频一区| 日韩精品看片| 一区二区三区四区| 99精品视频在线观看播放| 亚洲v国产v在线观看| 欧美色女视频| 五码日韩精品一区二区三区视频| 精品一区二区三区中文字幕老牛| 秋霞毛片久久久久久久久| 国产探花一区二区| 亚洲欧美日韩国产成人综合一二三区| 郴州新闻综合频道在线直播| 亚洲a∨一区二区三区| 欧美三级三级| 26uuu成人| 欧美特黄一级| 极品美女扒开粉嫩小泬| 先锋影音久久久| 福利在线一区二区三区| 毛片av中文字幕一区二区| 亚洲天堂一区二区在线观看| 国产高清视频一区| 欧美双性人妖o0| 久久久精品黄色| 亚洲AV成人无码网站天堂久久| 中文字幕一区在线观看视频| 麻豆视频在线观看| 欧美日韩亚洲一区二区三区| 无码人妻丰满熟妇奶水区码| 欧美日本一道本在线视频| 国产精品亚洲欧美在线播放| 欧美xxxx在线观看| 男人的天堂在线视频| 社区色欧美激情 | 色图在线观看| 热久久99这里有精品| 国产精品美女午夜爽爽| 成人在线免费网站| 国产日产精品一区二区三区四区的观看方式 | 国产精品毛片高清在线完整版| 天天操夜夜操av| 亚洲国产成人91porn| 国产精华7777777| 日韩午夜三级在线| 麻豆影视在线| 欧美巨大黑人极品精男| 香蕉伊大人中文在线观看| 成人国产精品av| 欧美日韩另类图片| 中国人体摄影一区二区三区| 国内精品福利| 牛夜精品久久久久久久| 成人精品高清在线| 国产欧美小视频| 午夜精品福利一区二区三区蜜桃| 中文在线免费观看| 亚洲国产欧美在线成人app| 91精品国产91久久久久游泳池 | 久草福利资源在线观看| 91九色最新地址| 人妻少妇一区二区三区| www.欧美三级电影.com| 原纱央莉成人av片| 国产女人水真多18毛片18精品 | 久久在线免费观看视频| 成人直播视频| 国产美女在线精品免费观看| 99国内精品久久久久久久| 欧美在线观看成人| 成人午夜私人影院| 你懂得在线观看| 91成人在线观看喷潮| 欧美一区二区公司| 久久国产精品久久久久| 国产资源一区| 日韩国产精品一区二区| 亚洲精品黄色| 91精品人妻一区二区三区蜜桃2| 中文字幕乱码久久午夜不卡| 国产成人在线免费观看视频| 日韩欧美国产精品一区| 永久免费av在线| 国产精品久久久久久久久久三级 | 日韩精品福利在线| 国产第一页在线视频| 91亚洲va在线va天堂va国| 日本久久黄色| 九一精品在线观看| 国产午夜一区二区三区| 69亚洲精品久久久蜜桃小说| 亚洲娇小xxxx欧美娇小| 丰乳肥臀在线| 国产精品裸体一区二区三区| 欧美日韩国产综合网| 丰满人妻一区二区三区大胸 | 秋霞在线一区二区| 久久精品99久久久| 中国美女黄色一级片| 欧美性猛片aaaaaaa做受| 狠狠v欧美ⅴ日韩v亚洲v大胸| 日韩av电影在线网| 久草精品在线| 国产wwwxx| 国产精品理论在线观看| 中文字字幕在线观看| 日韩在线视频免费观看| 9.1麻豆精品| 永久免费看av| 丁香一区二区三区| 91浏览器在线观看| 亚洲欧美激情一区| 女海盗2成人h版中文字幕| 久久婷婷人人澡人人喊人人爽| 国产精品一级| 欧美 日韩 国产 成人 在线观看| 91福利小视频| 自拍视频在线| 97久草视频| 国产一级久久| 美女被到爽高潮视频| 欧美日韩国产123区| 黄av在线免费观看| 国产精品av一区| 久久久久久久尹人综合网亚洲 | 亚洲一区二区三区四区在线| 亚洲精品久久久狠狠狠爱| 4438全国亚洲精品在线观看视频| 蜜臀av免费一区二区三区| 中文字幕免费高清在线| 亚洲午夜久久久久久久久电影网 | 婷婷亚洲精品| 91热这里只有精品| 亚洲精品成人少妇| 日本一级在线观看| 国产日韩亚洲欧美| 红桃视频欧美| 国产在线综合视频| 精品久久人人做人人爽| 欧美xx视频| 中文字幕精品在线播放| 91啦中文在线观看| aaaa一级片| 国产成人精品久久二区二区91| 希岛爱理av一区二区三区| 黄色片视频免费观看| 精品视频1区2区| 成人黄色动漫| 亚洲最新在线| 久久尤物电影视频在线观看| 国产精品色综合| 日本精品久久久久久久| 亚洲乱码精品| 亚洲精品午夜视频| 日韩精品一区二区三区三区免费| 成人福利视频| 欧美视频在线第一页| 中文字幕精品一区二区三区精品| 亚洲精品国产av| 91精品国产综合久久男男|