AI優化器技術演進:從AdamW到流形Muon
在人工智能的世界里,如果說大型神經網絡是那個能夠學習和思考的“大腦”,那么優化器(Optimizer),就是指導這個“大腦”如何學習、學習多快、以及最終能學得多好的“隱形之手”。從一個隨機初始化的網絡,到一個能夠理解語言、生成代碼的強大智能體,優化器在其中扮演著至關重要的角色。
然而,隨著模型規模的爆炸式增長,我們熟知的經典優化器正面臨著前所未有的挑戰。近期,一家由前OpenAI核心團隊創立的新公司Thinking Machines Lab(TML),通過其發布的“模塊流形”研究,為我們揭示了AI優化器可能即將迎來的一場深刻的范式革命。
從SGD到AdamW
深度學習的早期,最基礎的優化器是隨機梯度下降(SGD)。它的原理很簡單,就像一個蒙著眼睛的登山者,每走一步都沿著當前腳下最陡峭的方向(梯度的反方向)向下走,以期最快到達谷底(損失函數的最小值)。
但SGD的問題也很明顯,它容易陷入局部最優的“小山谷”里出不來,或者在曲折的山路上反復震蕩。為了解決這些問題,研究者們引入了“慣性”的概念,催生了Momentum等優化器。
隨后,一個里程碑式的優化器Adam誕生了。它不僅考慮了慣性,還能為每個參數自適應地調整學習率,使其在各種任務中都表現出色。而我們今天最廣泛使用的AdamW,則是在Adam的基礎上,改進了權重衰減的處理方式,進一步提升了其性能和泛化能力。可以說,AdamW是當前深度學習優化器領域的“集大成者”。
新時代的挑戰與“救火式”修正
當模型參數從百萬級躍升至千億、萬億級別時,AdamW等經典優化器開始面臨新的挑戰——數值不穩定性。在巨大的網絡中,參數的更新很容易出現“爆炸”或“消失”的極端情況,導致訓練過程崩潰。
為了應對這個問題,研究者們發明了各種“打補丁”式的修正方法。例如,Layer Normalization通過對每一層網絡的激活值進行歸一化,來保持其穩定。譜范數歸一化等技術,則通過限制權重矩陣的“拉伸”程度來控制更新的幅度。這些方法雖然有效,但都屬于“救火式”的被動修正。
TML的“流形優化”
TML發布的“模塊流形”研究,提出了一種全新的、從根本上解決問題的思路:不再是在一個無約束的空間里自由下降,然后再想辦法把跑偏的參數拉回來;而是一開始,就將參數約束在一個永遠不會“跑偏”的、被稱為“流形”的特定數學空間內進行優化。
為了驗證這一理念,他們設計了一款名為**“流形Muon”的新型優化器。它將神經網絡中的權重矩陣,約束在一個名為Stiefel流形**的特殊空間中。在這個空間里,所有矩陣的奇異值(可以理解為矩陣對數據進行拉伸或壓縮的程度)都被嚴格限制為1。這意味著,無論模型如何更新,其內部的參數始終保持在一個“健康”、穩定的狀態。
實驗結果令人振奮。在經典的CIFAR-10圖像分類任務上,使用“流形Muon”訓練的神經網絡,其性能優于了被廣泛使用的AdamW優化器。這初步證明了“流形優化”這一新范式的有效性和巨大潛力。
優化器的未來展望
“流形Muon”的成功,僅僅是這場優化器革命的開端。TML的論文中,還展望了這一新范式未來的多個研究方向,包括:
- 如何為注意力機制、嵌入層等更復雜的網絡結構設計合適的流形約束。
- 流形約束對低精度訓練的潛在好處。
- 如何設計和調整約束,以提高模型的泛化能力。
- 如何在GPU上高效地實現相關的流形數學運算。
從SGD的簡單梯度下降,到AdamW的自適應學習,再到如今“流形Muon”所揭示的幾何優化新大陸,AI優化器的發展,正不斷向著更穩定、更高效、也更接近數學本質的方向演進。
Thinking Machines Lab的這項研究,無疑為我們打開了一扇通往這個新世界的大門。它預示著,未來的AI大模型訓練,可能將不再是一場充滿不確定性的“煉丹”,而是一門更加嚴謹、更加可控的科學。

















