一篇被證明“理論有誤”的論文,拿下了ICML2025時間檢驗獎
深度學習界的傳奇論文,終于等來了它的“封神”時刻!
剛剛,ICML 2025會議上,2015年發表的Batch Normalization(批次歸一化,簡稱BatchNorm)論文榮獲時間檢驗獎。

這篇如今引用量超過6萬次的開創性工作,是深度學習發展史上一個里程碑式的突破,極大地推動了深層神經網絡的訓練和應用。
可以說它是讓深度學習從小規模實驗,走向大規模實用化和可靠性的關鍵技術之一。

一個簡單想法,讓訓練速度起飛
2015年的深度學習界正面臨一個棘手的問題:訓練深層神經網絡實在太難了。
當時的研究者們發現,隨著網絡層數增加,訓練變得極其不穩定。需要小心翼翼地調整學習率,生怕一個不小心梯度就消失或爆炸了了。
更要命的是,網絡對參數初始化極其敏感,同樣的架構換個初始化方法可能就完全訓練不動。

當時谷歌研究員Sergey Ioffe和Christian Szegedy,找到了問題的關鍵:訓練過程中網絡內部節點數據分布發生變化。

△左:Sergey Ioffe,右:Christian Szegedy
他們把這個現象定義為“內部協變量偏移”(Internal Covariate Shift),指深度神經網絡在訓練中,每一層的參數都在不斷更新,導致后續層的輸入數據分布一直在變化,迫使網絡需要持續適應新的數據分布,從而帶來上面的一系列問題。
他們的解決思路卻出奇地簡單:既然對輸入層的數據做標準化能幫助模型訓練,那么對隱藏層做類似的操作或許也能起作用。
具體來說,BatchNorm會對每個小批次數據計算均值和方差,然后用這些統計量對數據進行標準化,讓它們的分布變成均值為0、方差為1的標準正態分布。
但這里有個巧妙的設計——BN還引入了兩個可學習的參數γ(縮放)和β(平移),讓網絡能夠自己決定需要什么樣的數據分布。這保證了網絡的表達能力不會因為強制標準化而受限。

原論文的實驗結果非常出色,在當時最先進的圖像分類模型上,使用BN后只需要原來1/14的訓練步數就能達到相同精度。
還在ImageNet分類任務上達到當時的最佳結果,超越人類評估者的準確率。

成為深度學習基石,卻被發現“理論有誤”
BatchNorm論文初版提交于2015年初,它的影響力遠超作者最初的預期,不僅大幅加速了模型訓練,還帶來了一系列意想不到的好處。

比如它天然具有的正則化效果,由于每個小批次的均值和方差都存在細微差異,這為網絡的激活值引入了噪聲,其效果類似于Dropout,有助于提升模型的泛化能力,在某些情況下甚至可以替代Dropout。
在BatchNorm出現之前,訓練深度超過幾十層的網絡非常困難。
何愷明等發表于2015年底的ResNet就將殘差連接與BatchNorm等技術結合,使得訓練擁有上百甚至上千層的超深度網絡成為現實。
后續幾乎所有的主流卷積神經網絡(如ResNet, DenseNet, Inception)和許多其他類型的模型都廣泛采用了BatchNorm。

然而戲劇性的一幕出現在2018年。
MIT的團隊發表的一篇論文,直接挑戰了BatchNorm的核心理論。
他們設計了一個巧妙的實驗:在標準BN層后面故意加入隨機噪聲,人為地重新引入“內部協變量偏移”。按照原論文的理論,這應該會破壞BN的效果。
但實驗結果卻顯示,即使存在劇烈的分布偏移,帶BatchNorm的模型訓練速度依然遠快于不帶BatchNorm的模型。

相反,這項研究發現了BatchNorm對訓練過程的更根本的影響:它使Optimization Landscape更加平滑,這種平滑性使梯度的行為更具預測性和穩定性,從而實現更快的訓練。

到了2022年,又有新的研究從幾何視角提供了更深入的見解。

這項研究認為,BN實際上是一種無監督學習技術,它能讓網絡的決策邊界在訓練開始前就主動適應數據的內在結構,相當于一種“智能初始化”。
此外,由小批次統計量變化引入的噪聲有助于增大分類邊界的間隔(margin),從而提升模型的泛化能力。

兩位作者如今在做什么
十年過去了,這篇改變深度學習歷史的論文的兩位作者Sergey Ioffe和Christian Szegedy,如今都在哪里?
兩人都在谷歌工作了十余年,直到2023年Christian Szegedy加入馬斯克團隊,成為xAI的聯合創始人。

隨后2024年初,Sergey Ioffe也跟隨他加入xAI到現在,剛剛發布的Grok 4中或許也有他的貢獻。
不過Christian Szegedy后面已經離開xAI,加入另一家AI代碼生成和優化初創公司Morph Labs擔任首席科學家。
這家公司的目標相當宏大——實現“可驗證的超級智能”。看來這位深度學習先驅,正在為AI的下一個十年布局。

BatchNorm原論文:https://arxiv.org/abs/1502.03167




































