Nesterov動量法:“走一步看兩步” 的 “前瞻機制” 破局動量法的局限性
動量法通過引入歷史梯度信息顯著提升了收斂效率,卻難以擺脫路徑震蕩與局部最優的桎梏。當梯度方向突變時,傳統動量法如同盲目前行的旅人,只能依賴當前腳步調整方向,卻常因慣性陷入反復震蕩的困局。而Nesterov動量法的“前瞻機制”,猶如為優化過程裝上預判未來的羅盤——它先沿歷史動量方向跨出試探性一步,在預估位置重新校準梯度,實現對路徑的動態修正。
本文將深入解析動量法的局限性與Nesterov的破局之道,揭示其如何通過“走一步看兩步”的智慧,進一步優化梯度下降的軌跡。
1.動量法的局限性
(1)??? 動量法???在每次參數更新時引入歷史梯度信息實現了???梯度下降法???的優化。但動量法在遇到下圖所示的情況時存在一定的局限性。根據動量法的定義,在每個位置引入歷史梯度向量修正當前負梯度向量以得到實際的梯度下降路徑(從位置A到位置B再到位置C)。

(2) 可以發現,從位置A到位置B再到位置C的路徑并非最優,若能在位置A時就提前預知位置B時的路徑走向,那么便能在位置A時增大修正幅度,以實現更優的下降路徑。
(3) 故如何做到提前預知下一步的路徑走向,便是Nesterov動量法的精妙之處!
2.Nesterov動量法
(1) Nesterov動量法的核心改進在于引入“前瞻機制”,通過調整當前位置梯度計算的位置來優化參數更新方向,從而提高收斂速度和穩定性。


(3) 綜上所述,Nesterov動量法的參數更新過程可表示如下:

(4) 總之,Nesterov動量法通過前瞻位置計算梯度,更貼近當前動量的實際路徑,相當于對更新方向進行動態校正,減少無效更新。若歷史梯度方向正確,Nesterov動量法會增大修正幅度,反之則會減小修正幅度,從而進一步抑制震蕩,更快逼近最優點。
參考資料
[1] 伊恩·古德費洛 等,深度學習,人民郵電出版社
[2] https://www.bilibili.com/video/BV1r64y1s7fU?spm_id_from=333.788.videopod.sections&vd_source=4cb33b31ca5b5cd06b5f94aee649ca78
本文轉載自?????南夏的算法驛站?????,作者:趙南夏

















