梯度之上—Hessian矩陣:利用二階導(dǎo)數(shù)的 “牛頓法” 突破梯度下降法的局限性
梯度下降法是僅使用梯度信息的一階優(yōu)化算法,忽略了曲率信息,計(jì)算簡(jiǎn)單且可能收斂慢。因此,牛頓法使用Hessian矩陣結(jié)合了局部曲率信息,自適應(yīng)地調(diào)整更新步長(zhǎng),進(jìn)一步加速收斂。本文將從梯度下降法的局限性出發(fā),詳細(xì)介紹牛頓法的數(shù)學(xué)推導(dǎo)過(guò)程。(全文1300余字,感興趣可點(diǎn)贊、推薦、轉(zhuǎn)發(fā)、關(guān)注,將持續(xù)更新!!!)
1、梯度下降法的局限性
(1) 梯度下降法沿參數(shù)空間中某一點(diǎn)處的???負(fù)梯度方向???進(jìn)行參數(shù)更新。同時(shí),???梯度下降法的本質(zhì)是基于一階泰勒展開(kāi)的局部線性近似。???理想情況下,當(dāng)每一次參數(shù)更新的步長(zhǎng)無(wú)限小時(shí),函數(shù)值的下降路徑無(wú)限逼近于原函數(shù)。但是,實(shí)際應(yīng)用中,步長(zhǎng)越小,計(jì)算量越大,故每一次參數(shù)更新必有確定的步長(zhǎng),這也導(dǎo)致了函數(shù)值的實(shí)際下降路徑必然與最優(yōu)下降路徑存在差異,從而為梯度下降法的優(yōu)化帶來(lái)了可能性。


(b) 總之,期望找到一種方法,既能保證一定的學(xué)習(xí)步長(zhǎng),又能更好地貼近最優(yōu)下降路徑。
2、牛頓法


(2) 與基于一階泰勒展開(kāi)實(shí)現(xiàn)局部線性逼近的梯度下降法類(lèi)似,若要找到一個(gè)二次曲線去逼近目標(biāo)函數(shù),常用的方法是對(duì)目標(biāo)函數(shù)在當(dāng)前參數(shù)點(diǎn)處進(jìn)行二階泰勒展開(kāi)(理論上越高階越好,但是計(jì)算量也越大)。

3、牛頓法的有效性和局限性
(1) 相比于標(biāo)準(zhǔn)的梯度下降法,牛頓法利用了二階導(dǎo)數(shù)(即矩陣),來(lái)描述目標(biāo)函數(shù)的局部曲率,自適應(yīng)地調(diào)整更新步長(zhǎng),加速收斂。
(a) 眾所周知,函數(shù)在某點(diǎn)的一階導(dǎo)數(shù)為切線的斜率。那么,二階導(dǎo)數(shù)為一階導(dǎo)數(shù)的導(dǎo)數(shù),量化了函數(shù)切線斜率隨自變量變化的速率,便可反映函數(shù)局部的曲率。
(b) 二階導(dǎo)數(shù)越大,表示斜率變化越快(如急轉(zhuǎn)彎),曲率大;反之越小。
(2) 牛頓法每次參數(shù)更新都要計(jì)算一個(gè)矩陣,計(jì)算量太大,故其實(shí)用性較差。

參考資料
[1] 高等數(shù)學(xué)第八版,同濟(jì)大學(xué)數(shù)學(xué)科學(xué)院
[2] https://www.bilibili.com/video/BV1r64y1s7fU?spm_id_from=333.788.videopod.sections&vd_source=4cb33b31ca5b5cd06b5f94aee649ca78?
本文轉(zhuǎn)載自????南夏的算法驛站????,作者:趙南夏

















