參數(shù)估計(jì)的數(shù)學(xué)藝術(shù):矩估計(jì)與最大似然估計(jì)的深度解析
2010年,美國(guó)一位數(shù)學(xué)老師帶著學(xué)生們做了一個(gè)有趣的實(shí)驗(yàn)——連續(xù)拋硬幣1萬(wàn)次,記錄正反面出現(xiàn)的頻率。
結(jié)果讓人驚訝:在如此大的樣本下,硬幣正面的比例竟不是嚴(yán)格的50%,而是略微偏向某一面。
圖片
這個(gè)實(shí)驗(yàn)揭示了一個(gè)深刻的統(tǒng)計(jì)學(xué)問(wèn)題:我們?nèi)绾螐挠邢薜臄?shù)據(jù)中,推斷出未知的真相?這個(gè)問(wèn)題的探索之旅,離不開(kāi)一個(gè)極為關(guān)鍵的統(tǒng)計(jì)學(xué)概念——參數(shù)估計(jì)。
今天,讓我們一起深入探究參數(shù)估計(jì)中最為經(jīng)典且廣泛應(yīng)用的兩種方法:矩估計(jì)與最大似然估計(jì),看看它們?nèi)绾螐臄?shù)據(jù)中"猜"出真相!
目錄
01 | 矩估計(jì):統(tǒng)計(jì)匹配的藝術(shù) |
02 | 最大似然估計(jì):概率極值的追求 |
03 | 巔峰對(duì)決:方法論之爭(zhēng) |
一、矩估計(jì)
1894年的倫敦,統(tǒng)計(jì)學(xué)家卡爾·皮爾遜正在研究父母與子女的身高關(guān)系。面對(duì)大量雜亂無(wú)章的數(shù)據(jù),他萌生了一個(gè)樸素卻革命性的想法:
圖片
既然樣本數(shù)據(jù)能計(jì)算均值、方差等特征,那么讓這些樣本特征等于理論特征,不就能反推出分布參數(shù)了嗎?
這個(gè)看似簡(jiǎn)單的思路,開(kāi)創(chuàng)了矩估計(jì)法(Method of Moments)的先河。
(1)矩估計(jì)的精妙之處
想象你是一位古代鑄幣廠(chǎng)的質(zhì)檢員,需要判斷新鑄造的一批硬幣是否公平。你隨機(jī)抽取10枚硬幣各拋10次,記錄正面朝上的次數(shù):
6, 4, 7, 5, 5, 3, 6, 5, 4, 7
矩估計(jì)的解決之道異常優(yōu)雅:
- 計(jì)算樣本均值:(6+4+...+7)/10 = 5.2
- 理論均值:公平硬幣的期望值應(yīng)為5次
- 發(fā)現(xiàn)5.2 > 5,推測(cè)這批硬幣可能略偏正面
這種方法的魅力在于其直接性——不需要復(fù)雜的計(jì)算,僅通過(guò)基本的數(shù)字比較就能得出結(jié)論。
(2)矩估計(jì)的數(shù)學(xué)原理
矩估計(jì)的核心思想建立在矩匹配的基礎(chǔ)上。對(duì)于一個(gè)概率分布,其k階矩定義為:


這個(gè)推導(dǎo)展示了矩估計(jì)的數(shù)學(xué)之美:通過(guò)簡(jiǎn)單的矩匹配,就能得到參數(shù)的顯式解。
(3)矩估計(jì)的應(yīng)用場(chǎng)景
在金融工程領(lǐng)域,矩估計(jì)依然大放異彩。華爾街的量化分析師們常用它來(lái)估計(jì)股票收益率的波動(dòng)性:
- 用歷史收益率計(jì)算樣本方差
- 假設(shè)收益率服從某種分布
- 通過(guò)矩匹配快速得到參數(shù)估計(jì)
這種方法的穩(wěn)健性使其在數(shù)據(jù)質(zhì)量不高時(shí)仍能給出可靠結(jié)果。
二、最大似然估計(jì)
時(shí)間來(lái)到1922年,年輕的羅納德·費(fèi)雪發(fā)表了一篇?jiǎng)潟r(shí)代的論文。他提出:參數(shù)估計(jì)不應(yīng)該只是匹配數(shù)字特征,而應(yīng)該尋找最可能產(chǎn)生觀測(cè)數(shù)據(jù)的參數(shù)值。
圖片
這就是最大似然估計(jì)(Maximum Likelihood Estimation,MLE)的誕生,它徹底改變了統(tǒng)計(jì)學(xué)的發(fā)展軌跡。
(1)似然思想的魔力
讓我們回到硬幣實(shí)驗(yàn)。假設(shè)你拋硬幣3次,結(jié)果是:正、正、反,MLE的思考方式完全不同。
圖片
計(jì)算不同p值下這個(gè)序列出現(xiàn)的概率:
- p=0.5時(shí):0.5×0.5×0.5=0.125
- p=0.6時(shí):0.6×0.6×0.4=0.144
- p=0.7時(shí):0.7×0.7×0.3=0.147
顯然,p=0.7時(shí)這個(gè)結(jié)果出現(xiàn)的概率最大。
MLE就像一位精明的偵探,通過(guò)分析"證據(jù)"出現(xiàn)的可能性來(lái)鎖定"真兇"。
(2)MLE的數(shù)學(xué)原理


這個(gè)推導(dǎo)展示了MLE的數(shù)學(xué)嚴(yán)謹(jǐn)性:通過(guò)優(yōu)化技術(shù)尋找概率最大值點(diǎn)。
(3)MLE的應(yīng)用場(chǎng)景
在現(xiàn)代機(jī)器學(xué)習(xí)中,MLE已成為不可或缺的工具:
- 邏輯回歸:用MLE估計(jì)權(quán)重參數(shù)
- 神經(jīng)網(wǎng)絡(luò):交叉熵?fù)p失函數(shù)本質(zhì)上是MLE的體現(xiàn)
- 自然語(yǔ)言處理:詞向量訓(xùn)練大量使用MLE原理
三、方法論之爭(zhēng)
矩估計(jì)和最大似然估計(jì)的思想基礎(chǔ)完全不同。
矩估計(jì)是通過(guò)樣本矩和總體矩的匹配來(lái)估計(jì)參數(shù),而最大似然估計(jì)是通過(guò)最大化數(shù)據(jù)出現(xiàn)的概率來(lái)估計(jì)參數(shù)。
圖片
在計(jì)算復(fù)雜度上,矩估計(jì)通常更簡(jiǎn)單,因?yàn)樗恍枰镜慕y(tǒng)計(jì)量計(jì)算;而最大似然估計(jì)可能需要復(fù)雜的數(shù)學(xué)推導(dǎo)和數(shù)值計(jì)算。
那么,我們?cè)撊绾芜x擇呢?
如果你的數(shù)據(jù)量很大,模型假設(shè)比較明確,而且需要高精度的估計(jì),那么最大似然估計(jì)可能是更好的選擇。
圖片
如果你的數(shù)據(jù)量比較小,模型假設(shè)不太確定,或者需要快速得到結(jié)果,那么矩估計(jì)可能更適合你。
當(dāng)然,還有二者融合的方法,比如廣義矩方法(GMM),它結(jié)合了矩估計(jì)和最大似然估計(jì)的優(yōu)點(diǎn),可以在一定程度上彌補(bǔ)它們的不足。
正如著名統(tǒng)計(jì)學(xué)家C.R. Rao所說(shuō):“在統(tǒng)計(jì)的宇宙中,數(shù)學(xué)是照亮真理的明燈。”
從矩匹配的直觀到似然優(yōu)化的深刻,參數(shù)估計(jì)的發(fā)展歷程展現(xiàn)了統(tǒng)計(jì)學(xué)如何將實(shí)際問(wèn)題抽象為優(yōu)美的數(shù)學(xué)形式。
本文轉(zhuǎn)載自?????Fairy Girl?????,作者:Fairy Girl

















