50年最重要8大統計學發展!哥大教授列舉推動AI革命的統計學思想
盡管深度學習和人工智能已經成為家喻戶曉的名詞,但推動這場革命的統計學突破卻鮮為人知。
在最近的一篇論文中,哥倫比亞大學的統計學教授Andrew Gelman和芬蘭阿爾托大學的計算機科學教授Aki Vehtari詳細列舉了過去50年中最重要的統計學思想。

https://www.tandfonline.com/doi/full/10.1080/01621459.2021.1938081
作者將這些統計學思想歸類為8大類別:
- 反事實因果推斷(counterfactual causal inference)
- 自舉法和基于模擬的推斷(bootstrapping and simulation-based inference)
- 超參數化模型和正則化(overparameterized models and regularization)
- 貝葉斯多級模型(Bayesian multilevel models)
- 通用計算算法(generic computation algorithms)
- 自適應決策分析(adaptive decision analysis)
- 魯棒性推斷(robust inference)
- 探索性數據分析(exploratory data analysis)
1. 反事實因果推斷(counterfactual causal inference)
在假設條件下,因果識別是可能的,而且可以嚴格地陳述這些假設,并通過設計和分析以各種方式解決它們。
不同領域發展了不同的因果推斷方法。在計量經濟學中,是結構模型及其對平均治療效果的影響,在流行病學中,是對觀察數據的推斷。
基于因果識別是認知的核心任務,因此應該是一個可以數學形式化的可計算問題。路徑分析和因果發現可以根據潛在結果來構建,反之亦然。
2. 自舉法和基于模擬的推斷(bootstrapping and simulation-based inference)
統計學的一個趨勢是用計算來替代數學分析,甚至在 「大數據 」分析開始之前就已經開始了。
自舉法將估計視為數據的近似充分統計量,并將自舉分布視為數據抽樣分布的近似值。
同時,由于自舉法的普遍性和簡單的計算實現,讓它能夠應用在那些無法使用傳統解析近似的場景,從而獲得了極大的影響力。
在置換測試中,重采樣數據集是通過隨機打亂目標值來打破預測變量和目標之間的(可能的)依賴關系來生成的。
參數自舉、先驗和后驗預測檢查和基于模擬的校準都是從一個模型中創建復制的數據集,而不是直接從數據中重新取樣。
在分析復雜的模型或算法時,從已知的數據生成機制中取樣通常被用來創建模擬實驗,以補充或取代數學理論。
3. 超參數化模型和正則化(overparameterized models and regularization)
統計學一個主要的變化是使用一些正則化程序來擬合具有大量參數的模型,從而獲得穩定的估計和良好的預測。
這是為了在獲得非參數或高度參數化方法的靈活性的同時,避免過度擬合問題。其中,正則化可以作為參數或預測曲線上的懲罰函數來實現。
模型的早期案例包括:馬爾可夫隨機場、樣條曲線和高斯過程、分類和回歸樹 、神經網絡、小波收縮、最小二乘法的替代方案以及支持向量機。
貝葉斯非參數先驗在無限維概率模型族上也有了巨大的發展, 這些模型都有一個特點,就是隨著樣本量的擴大而擴大,而且參數并不總是有直接的解釋,而是一個更大的預測系統的一部分。
4. 貝葉斯多級模型(Bayesian multilevel models)
多級或分層模型具有因組而異的參數,使模型能夠適應集群抽樣、縱向研究、時間序列橫截面數據、薈萃分析和其他結構化設置。
多級模型可以被視為貝葉斯模型,因為它們包括未知潛在特征或變化參數的概率分布。相反,貝葉斯模型有一個多層次結構,具有給定參數的數據和給定超參數的參數的分布。
同樣,貝葉斯推斷不僅作為一種將先驗信息與數據相結合的方式,而且也可以作為一種為推斷和決策考慮不確定性的方式。
5. 通用計算算法(generic computation algorithms)
創新統計算法是在統計問題結構的背景下發展的。EM算法、吉布斯采樣、粒子濾波器、變分推理和期望傳播以不同的方式利用統計模型的條件獨立結構。
梅特羅波利斯-黑斯廷斯算法和哈密頓蒙特卡羅較少受到統計問題的直接影響,它們與早期采用優化算法計算最小二乘和最大似然估計的方式相似。
被稱為近似貝葉斯計算的方法通過模擬生成模型,而不是評估似然函數來獲得后驗推斷,如果似然的分析形式難以解決或計算成本很高,那么就可以使用這種方法。
6. 自適應決策分析(adaptive decision analysis)
通過效用最大化、錯誤率控制和經驗貝葉斯分析,以及在貝葉斯決策理論和錯誤發現率分析中,可以看出適應性決策分析的發展。
統計決策分析的一些重要發展涉及貝葉斯優化和強化學習,它們與 A/B 測試實驗設計的復興有關。
算力的發展,使得用高斯過程和神經網絡等參數豐富模型作為函數先驗,并執行大規模強化學習成為可能。例如創建AI來控制機器人,生成文本,并玩圍棋等游戲。
這項工作大部分都是在統計之外完成的,使用的方法包括非負矩陣分解、非線性降維、生成對抗網絡以及自編碼器,而這些都是用于查找結構和分解的無監督學習方法。
7. 魯棒性推斷(robust inference)
魯棒性的概念是現代統計學的核心,它的意義在于即使模型的假設不正確,也依然可以被使用。
統計理論的一個重要部分就是開發在違反這些假設的情況下運行良好的模型。
一般而言,魯棒性在統計研究中的主要影響不在于特定方法的開發,而在于統計程序的評估,其中數據-生成過程不屬于擬合概率模型的類別。
研究人員對魯棒性的擔憂與作為現代統計數據特征的密集參數化模型相關,這將對更普遍的模型評估產生影響。
8. 探索性數據分析(exploratory data analysis)
探索性數據分析強調漸近理論的局限性以及開放式探索和交流的相應好處。這符合統計建模的觀點,也就是更側重于發現而不是固定假設的檢驗。
計算的進步使從業者能夠快速構建大型復雜模型,從而導致統計圖形的思想有助于理解數據、擬合模型和預測之間的關系。
總結
由于建模的需求不可避免地隨著計算能力的增長而增長,因此分析性的總結和近似的價值也是如此。
同時,統計理論可以幫助理解統計方法的工作原理,數學邏輯可以激發數據分析的新模型和方法。
作者認為這些方法開啟了對統計的新思考方式和數據分析的新方法。
反事實框架將因果推斷置于統計或預測框架內,在該框架中,可以根據統計模型中未觀察到的數據精確定義和表達因果估計,并與調查抽樣和缺失數據插補中的思想聯系起來。
自舉法打開了一種隱式非參數建模形式的大門。可用于復雜調查、實驗設計和其他無法進行分析計算的數據結構的偏差校正和方差估計。
過參數化模型和正則化基于從數據中估計其參數的能力來形式化和概括了現有的限制模型大小的做法,這與交叉驗證和信息標準有關。其中,正則化允許用戶在模型中包含更多的預測變量,而不必擔心過度擬合。
多級模型形式化了從數據中估計先驗分布的「經驗貝葉斯」技術,在更廣泛的問題類別中使用具有更高計算和推理穩定性的方法。
通用計算算法使應用從業者能夠快速擬合用于因果推理、多級分析、強化學習和許多其他領域的高級模型,從而對統計學和機器學習中的核心思想產生更廣泛的影響。
自適應決策分析將最優控制的工程問題與統計學習領域聯系起來,遠遠超出了經典的實驗設計。
魯棒性推斷允許對不同程序進行正式評估和建模的方式來構建這些問題,以處理對異常值和模型錯誤指定的其他模糊問題,而魯棒推理的想法為非參數估計提供了信息。
探索性數據分析將圖形技術和發現推向了統計實踐的主流,使用這些工具來更好地理解和診斷適合數據的新的復雜概率模型類別的問題。
作者介紹
Andrew Gelman 是哥倫比亞大學統計學教授。他曾獲得美國統計學會杰出統計應用獎、統計學會主席理事會40歲以下杰出貢獻獎。


























