楊立昆以Meta身份發表的最后一篇論文
LeJEPA——可證明且可擴展的自監督學習新范式
「“這可能是LeCun以Meta身份發表的最后一篇論文了。”」
「沒錯,這篇論文,介紹了一種自監督學習方法,于11月11日在arXiv提交,是LeCun的最新公開成果。」「也是在這一天,他離職Meta的消息被曝光。」
本文將全面解讀Meta FAIR團隊于2025年發布的突破性論文《LeJEPA: Provable and Scalable Self-Supervised Learning Without the Heuristics》。該研究由Randall Balestriero和Yann LeCun領銜,提出了一種理論完備、實踐簡單的自監督學習框架,為聯合嵌入預測架構(JEPA)提供了堅實的理論基礎和高效實現。

1. 研究背景與動機
自監督學習的核心目標是學習世界及其動態的可操縱表示。聯合嵌入預測架構(JEPA)為此提供了一個有前景的藍圖,但缺乏理論指導使得現有方法依賴大量啟發式技巧。

當前JEPA方法面臨四大核心問題:
- 「表示坍塌」:編碼器將所有輸入映射到相同或低維子空間
- 「啟發式依賴」:需要stop-gradient、非對稱視圖、師生網絡等技巧
- 「超參數敏感」:訓練過程脆弱,需要精心調參
- 「理論缺失」:缺乏理論基礎,依賴經驗性設計
2. 理論突破:為什么需要各向同性高斯分布?
2.1 線性探測的最優性證明
論文首先證明了在各下游任務上,「各向同性高斯分布是嵌入向量的最優分布」。通過分析線性探測場景,作者發現:
「Lemma 1」: 各向異性會放大偏差 - 當λ_K > λ_1時,總存在下游任務使得各向異性分布產生更高偏差的估計量
「Lemma 2」: 各向異性會放大方差 - 當λ=0時,各向同性分布的總方差最小

2.2 非線性探測的廣義證明
論文進一步將證明擴展到非線性探測方法,包括:
- 「半徑基k-NN」:基于距離的最近鄰方法
- 「核方法」:基于Nadaraya-Watson估計器的非參數方法
「Theorem 1」: 在各向同性高斯分布下,積分平方偏差(ISB)達到唯一最小值

2.3 幾何直觀解釋
通過實證驗證,作者展示了各向同性分布在各種場景下的優越性:

3. 核心創新:SIGReg正則化方法
3.1 假設檢驗框架

3.2 Epps-Pulley檢驗的優勢
經過全面比較,作者選擇Epps-Pulley檢驗作為SIGReg的基礎,因其具有:
- 「有界損失和梯度」:訓練穩定性保證
- 「線性復雜度」:計算效率高
- 「可微分性」:適合梯度優化

3.3 克服維數災難
「Theorem 5」: 統一誤差界表明,只需要O(K)個方向即可實現ε近似,當平滑度α較大時
「Theorem 4」: Epps-Pulley檢驗的穩定性保證,梯度有明確上界

4. LeJEPA完整框架
4.1 算法實現
LeJEPA結合了兩個核心組件:
- 「預測損失」:使不同視圖的嵌入相互預測
- 「SIGReg正則化」:強制嵌入分布匹配各向同性高斯
def LeJEPA(global_views, all_views, lambd):
# 全局視圖嵌入
g_emb = forward(torch.cat(glob_views))
# 所有視圖嵌入
a_emb = forward(torch.cat(all_views))
# LeJEPA損失
centers = g_emb.view(-1, bs, K).mean(0)
a_emb = a_emb.view(-1, bs, K)
sim = (centers - a_emb).square().mean()
sigreg = mean(SIGReg(emb, global_step) for emb in a_emb)
return (1-lambd)*sim + lambd*sigreg4.2 與傳統方法的關系
LeJEPA與現有方法的重要區別:
- 「去除預測器」:不再需要額外的預測網絡
- 「去除師生架構」:簡化訓練流程
- 「去除寄存器令牌」:減少額外參數
- 「單一超參數」:只需平衡λ一個參數

5. 實驗驗證與性能分析
5.1 跨架構穩定性
LeJEPA在50+種架構上表現一致穩定,包括:
- Vision Transformers(ViTs)
- ConvNeXts
- ResNets
- MaxViTs
- Swin Transformers

5.2 訓練損失的信息性
LeJEPA的訓練損失與下游性能呈現「高達99%的Spearman相關性」,為模型選擇提供了可靠信號。

5.3 域內預訓練優勢
在專門領域(如星系分類、食物識別),LeJEPA的域內預訓練顯著優于大規模基礎模型的遷移學習。
5.4 新興語義結構
LeJEPA能夠「無監督地學習豐富的語義表示」,表現出明顯的對象-背景分離和感知分組能力。

6. 技術細節與實現要點
6.1 SIGReg算法實現
def SIGReg(x, global_step, num_slices=256):
# 切片采樣 - 跨設備同步
dev = dict(device=x.device)
g = torch.Generator(**dev)
g.manual_seed(global_step)
proj_shape = (x.size(1), num_slices)
A = torch.randn(proj_shape, generator=g, **dev)
A /= A.norm(p=2, dim=0)
# Epps-Pulley統計量
t = torch.linspace(-5, 5, 17, **dev)
exp_f = torch.exp(-0.5 * t**2)
x_t = x.unsqueeze(2) * t # (N, M, T)
ecf = (1j * x_t).exp().mean(0)
ecf = all_reduce(ecf, op="AVG")
# 加權L2距離
err = (ecf - exp_f).abs().square().mul(exp_f)
N = x.size(0) * world_size
T = torch.trapz(err, t, dim=1) * N
return T6.2 計算效率分析
SIGReg具有「線性時間和內存復雜度」,使其能夠高效擴展到大規模模型。
7. 結論與影響
LeJEPA代表了自監督學習領域的重要進步,其貢獻包括:
- 「理論完備性」:首次證明了各向同性高斯分布的最優性
- 「算法簡潔性」:僅需約50行代碼實現,去除大量啟發式技巧
- 「擴展性強」:線性復雜度,支持大規模分布式訓練
- 「性能優異」:在10+數據集、60+架構上驗證有效性
- 「實用性強」:訓練損失與下游性能高度相關,便于模型選擇
這項研究為自監督學習建立了堅實的理論基礎,使JEPA從啟發式探索轉向目標優化,有望重新確立自監督預訓練作為AI研究核心支柱的e。
本文轉載自??AIGC深一度??,作者:一度

















