怒斥Sora之后,LeCun放出「視覺世界模型」論文,揭示AI學習物理世界的關鍵?
Sora 的發布讓整個 AI 領域為之狂歡,但 LeCun 是個例外。
面對 OpenAI 源源不斷放出的 Sora 生成視頻,LeCun 熱衷于尋找其中的失誤:

歸根結底,LeCun 針對的不是 Sora,而是 OpenAI 從 ChatGPT 到 Sora 一致采用的自回歸生成式路線。
LeCun 一直認為, GPT 系列 LLM 模型所依賴的自回歸學習范式對世界的理解非常膚淺,遠遠比不上真正的「世界模型」。
所以,一遇到「Sora 是世界模型」的說法,LeCun 就有些坐不?。骸竷H僅根據 prompt 生成逼真視頻并不能代表一個模型理解了物理世界,生成視頻的過程與基于世界模型的因果預測完全不同。」

那么,面對視覺任務,世界模型如何獲得自回歸模型一般的性能?
最近,Lecun 發布了自己關于「世界模型」的新論文《在視覺表征學習中學習和利用世界模型》,剛好解釋了這個問題。

- 論文標題:Learning and Leveraging World Models in Visual Representation Learning
- 論文鏈接:https://arxiv.org/pdf/2403.00504.pdf
通過以往 LeCun 對世界模型的介紹,我們知道,JEPA(Joint Embedding Predictive Architecture,聯合嵌入預測架構)相比于重建像素的生成式架構(如變分自編碼器)、掩碼自編碼器、去噪自編碼器,更能產生優秀的視覺輸入表達。
2023 年 6 月,Meta 推出了首個基于 LeCun 世界模型概念的 AI 模型,名為圖像聯合嵌入預測架構(I-JEPA),能夠通過創建外部世界的內部模型來學習, 比較圖像的抽象表征(而不是比較像素本身)。今年,在 Sora 發布的第二天,Meta 又推出了 AI 視頻模型 V-JEPA,可根據信號的損壞或轉換版本來預測信號的表征,讓機器通過觀察了解世界的運作方式。
而最新這項研究揭示了利用世界模型進行表征學習的另一個關鍵方面:賦予世界模型的容量直接影響所學表征的抽象程度。
直觀地說,如果預測器是身份,網絡將捕捉到高級語義信息,因為它只會學習編碼輸入 y 及其變換 x 之間的共同點。另一方面,由于預測器的容量更大,可以有效反轉變換的效果,編碼器的輸出可以保留更多關于輸入的信息。
這兩個理念是等變表征學習的核心,能有效應用變換的預測器是等變的,而不能有效應用變換的預測器是不變的。研究者發現,對變換不變的世界模型在線性評估中表現更好,而等變的世界模型與更好的世界模型微調相關。這就在易適應性和原始性能之間做出了權衡。因此,通過學習世界模型來學習表征,能靈活掌握表征的屬性,從而使其成為一個極具吸引力的表征學習框架。
接下來,我們來看一些具體的研究細節。
方法
圖像世界模型(Image World Models,IWM)采用 JEPA 的框架,類似于 I-JEPA。該框架中的預測器是世界模型的實例化。研究者認為,如果一個世界模型能夠在潛在空間中應用變換,從而學習等變表征,那么它就是有能力的。研究者將有能力的世界模型為等變( equivariant ),稱能力較差的世界模型為不變( invariant )。
使用 JEPA 的一個吸引人之處在于,使用對比方法學習等變表征的方法通常需要依賴于不變性損失來提高表征質量,無論是顯式的還是隱式的。而 JEPA 的方法則不存在這一缺點,因為表征的語義方面是通過潛在空間的修補學習的。在潛空間中工作還能讓網絡去除不必要的信息或難以預測的信息。這就使得 JEPA 方案很有吸引力,因為對于重建方法來說,重建的質量不一定與表征質量相關。
要訓練 IWM,第一步是從圖像 I 生成源視圖和目標視圖(圖 2 中分別為 x 和 y)。

研究者將 a_x→y 表示為從 x 到 y 的變換參數,即初始變換過程的逆轉。它包含了 x 與 y 之間顏色抖動差異的信息,以及是否應用了每種破壞性增強的信息。
通過 p_? 進行世界建模。然后分別通過編碼器 f_θ 和它的指數移動平均
得到源和目標。這樣就有了
和
。使用 EMA 網絡對避免解決方案崩潰至關重要。為了給作為世界模型的預測器設置條件,它被輸入了關于目標的幾何信息,以掩碼 token 的形式以及 a_x→y。研究者將這些掩碼 token 稱為 m_a,它們對應于
中的位置。
然后,預測器 p_? 將嵌入的源補丁 x_c、變換參數 a_x→y 和遮罩令牌 m_a 作為輸入。其目標是匹配 p_?(z_x, a_x→y, m_a) =
到 z_y。損失。使用的損失函數是預測
及其目標 z_y 之間的平方 L2 距離:

學習用于表征學習的圖像世界模型
如前所述,學習等差數列表征和學習世界模型是密切相關的問題。因此,可以借用等差數學文獻中的指標來評估訓練好的世界模型的質量。研究者使用的主要指標是平均互斥等級(MRR)。
為了計算它,研究者生成了一組增強目標圖像(實際為 256 幅)。他們通過預測器輸入干凈圖像的表征,目的是預測目標圖像。然后計算預測結果與增強表征庫之間的距離,從中得出目標圖像在該 NN 圖中的等級。通過對多個圖像和變換的倒數等級進行平均,就可以得到 MRR,從而了解世界模型的質量。MRR 接近 1 意味著世界模型能夠應用變換,相反,MRR 接近 0 則意味著世界模型不能應用變換。
為了構建性能良好的 IWM,研究者分離出三個關鍵方面:預測器對變換(或操作)的條件限制、控制變換的復雜性以及控制預測器的容量。如果對其中任何一個環節處理不當,都會導致表征不穩定。
如表 1 所示,不進行調節會導致世界模型無法應用變換,而使用序列軸或特征軸進行調節則會導致良好的世界模型。研究者在實踐中使用了特征調節,因為它能帶來更高的下游性能。

如表 2 所示,增強越強,學習強世界模型就越容易。在更廣泛的增強方案中,這一趨勢仍在繼續。

如果變換很復雜,預測器就需要更大的能力來應用它,意味著能力成為了學習圖像世界模型的關鍵因素。如上表 2 ,深度預測器意味著能在更廣泛的增強上學習到強大的世界模型,這也是 IWM 取得成功的關鍵。因此,預測能力是強大世界模型的關鍵組成部分。
與計算 MRR 的方法相同,我們可以將預測的表征與變換圖像庫進行比較,并查看與預測最近鄰的圖像。如圖 1 所示,IWM 學習到的世界模型能夠正確應用潛空間中的變換。不過,可以看到灰度反轉時存在一些誤差,因為灰度無法正確反轉。
以下可視化效果有助于強化 IWM 能夠為圖像轉換學習強大的世界模型這一事實。

利用世界模型完成下游任務
論文還探討了如何使用世界模型完成下游任務。
在圖像上學習的世界模型的局限性在于,它們所解決的任務與大多數下游任務并不一致。
研究者表示,已經證明 IWM 可以應用色彩抖動或對圖像進行著色,但這些并不是推動計算機視覺應用的任務。這與 LLM 形成了鮮明對比,在 LLM 中,預測下一個 token 是此類模型的主要應用之一。
因此,研究者探索了如何在視覺中利用世界模型來完成應用變換之外的任務,重點是圖像分類和圖像分割等判別任務。
首先,需要對預測器進行微調以解決判別任務。研究者按照 He et al. (2021) 的方法,重點放在與微調協議的比較上。所研究的所有方法都在 ImageNet 上進行了預訓練和評估,并使用 ViT-B/16 作為編碼器。
表 3 展示了定義預測任務的各種方法及其對性能的影響。

表 4 中比較了預測器微調和編碼器微調以及預測器和編碼器的端到端微調,編碼器使用了 ViTB/16。

從表 5 中可以看出,在對所有協議的性能進行匯總時,利用 IWM 可以在凍結編碼器的情況下獲得最佳性能,即允許利用預訓練的每一部分。

表 6 展示了 I-JEPA 和 IWM 在 ADE20k 圖像分割任務中的表現。

在圖 3 中,展示了預測器微調與編碼器微調相比的效率。

表征學習的主要目標之一是獲得可用于各種任務的表征。就像預測器是為解決各種任務(著色、內畫、變色)而訓練的一樣,對于每個任務,都有一個任務 token,以及一個任務特定的頭和 / 或損失函數。然后合并所有任務損失,并更新預測器和特定任務頭。這里研究了一種簡單的情況,即批次在任務之間平均分配,同時注意到其他采樣策略可能會進一步提高性能。

總之,當學習到一個好的世界模型后,通過微調就可以將其重新用于下游任務。這樣就能以極低的成本實現與編碼器微調相媲美的性能。通過進行多任務微調,它還能變得更加高效,更凸顯了這種方法的多功能性。
圖像世界模型使表征更加靈活
為了完成對 IWM 在表征學習中的分析,研究者研究了它在自監督學習中常用的輕量級評估協議上的表現。本文重點關注線性探測和注意力探測。
如表 8 所示,當 IWM 學習一個不變的世界模型時,其表現類似于對比學習方法,如 MoCov3,在線性探測中與 MIM 或其他基于 JEPA 的方法相比有顯著的性能提升。同樣,當 IWM 學習一個等變的世界模型時,其表現類似于 MIM 方法,如 MAE,在線性探測中性能較低,但在注意力探測中表現更具競爭力。

這表明,方法之間的重大區別不一定在于表征的質量,而在于它們的抽象級別,即從中提取信息的難易程度。線性探測是最簡單的評估之一,注意力探測稍微復雜一些,而微調則是更復雜的協議。
圖 4 可以看出,評估協議的適用性與世界模型的等價性之間有著明顯聯系。不變性較高的世界模型在線性探測中表現出色,而等變世界模型在使用更大的評估頭部,如在預測器微調中,有組合更好的表現。研究者們還注意到,由等變世界模型產生的更豐富的表征在跨域 OOD 數據集上具有更好的性能。

圖 5 中按表征的抽象程度將方法分類。對比學習方法占據了高抽象度的一端,只需一個簡單的協議就能輕松提取信息。然而,如表 5 所示,當忽略調整成本時,這些方法的峰值性能較低。與之相反的是掩蔽圖像建模法(MIM),它在微調等復雜評估中性能更強,但在線性探測中由于信息不易獲取而表現不佳。通過改變世界模型的等變性,IWM 能夠在對比學習方法和 MIM 之間有屬于自己的位置,如圖 4 和表 8 所示,
和
是 IWM 光譜的兩個極端。

這個光譜可以用自監督學習(SSL)的理念「學習可預測之物」來概括。通過一個弱世界模型進行學習意味著它無法正確地建模世界,編碼器會移除那些無法預測的信息。反之,如果世界模型非常強大,那么表征就不需要那么抽象或語義化,因為它能夠在任何情況下找到預測表征的方法。這意味著,學習一個世界模型提供了一種可度量的方式來控制表征的抽象級別。
更多技術細節,請參閱原文。





































