三位AI殿堂級人物罕見同框:LeCun、李飛飛、謝賽寧團隊用空間超感知讓AI像人一樣理解三維世界
一個由謝賽寧領導,楊立昆(Yann LeCun)、李飛飛參與指導的團隊,發布了一項名為Cambrian-S的研究。

這項研究讓AI學會了驚訝,這或許是人工智能從反應式感知邁向預測性理解的關鍵一步。
這篇論文的核心,不是一個更強的模型,而是一種全新的思考方式。

研究指出,當前頂尖的多模態大語言模型(MLLMs)在理解視頻時,本質上可能更像在閱讀圖文摘要,而非真正理解三維空間。
我們以為AI在看視頻,但它們處理的往往是幾張孤立的、被抽取的幀。
研究團隊提出了一個全新的概念——空間超感知(Spatial Supersensing),旨在推動AI從被動的模式識別,進化到主動地理解和預測我們身處的這個三維世界。
多模態AI正試圖擺脫對海量上下文的暴力記憶,轉而學習人類大腦高效處理信息的根本機制:預測。
AI視覺理解與空間超感知
要理解什么是空間超感知,需要先看清AI視覺能力發展的幾個階段。
最初是純語言理解階段。這個階段的AI是盲人,只能處理文本和符號,沒有任何感知能力。
現在,我們正處于語義感知階段。
得益于強大的視覺編碼器與語言模型的結合,AI能夠解析像素,識別出視頻中的物體、屬性和關系。這賦予了模型強大的看圖說話能力,比如GPT-4o和Gemini,它們能準確描述畫面內容。
但這種能力有其上限。
模型將視頻看作一連串稀疏的圖片,過度依賴從海量數據中學習到的文本知識進行回憶和聯想,卻忽視了視頻作為三維世界在二維平面上連續投影的本質。
它知道這是一把椅子,那是一張桌子,但它真的理解椅子在桌子下面這個空間關系嗎?當鏡頭移動,光影變化,它還能持續追蹤并理解這個空間布局嗎?
答案往往是否定的。
Cambrian-S的研究團隊將空間超感知劃分為一個超越當前能力的、連續的演進階梯。
緊隨語義感知之后的是流事件認知階段。
這個階段要求模型能處理實時、不間斷的視頻流,主動地解釋和響應連續發生的事件。這好比讓AI成為一個能隨時待命的實時助手,它需要擁有對事件的持續記憶和理解力。
再往上,是隱式3D空間認知階段。
模型必須將視頻理解為三維世界的投影。它要知道什么東西存在,在什么位置,物體之間如何關聯,以及這些空間關系如何隨時間演變。這是當前視頻模型普遍存在的短板。
最高階段,是預測性世界建模。
這觸及了智能的核心。人類大腦并非被動接收信息,而是在不斷根據過去的經驗預測接下來會發生什么。當現實違反了預測,我們就會感到驚喜,這種驚喜會引導我們的注意力、記憶和學習。
目前的AI系統,恰恰缺少這種能夠預測未來,并利用驚喜來組織感知、輔助決策的內部世界模型。
這四個階段,清晰地勾勒出一條從基礎感知到高級認知的進化路徑,也暴露了當前技術范式的天花板。
現有AI視頻測試暴露了致命缺陷
為了驗證當前AI視頻理解能力的真實水平,研究團隊設計了一系列直擊要害的診斷測試。他們沒有采用更復雜的視頻模型,而是使用了基于單張圖像訓練的多模態模型Cambrian-1,從而精準地探究各類視頻基準測試到底在考什么。
測試設置了幾種條件:
- 多幀輸入:這是標準方法,讓模型處理從視頻中均勻采樣的32幀圖像。
- 單幀輸入:只給模型看視頻最中間的那一幀,考驗模型對最核心視覺信息的依賴度。
- 幀字幕輸入:不給圖像,只給模型看對應32幀畫面的文字描述。這個條件旨在揭示,在沒有視覺輸入的情況下,任務本身能在多大程度上被語言解決。
同時,他們引入了兩個參照基線:
- 盲測:完全不給任何視覺信息,只讓模型看問題。這衡量的是模型僅憑語言先驗知識和題目中可能存在的偏見能答對多少。
- 機會準確率:也就是瞎猜的正確率。


結果令人深思。
一個沒有經過任何視頻訓練的圖像模型Cambrian-1,在許多視頻基準測試上都能取得遠超瞎猜的成績。這說明,這些測試所考察的很多能力,通過常規的圖文指令微調就能學到,并不一定需要真正的視頻理解。
更關鍵的發現是,當輸入從圖像換成文字字幕后,模型的性能在多個主流基準測試(如EgoSchema、VideoMME、Perception Test等)上依然大幅領先于機會準確率。
當比較多幀輸入和幀字幕輸入的性能差異時,如果前者顯著優于后者,說明測試需要精細的視覺感知。反之,如果兩者差距不大,甚至后者更優,則表明測試更偏向于語言理解。
分析結果將多個知名基準測試歸入了后一類。這意味著,這些測試在很大程度上是在考察AI從文本摘要中推斷信息的能力,而不是真正的視覺空間推理。
這并不是說語言先移不重要,在很多場景下,豐富的世界知識至關重要。
但它揭示了一個事實:我們可能高估了當前AI的視頻理解能力。它們或許只是更擅長根據文字線索做推理題的語言大師,而非真正的空間感知者。
新的挑戰:VSI-SUPER基準測試
為了填補這一空白,研究團隊推出了一個全新的基準測試——VSI-SUPER。它專門為探測長期、持續的空間智能而設計,包含兩個對人類來說非常直觀,但對機器極具挑戰性的任務。
VSI-SUPER Recall(VSR):大海撈針式的空間記憶
這個任務要求模型觀看一段長達數小時的室內環境漫游視頻,然后按順序回憶出視頻中出現過的幾個不尋常物體的位置。
研究人員用圖像編輯技術,在視頻的四個不同位置悄悄植入一些格格不入的東西。然后將這段視頻與其他正常的房間導覽視頻拼接起來,形成一個連續、超長的視覺流。
這就像語言模型領域流行的大海撈針測試,但難度更高。它不僅要求模型在海量信息中找到針,還保留了針的視覺真實性,并要求按順序回憶,這實質上是一個多步推理任務。為了全面評估,該測試提供了10分鐘到240分鐘不等的視頻長度。
VSI-SUPER Count(VSC):跨場景的持續計數
這個任務測試模型在長視頻中持續累積信息的能力。研究人員將多個不同房間的導覽視頻拼接在一起,要求模型數出所有房間里某種目標物體的總數。
這聽起來簡單,但對AI來說極具挑戰。模型必須處理視角的不斷變化、物體的重復出現以及場景的切換,同時維持一個準確的累計計數。
人類一旦理解了計數這個概念,就能將其泛化到任何數量。但后續實驗表明,當前的AI缺乏這種真正的空間認知,過度依賴于從訓練數據中學到的統計規律。
VSI-SUPER這兩個任務的設計,直接挑戰了當前AI范式的兩個基本信念。
它挑戰了只要模型夠大、上下文窗口夠長就能解決一切的信念。
VSI-SUPER的視頻可以任意長,超過任何固定的上下文窗口。這意味著簡單粗暴地將視頻逐幀輸入處理,在計算上是不可行的。人類通過選擇性地關注和記憶來高效處理信息,而AI尚不具備這種能力。
它還要求模型具備泛化到全新時間和空間尺度的能力。就像學會數數的人可以數任何東西一樣,AI也應該學習到計數的過程,而不是記住特定場景下的數量。
這些挑戰共同指向一個結論:未來的AI不應僅僅依賴于堆數據、加參數或擴充上下文長度,而必須學習能夠在無盡的視覺世界中感知和預測的內部世界模型。
Cambrian-S模型的誕生與局限
在認清現有范式的局限后,研究團隊首先探索了在當前框架內能走多遠。他們開發了一系列名為Cambrian-S的空間定位多模態模型。
為此,他們首先構建了一個大規模、高質量、專注于空間理解的指令微調數據集——VSI-590K。

這個數據集融合了多種數據源,包括帶精確3D標注的真實室內視頻、程序化生成的模擬視頻,以及從網絡視頻中通過AI模型提取的偽標注數據。
通過精心設計的問題模板,數據集覆蓋了尺寸、方向、計數、距離和外觀順序等12種空間問題類型,極大地豐富了模型在空間維度上的學習素材。
基于這個數據集,Cambrian-S的訓練流程分為四個階段。

前兩個階段主要構建強大的圖像理解能力。第三階段通過一個包含300萬樣本的通用視頻數據集,將模型的能力擴展到視頻領域,打下堅實的基礎。
在第四階段,模型在一個混合語料庫上進行微調,該語料庫結合了專門的VSI-590K和通用的視頻數據,從而重點培養其空間感知能力。
實驗結果證明了這種方法的有效性。

從0.5B到7B參數規模,Cambrian-S模型在多個視覺空間基準測試上,全面優于現有的開源模型,甚至包括一些專有模型。特別是在為空間理解設計的VSI-Bench上,7B模型取得了67.5%的準確率,比之前的最佳模型高出十幾個百分點。
這證明,通過精心策劃的數據和訓練配方,模型的空間認知能力可以得到顯著提升。
但這并沒有解決根本問題。
盡管Cambrian-S在現有基準上表現優異,但在更具挑戰性的VSI-SUPER測試上,它的性能依然非常有限。這有力地說明,僅僅依靠擴大模型規模和優化訓練數據,這條路已經快走到盡頭了。
真正的智能在于預測,而非看見
當前范式的局限,促使研究團隊探索一條全新的路徑——預測性感知(Predictive Sensing)。
這個想法的內核是,模型不應該只是被動地接收和處理信息,而應該主動地預測接下來會看到什么。當現實與預測產生偏差,即出現驚喜時,模型就利用這個信號來指導自身的注意力、記憶和學習。
研究團隊提出了一個基于自監督學習的、預測下一幀畫面的概念驗證方案。模型利用預測誤差,也就是驚喜,來做兩件關鍵的事:管理記憶,以及分割事件。
在VSI-SUPER Recall(大海撈針)任務中,他們設計了一個驚喜驅動的記憶管理系統。

系統會持續監控模型的預測誤差。當檢測到強烈的驚喜信號時,比如畫面中突然出現了一只本不該在客廳里的泰迪熊,系統就會將這個意外事件及其相關信息存入一個長期記憶庫。
這完美模擬了人類的注意力機制。
我們更容易記住那些出乎意料的事情。通過這種方式,模型能高效利用有限的記憶資源,只存儲那些最關鍵、最反常的信息。

實驗證明,在長達數小時的視頻中,這種方法的性能遠超傳統的長上下文模型,后者的性能會隨著視頻長度的增加而急劇衰減。
在VSI-SUPER Count(跨場景計數)任務中,驚喜信號被用來做持續的視頻分割。

當預測誤差飆升時,比如鏡頭從一個房間切換到另一個房間,或者一個新物體進入視野,系統就認為這是一個自然的事件邊界。
它將漫長的視頻流自動切分成一個個有意義的、更易于管理的事件片段。
模型可以對每個片段進行獨立的計數處理,然后將結果匯總,從而在復雜的長視頻中保持計數的準確性和一致性。

實驗結果同樣顯示,這種方法的表現顯著優于其他基線方法。
將預測性感知與傳統的長視頻處理方法,如擴大上下文窗口、均勻采樣、關鍵幀提取等進行比較,在新提出的VSI-SUPER兩個任務上,預測性感知都取得了壓倒性的優勢。
尤其是在超長視頻上,它的性能保持相對穩定,而其他方法的性能則早已崩潰。
這一系列研究和實驗,從提出空間超感知的理論框架,到揭示現有基準的不足,再到構建新基準和新模型,最終指向了一個激動人心的新范式。
通往真正機器智能的道路,需要的或許不是讓AI看得更多,而是讓它學會像我們一樣,主動地去預測和理解這個世界。































