谷歌Veo 3論文竟無一作者來自美國!揭秘零樣本「看懂」世界
大模型的「零樣本能力」,使自然語言處理從任務特定模型躍遷到了統一的、通用的基礎模型。
這樣的飛躍源于在規模數據上訓練的大型生成式模型。
視頻模型是否可以實現同樣的飛躍,也向著具有通用視覺理解的方向發展。
在DeepMind近日發布的一篇論文中驗證了這一猜想:
視頻模型是「零樣本學習者與推理者」,這一論點在足夠強大的模型上幾乎都能得到驗證。

項目頁面:https://video-zero-shot.github.io/
論文地址:https://arxiv.org/abs/2509.20328
研究證明,Veo 3可以完成大量它并未專門訓練過的任務,比如:
物體分割、邊緣檢測、圖像編輯、物理屬性理解、物體可操作性識別、工具使用模擬等。

在多項視覺任務中,Veo 3涌現出零樣本學習能力。這足以表明視頻模型正朝著統一的、通用的「視覺基礎模型」的方向發展——正如大語言模型成為語言基礎模型一樣。
谷歌發視覺版GPT-3模型
但無一作者來自美國
風險投資合伙人、谷歌搜索前員工、康奈爾計算機科學畢業生Deedy,對新論文推崇備至:Veo 3就是視覺推理的GPT-3時刻。

意外的是,隨后Deedy發現論文作者中沒有一個來自美國。

這8位研究者中,3位來自加拿大,2位來自德國,來自中國、韓國、印度各一位。
這篇「GPT-3」級別的論文的作者,沒有一個來自美國,而且沒有一個人在美國完成本科教育。哪怕算上博士畢業院校,美國也只有兩所。
這不禁讓網友懷疑:美國科研真不行了嗎?
論文第一作者谷歌DeepMind實習生、在讀博士生Thadd?us Wiedemer澄清道:
新論文只是評估了Veo和Gemini團隊實現和訓練的模型。

也就是說,Veo 3主要是由其他團隊實現和訓練的,新論文≠Veo 3。
這篇論文和OpenAI的GPT-3論文,在標題上具有極大的相似性,但谷歌新論文作者對Veo 3的實際貢獻明顯 < OpenAI論文作者對GPT-3的實際貢獻。
盡管GPT-3論文的核心在于證明了語言模型的少樣本學習能力,但論文作者的確訓練出GPT-3。

論文鏈接:https://arxiv.org/abs/2005.14165
Thadd?us Wiedemer還指出,這項工作是在DeepMind多倫多完成的。

這就解釋了為什么來自加拿大的作者最多——
近水樓臺先得月,多倫多本地的加拿大人參與此項研究的機會更大。
不過,值得一提的是,Thadd?us Wiedemer在清華大學從事過約1年的研究實習。

此外,第二作者Yuxuan (Effie) Li來自國內;作者Shixiang Shane Gu則是華裔加拿大人。

視頻模型是零樣本學習者和推理者
大模型日益展現出「零樣本學習」所衍生出的解決新任務的能力。
所謂零樣本學習,即僅通過提示詞指令即可完成任務,無需微調或添加任務特定模塊。
研究人員通過分析18,384個Veo 3生成的視頻,在62個定性任務和7個定量任務中,發現它可以完成多種未曾訓練或適配的任務:
憑借感知、建模和操控視覺世界的能力,Veo 3展現出「幀鏈式(Chain-of-Frames, CoF)」視覺推理的初步能力。
雖然目前的任務特定模型性能仍優于零樣本視頻模型,但研究人員觀察到Veo 3相比Veo 2在表現上有顯著提升,這表明視頻模型能力正在快速演進。
研究人員采用的方法很簡單:向Veo模型提供提示詞。
為何選擇Veo?
研究人員之所以選擇Veo,是因為它在text2video和image2video排行榜中表現突出。
為展現性能進步的速度,研究人員還將Veo 3與其前代Veo 2進行對比。
研究人員對多個視覺任務進行了廣泛的定性研究,以評估視頻模型是否具備作為視覺基礎模型的潛力,并將發現歸納為四個層級能力體系,每一層都在前一層基礎上演化而來(見圖 1 和圖 2):
- 感知:理解視覺信息的基本能力
- 建模:在感知物體的基礎上對視覺世界進行建模
- 操控:對已建模的視覺世界進行有意義的修改
- 推理:跨時間與空間的視覺推理能力


建模直覺物理與世界模型
視頻模型在感知視覺世界的基礎上,開始嘗試對其進行建模。
對世界及其運行原理(例如物理定律)進行建模,是實現有效預測與行動的關鍵一步。
目前,已有多項研究在深度模型中探索并量化了直覺物理能力,論文中節選了其中部分具有代表性的任務進行分析。
比如,Veo對物理規律的理解,體現在其能夠建模剛體與軟體的動力學以及它們之間的表面交互。
Veo還展現了對多種物理屬性的認知,例如可燃性、空氣阻力對下落物體的影響、浮力、光學現象等。
除了物理屬性,Veo還理解抽象關系,這對于建模現實世界也至關重要。
例如,Veo能夠區分玩具與筆記本電腦等其他物品。
研究人員還展示了Veo在識別模式、生成變體以及將整體結構拆解為部分等方面的能力。
此外,Veo還能在視頻中跨時間與鏡頭變化維持對世界狀態的記憶。
從「思維鏈」到「幀鏈」
Veo能夠感知物體,并建模它們之間以及與環境的關系,因此它也具備對視覺世界進行有意義操控的能力。
感知、建模與操控的能力相互融合,共同構建起視覺推理的基礎。
與語言模型操控文字符號不同,視頻模型可以在真實世界的兩個關鍵維度——時間與空間中進行操作。
這一過程類似于語言模型中的「思維鏈」(Chain-of-Thought,CoT),研究人員稱之為「幀鏈」(Chain-of-Frames,CoF)。
研究人員認為,在語言領域中,思維鏈使模型能夠解決推理類問題;同樣幀鏈(也即視頻生成)或許也能幫助視頻模型解決那些需要跨時間和空間逐步推理的復雜視覺問題。
盡管模型的表現尚不完美,但其在零樣本條件下解決這些問題的能力,展示了未來更強大視頻模型在視覺推理和規劃方面的巨大潛力。
定量評估
在對視頻模型的能力做了定性研究之后,研究人員從七個具體任務出發,對其進行定量評估。
從視覺理解的不同方面來考察模型表現:
感知能力:評估Veo在邊緣檢測、圖像分割和目標提取方面的能力;
操控能力:測試其在圖像編輯方面的表現;
推理能力:通過迷宮求解、視覺對稱性和視覺類比任務來評估。
邊緣檢測

研究發現,即便沒有專門為邊緣檢測任務訓練,Veo 3仍然可以通過提示詞實現邊緣感知。
圖3展示了Veo 2和Veo 3在邊緣檢測任務上的表現。

圖4顯示在LVIS數據集的一個包含50張簡單場景圖像(每張圖像中含有1到3個大型物體)的子集上進行類別無關的實例分割。
圖像分割
與經典的實例分割或可提示分割不同,研究人員提示模型分割場景中的所有物體,而不指定物體類別或位置。
如圖4所示,Veo 3實現了0.74的mIoU(最佳幀 pass@10),與Nano Banana的0.73 相當。
當然,Veo 3的性能落后于像SAMv2這樣的定制模型,但仍然展示了卓越的零樣本分割能力。
物體提取
研究人員要求Veo提取并將所有動物排成一排,彼此之間用白色背景分隔,通過統計最后一幀中連接組件的數量,來判斷提取的動物數量是否正確。

圖5展示了示例和實驗結果。Veo 2的表現接近隨機,而Veo 3的pass@10最高可達92.6%。

圖6展示了一個編輯示例和評估結果,研究人員發現Veo 3尤其擅長在編輯過程中保留細節和紋理。
迷宮求解

在圖7的迷宮求解中,各種迷宮標有起點(紅色)和終點(綠色)位置。
Veo 2即使在求解較小規模的迷宮時也表現不佳,這主要由于生成過程中早期出現了非法移動,Veo 3 表現得更好。
總體來看,視頻模型具備對數字視覺世界進行操作與模擬的能力。
圖像編輯
圖像編輯,是指根據文本指令對圖像進行操作(例如添加、移除物體或更改外觀)。
研究人員在Emu-edit數據集的一個隨機子集(共 30 個樣本)上評估了Veo的圖像編輯能力。

圖案對稱補全任務用于評估模型對空間推理的理解與應用能力。圖8顯示,在這方面Veo 3的表現遠超Veo 2和Nano Banana。
視覺類比任務用于評估模型理解物體變換及其關系的能力,屬于抽象推理的一種形式。

圖9顯示,盡管Veo 2在理解類比任務方面表現不佳,Veo 3能夠正確完成顏色變化和尺寸變化的樣例。
然而,在鏡像和旋轉類比上,兩種模型的表現均低于猜測水平(0.33),表明存在系統性錯誤偏差。
視覺領域的 「GPT-3 時刻」
近年來,自然語言處理(NLP)領域的發展尤為迅猛。
這一趨勢由通用型大模型的崛起所推動,其在零樣本學習場景中解決新任務的能力,已使其取代了NLP中大多數的特定任務模型。
研究人員據此提出一個觀點:機器視覺也正處于類似的范式轉變臨界點,這一變革由大規模視頻模型所展現的涌現能力所驅動。
本論文的核心發現是:
Veo 3能夠以零樣本方式完成各類任務,涵蓋從感知、建模、操控,甚至到早期的視覺推理等整個視覺技術棧。
盡管其性能尚未盡善盡美,但Veo 2到Veo 3所展現出的顯著且持續的性能提升,表明視頻模型很有可能像語言模型之NLP一樣,成為視覺領域的通用型基礎模型。
研究人員認為當前視頻模型正值一個激動人心的時刻:
機器視覺可能正在經歷類似NLP從特定任務模型向通用模型轉型的變革,而Veo 3等視頻模型憑借其完成從感知到視覺推理等多種任務的零樣本能力,或將引領這一轉變,帶來視頻模型的 「GPT-3 時刻」。

































