DeepMind率先提出CoF:視頻模型有自己的思維鏈
CoT思維鏈的下一步是什么?
DeepMind提出幀鏈CoF(chain-of-frames)。
逐幀視頻生成類似于語言模型中的鏈式思維。就像鏈式思維(CoT)使語言模型能夠用符號進行推理一樣,“幀鏈”(CoF)使視頻模型能夠在時間和空間上進行推理。
以上觀點來自DeepMind最新公開的Veo 3論文,類比語言模型中的CoT,他們首次提出了CoF這一概念。
圖片
并且,團隊通過大量測試發現——
以Veo 3為代表的視頻模型正在發展通用視覺理解能力,可以零樣本解決從“看”到“想”的全鏈條視覺任務,而且進步飛快,未來有望成為機器視覺的“通用基礎模型”。
更簡單粗暴的總結就是,“Veo 3是視覺推理領域的GPT-3時刻”。
圖片
Anyway,要想深入理解這一新概念以及其價值意義,還是先來看看論文原文吧——
DeepMind首次提出CoF概念
據論文介紹,CoF的提出源于DeepMind團隊的一個好奇:
視頻生成模型能不能像ChatGPT這類大語言模型(LLM)一樣,不用專門練某個任務,就能搞定各種視覺工作,最終變成“通用視覺基礎模型”?
為什么追求通用?主要是現在的機器視覺領域還停留在“NLP的老階段”——
要分割物體就得用“Segment Anything”、要檢測物體就得用YOLO、換個任務就得重新調模型、甚至重訓……
既然現在的視頻生成模型和LLM用的是同一套底層邏輯——用海量數據“大力出奇跡”,那說明通用視覺并非無稽之談。
為了驗證這一猜想,團隊用了一個非常簡單粗暴的方法:只給提示,不搞特殊訓練。通過Google的API,給模型“一張初始圖(當第一幀)+ 一段文字指令”,讓模型生成8秒、720p的視頻。
這和LLM“用提示替代專屬訓練”的邏輯完全一致,目的就是為了驗證模型的原生通用能力,純靠模型自己去完成任務。
而通過一系列測試,團隊發現視頻模型真的具備通用潛力。
具體而言,他們以Veo 3為實驗對象,發現其具備四大能力(層層遞進):
第一,不用專門訓練,Veo 3就能搞定很多經典視覺任務,具備感知能力。
無論是基礎任務(如把模糊圖變清晰),還是復雜任務(如在一堆東西里找“藍色的球”),它都能輕松應對。
圖片
圖片
第二,光看明白還不夠,Veo 3還能“建立視覺世界的規則”,具備建模能力。
這體現在它既懂物理(如知道石頭會沉),又懂抽象關系(如把能裝進背包的東西放進去)上。
圖片
圖片
第三,基于“看明白”和“懂規律”,Veo 3還能主動改變視覺世界,具備操控能力。
比如改改圖(給小鳥加上圍巾、置身雪景),或者搞3D和模擬(讓騎士從朝前變成單膝跪地)。
圖片
圖片
第四,整合前面的能力,Veo 3可以實現跨時空視覺推理,也就是所謂的CoF幀鏈。
給它一道解迷宮的難題:讓紅點從起點沿白色路徑走到綠點。
圖片
Veo 3能生成紅點一步步規劃路徑的視頻,不碰黑墻。5×5迷宮玩了10次,Veo 3成功率78%,Veo 2才14%。
更多推理測試也表明,雖然推理能力還不完美(復雜的旋轉類比會出錯),但已經能看到“視覺智能的雛形”了。
整體而言,團隊通過測試得出了以下三個核心結論:
1、經過對62項定性任務和7項定量任務中生成的18384個視頻的分析,團隊發現Veo 3能夠解決許多它未曾接受過訓練或調整的任務。
2、Veo 3利用其感知、建模和操作視覺世界的能力,展現出了類似“幀鏈(CoF)”的視覺推理的早期形態。
3、盡管針對特定任務定制的模型在零樣本視頻模型中表現更優,但團隊觀察到從Veo 2到Veo 3的性能有了顯著且一致的提升,這表明視頻模型的能力正在迅速發展。
“通才會取代專才”
此外,基于Veo 3當前的表現以及成本可能持續下降的預測,DeepMind也大膽開麥:
在視頻模型領域,未來“通才”會取代“專才”。
具體而言,Veo 3作為通用視頻模型,在特定任務上確實仍落后于專用SOTA模型,如邊緣檢測精度不及專門優化的算法。
但從發展趨勢看,這種差距正隨模型能力快速提升而縮小,類似早期大語言模型(如GPT-3)雖整體不如任務微調模型,但通過架構、數據與訓練方法的演進,最終成長為強大的通用基礎模型。
比如相比前一代Veo 2,Veo 3在短期內全面升級。這證明模型的通用視覺與生成能力正處于快速上升期,類比2020年前后LLM的突飛猛進階段。
其次,通過多嘗試(pass@10) 策略,即同一任務多次生成并擇優,Veo 3性能顯著高于單次生成,且隨著嘗試次數增加仍有提升空間,無明顯上限。而且結合推理時縮放、RLHF指令微調等技術,Veo 3性能仍有望進一步提升。
此外,盡管目前視頻生成的成本高于專用任務模型,但根據Epoch AI的數據——LLM推理成本每年下降9~900倍,且NLP早期通用模型(如GPT-3)也曾因成本被質疑,但最終因“通用價值+成本下降”替代了專屬模型。
因此,大概率機器視覺會走上同樣路徑,未來視頻模型的成本問題將逐步得到解決。
總而言之,DeepMind對通用視頻模型可謂信心滿滿。
而此次提出的新概念CoF,也正如網友所言,有望和當初的CoT一樣,為視頻模型開辟出新的道路。
圖片
論文:
https://papers-pdfs.assets.alphaxiv.org/2509.20328v1.pdf
參考鏈接:
[1]https://x.com/AndrewCurran_/status/1971997723261075905
[2]https://simonwillison.net/2025/Sep/27/video-models-are-zero-shot-learners-and-reasoners/

























