告別“無腦”生成!VChain視頻推理鏈:僅靠幾個關鍵幀,自動拍出因果清晰的“電影級”短片

文章鏈接:https://arxiv.org/pdf/2510.05094 ?
項目鏈接:https://eyeline-labs.github.io/VChain
git鏈接:https://github.com/Eyeline-Labs/VChain

亮點直擊
- VChain,一種利用多模態大模型的視覺思維鏈(chain-of-visual-thought)來將高層推理引入視頻生成的新框架。
- 設計了視覺思維推理(Visual Thought Reasoning)流程,這是一個由 GPT 引導的流程,用于合成稀疏且具有因果基礎的關鍵幀,以指導視頻生成。
- 大量實驗表明,在這些關鍵幀上進行稀疏監督可以提高模型生成具有連貫視覺結果和可解釋狀態轉變的視頻的能力。
- 本文方法完全在推理階段運行,不需要外部訓練數據,并且僅增加極少的計算開銷。
總結速覽
解決的問題
當前的視頻生成模型雖然能夠生成平滑且視覺上美觀的片段,但在處理復雜動態與因果鏈一致性方面仍存在顯著不足:
- 難以準確建模視覺狀態隨時間的變化與結果的因果關系。
- 在多步場景中(如“杯子掉落—撞地—液體飛濺”),模型常遺漏關鍵因果步驟,導致生成結果邏輯不連貫、物理不合理。
提出的方案
提出 VChain —— 一種推理時(inference-time)鏈式視覺思維框架(chain-of-visual-thought framework),旨在引入多模態模型的推理能力來指導視頻生成。
核心思想:
- 將視頻的時序演化表示為一系列稀疏的“視覺思維(Visual Thoughts)”—— 即由多模態模型推理得到的關鍵中間狀態關鍵幀。
- 利用這些關鍵幀對預訓練視頻生成模型進行稀疏推理時微調(Sparse Inference-Time Tuning),以在關鍵時刻引導生成過程。
應用的技術
- Visual Thought Reasoning(視覺思維推理)
- 使用大型多模態模型(如 GPT-4o)將文本提示分解為因果上關鍵的中間視覺狀態。
- 這些關鍵幀作為“視覺推理藍圖”,刻畫出事件的邏輯演變路徑。
- Sparse Inference-Time Tuning(稀疏推理時微調)
- 在推理階段僅針對關鍵幀對預訓練視頻生成模型進行快速、輕量的調整。
- 避免密集訓練或視頻級監督,提升推理效率與實用性。
達到的效果
- 自包含性:無需外部標注、數據集或檢索系統,所有監督信號均由多模態模型即時生成。
- 高效性:僅使用少量關鍵幀與有限迭代即可完成調整,計算開銷極低。
- 有效性:在復雜多步視頻生成任務中顯著提升了生成結果的動態真實性、邏輯一致性與因果連貫性。
- 創新意義:提出了將多模態模型視為推理模塊(reasoning module)、在推理階段增強視頻生成邏輯一致性的全新范式。
VChain 框架
VChain 是一個推理時推理框架,旨在增強視頻生成的因果和物理一致性。該框架建立在一個預訓練的視頻生成器之上,目標是提升模型在反映推理、物理、因果關系以及常識理解方面的能力,從而生成更符合物理規律且因果一致的視頻。

VChain概述。一個用于視頻生成推理的推理時間調整框架。給定用戶提供的提示(例如,“一塊巖石和一根羽毛正在從天而降到地面上”),VChain 利用大型多模態模型生成視覺思維鏈,這是一組稀疏的因果重要關鍵幀,通過稀疏推理時間調整來指導視頻生成器。VChain 有效改進視頻生成中的推理,無需進行大量再訓練
如下圖 2 所示,VChain 框架包含三個關鍵階段: (1) 視覺思維推理(Visual Thought Reasoning):使用大型多模態模型推理關鍵事件及其結果,形成一系列稀疏的視覺快照; (2) 稀疏推理時微調(Sparse Inference-Time Tuning):通過輕量化的 LoRA 自適應,將第一階段的視覺思維注入預訓練視頻生成器中; (3) 視頻采樣(Video Sampling):利用第一階段的思維與第二階段微調后的視頻生成器共同生成最終視頻。

視覺思維推理(Visual Thought Reasoning)
給定用戶提供的視頻生成文本提示p ,利用 GPT-4o 的強大多模態推理能力生成一系列圖像,稱為視覺思維鏈(Chain of Visual Thoughts),用于捕捉目標視頻的關鍵時刻。視覺思維推理的步驟與定義在下算法 1 中列出。


這種稀疏微調方案提供了兩個關鍵優勢:
1)聚焦監督:通過僅關注編碼關鍵時刻(例如物體破裂、融化或出現)的關鍵幀,我們引導模型專注于推理因果結果和關鍵視覺狀態變化;2)高效性:由于微調僅基于圖像,調優速度快且內存高效。這使得本文的方法在推理時適配中非常實用。
微調不需要額外的數據庫或標簽。整個監督信號完全由視覺和文本思維內部生成,使得 VChain 能夠輕松插入通用的預訓練視頻生成器中。
視頻采樣

實驗
實驗設置
對于視覺思維推理,使用 GPT 系列模型作為大型多模態模型。使用 gpt-4o 進行聊天和感知,使用 gpt-image-1 處理涉及圖像生成和編輯的步驟。主要實驗使用最先進的預訓練視頻生成器 Wan2.1-T2V-1.3B進行。本文設計了 20 個多樣化的測試場景,用于人工評估和定量比較。實現細節、測試用例和時間成本分解列于附錄中。
比較方法
本文將所提出的方法 VChain 與若干基線和消融變體進行比較。
基線比較包括以下基線方法:
- T2V:未經任何修改的原始預訓練文本到視頻生成模型。
- T2V + Prompt Aug:輸入文本提示通過基于 GPT 的提示增強進行擴展。
消融研究為了進一步理解 VChain 各組件的影響,設計了以下消融設置:

定量比較
下面介紹用于實驗比較的各個方面。
VBench 質量得分。 為了在不考慮推理或因果能力的情況下評估 VChain 對視頻基礎質量的影響,我們使用 VBench進行定量評估。該評估框架旨在評估視頻生成的關鍵技術維度,如幀級保真度、時間一致性和運動動態等。如表 1 所示,VChain 相比原始預訓練生成器和其他基線方法,獲得了相當或略優的得分。
還進行了以視頻質量三大核心方面為重點的補充人工評估:
- 幀質量(Frame Quality):評估單幀的視覺質量,包括美學、成像清晰度和真實感。
- 時間質量(Temporal Quality):評估運動平滑度、時間一致性以及跨幀整體動態真實感。
- 視頻-文本對齊(Video-Text Alignment):評估生成視頻與用戶提供的文本提示的匹配程度。
雖然 VChain 主要旨在增強視頻生成中的高層推理能力(例如常識、因果關系和物理規律),但表 1 中的結果表明,它并不會削弱基本的視覺質量。事實上,它常常帶來一定的改進。
為了直接評估 VChain 的推理能力,我們沿以下維度進行了針對性的人類研究:
- 物理性(Physics):評估視頻是否遵循物理規律,如重力和空氣摩擦(例如,石頭在空氣中比羽毛下落得更快)。參與者對視頻遵守物理規律的程度進行評分。
- 常識推理(Commonsense Reasoning):評估視頻中的事件是否反映日常現實世界的知識。例如,藍色顏料與黃色混合后變成綠色,或油漂浮在水面上。用戶對視頻反映常識的程度進行評分。
- 因果推理(Causal Reasoning):評估視頻是否捕捉到適當的因果關系。例如,石頭落入水中引起水花,球在枕頭上無法彈起,或開關打開燈光。參與者被問到:“該視頻在多大程度上反映了初始設置的因果結果?”
人類評估者被展示生成的視頻及其對應的輸入提示。本文的方法與基線方法的輸出以隨機順序展示,以避免偏差。共有 32 名評估者對每個視頻在每個評估維度上按 1 到 5 的尺度進行評分。然后將得分取平均并標準化為百分比尺度,如表 1 所示。
VChain 在推理相關維度(如物理性、常識性和因果性)上始終優于基線方法。這些改進展示了我們框架在視頻生成推理時集成的有效性。
定性比較
大量的定性結果和比較也在附錄中提供。
基線比較。 在下圖 3 中展示了與基線方法的定性比較。在 T2V 基線中,模型未能產生任何有意義的物理交互:球瓶大多保持靜止或僅表現出輕微抖動,沒有可見的撞擊或倒下。盡管在時間上穩定,但輸出與輸入提示在語義上不一致,缺乏保齡球擊倒球瓶這一關鍵因果事件。T2V + Prompt Aug 變體引入了球和球瓶,表現出一定程度的碰撞與運動。然而,其動態表現混亂且不符合物理規律。球瓶出現不合理的變形或散落,場景還存在視覺偽影和時間不穩定性,尤其是在后期幀中。相比之下,VChain(我們的)生成了連貫且具有物理基礎的序列。保齡球以逼真的沖擊擊中球瓶,球瓶倒下的方向與預期物理行為一致。這一結果得益于視覺思維鏈推理(chain-of-visual-thought reasoning),它為模型提供了結構化且具有因果進展的事件序列。此外,物體的幾何形狀和材質特征得到了良好保留。球瓶與保齡球在視覺上區分明確且渲染準確。

消融研究。 下圖4展示VChain 與兩個消融變體進行比較: 1)無視覺思維(Without Visual Thought):雖然該變體能夠根據文本思維生成第一人稱視角,但未能構想出正確的“接球”視覺模式。相比之下,本文的方法得益于直接“看到”視覺思維,從而實現對空間的準確理解與交互渲染。 2)無稀疏微調(Without Sparse Tuning):該變體直接利用視覺思維進行幀插值,但在嘗試連接視覺思維關鍵幀的空間不對齊時,會出現變形偽影。VChain(我們的)生成了最連貫且符合物理規律的交互,準確描繪了投擲和接球的動作。移除任一組件都會導致視頻合成質量下降。

圖 11(b) 展示了另一個示例:橡皮鴨與石頭掉入水中的情景。在沒有視覺思維的情況下,橡皮鴨出現在水下,違背了“橡皮鴨應漂浮于水面”的基本物理直覺。相反,本文的方法正確地描繪了橡皮鴨漂浮在水面上的情景。這強調了在推理階段引入視覺思維(而不僅僅是文本思維)的重要性:在推理過程中“看到”視覺思維至關重要——需要真正“看到”橡皮鴨如何漂浮在水面上,而不是下沉。我們提供的演示視頻展示了更直觀的比較。

限制
視覺思維生成的限制
本文的框架繼承了當前 GPT-4o 圖像生成模型的一些限制。
首先,gpt-image-1 傾向于對編輯后的圖像產生輕微的過飽和和過度平滑。由于每個生成的圖像都會作為輸入傳回模型以生成圖像序列中的下一幀,這種效果會迭代累積,導致圖像序列中出現輕微的黃色偏色和整體過度平滑的現象。該偽影在一定程度上削弱了后續幀的真實感,并在序列中引入輕微的顏色不一致。定性示例在附錄中提供。
另一個限制是 API 成本。每個生成的關鍵幀都需要兩次調用 GPT-4o。因此,API 調用總數會隨著圖像序列長度線性增長,而令牌消耗則呈二次增長。因此,對專有模型的依賴可能會限制沒有足夠計算預算或 API 配額的用戶在可訪問性和可復現性方面的能力。盡管如此,實際開銷仍較為有限:一次視頻的推理階段推理通常僅需要 3–6 張圖像,使得成本保持相對較低。
稀疏推理時微調的限制
本文的方法使用少量關鍵幀(即視覺思維)作為監督,對預訓練的視頻生成器進行微調。這種稀疏微調引入了固有的權衡:如果在靜態關鍵幀上優化過強,可能會削弱運動動態性,因為模型主要適應靜態圖像;而如果優化不足,則可能削弱注入到生成器中的推理信號,使結果更接近未經微調的基線。
盡管存在潛在的權衡,這種稀疏微調策略具有兩個主要優點:(1) 聚焦的適應性:模型將容量集中于語義關鍵的過渡(例如融化、破碎或物體交互),而非重建整個視頻序列;(2) 高效性:它消除了對密集視頻的需求,顯著減少了數據準備與計算開銷。這使得本文的方法非常適合在推理階段集成到現有管線上。
雖然稀疏監督無法完全捕捉視頻樣本中的動態性,但在語義對齊與因果一致性方面的改進通常超過了動態性的損失。這一范式也挑戰了傳統假設——即微調需要完整視頻序列——表明精心選擇的一組關鍵幀已經能夠為視頻生成器在適應新提示或場景時提供足夠的指導。
結論
VChain,一種在推理階段將多模態推理融入視頻生成的通用框架。通過將場景表示為稀疏的視覺思維序列——由多模態大模型推斷出的關鍵中間狀態關鍵幀——VChain 在推理階段直接注入因果與常識推理信號。這一范式使視頻生成器能夠在無需密集標注或昂貴再訓練的情況下建模有意義的狀態轉變。
在復雜的多步驟場景實驗中,VChain 顯著提升了生成視頻的連貫性、因果一致性和合理性,同時保持了高效性與視覺質量。從更廣的角度看,VChain 展示了大型多模態模型的推理能力如何與視頻生成器的渲染與運動先驗有效結合。我們將此框架視為連接“推理”與“生成”的一步,并希望能啟發未來關于視頻生成推理的進一步研究。
本文轉自AI生成未來 ,作者:AI生成未來

















