視頻生成模型中的零樣本學習和推理能力;視頻生成和編輯統一框架;掩碼擴散模型,圖片理解生成一體;物理驅
Video models are zero-shot learners and reasoners
2025-09-24|Google DeepMind|??50
??http://arxiv.org/abs/2509.20328v1???
???https://huggingface.co/papers/2509.20328???
???https://video-zero-shot.github.io/??
研究背景與意義

- 背景與現狀近年來,自然語言處理領域經歷了從任務專用模型向大型語言模型(LLMs)轉變的革命,LLMs通過大規模生成模型和海量網絡數據,實現了統一、通用的語言理解能力。機器視覺領域當前正處于類似的轉型期,雖然存在諸如“Segment Anything”等優秀的任務專用視覺模型,但尚無模型能通過簡單提示實現多任務零樣本學習。
- 挑戰與目標機器視覺面臨的挑戰是如何實現類似LLMs的通用視覺理解能力,尤其是通過視頻生成模型實現跨任務的零樣本學習和推理。本文旨在驗證視頻模型是否具備發展成為通用視覺基礎模型的潛力,重點考察Veo 3模型在多種未顯式訓練任務上的表現。
- 意義證明視頻模型具備廣泛的零樣本學習和視覺推理能力,將推動機器視覺從任務專用模型向統一、通用的視覺基礎模型邁進,帶來視覺理解和生成的范式轉變。
研究方法與創新

- 技術描述研究采用了Google DeepMind開發的Veo系列視頻生成模型,特別是最新的Veo 3。該模型基于大規模生成式訓練,輸入為初始圖像和文本指令,輸出720p分辨率、24幀/秒、8秒長的視頻。通過調用Google Cloud Vertex AI API,模型無需針對特定任務微調,僅通過提示即可生成對應視頻。
- 創新點
- 零樣本多任務能力:Veo 3無需任務專門訓練,即可完成分割、邊緣檢測、物理屬性理解、物體操作、視覺推理等62項任務,涵蓋視覺感知、建模、操控和推理四大層次。
- 鏈式幀推理(Chain-of-Frames, CoF):視頻生成的逐幀處理方式類似于LLMs的鏈式思維,支持跨時空的視覺推理,如迷宮導航和對稱性解決。
- 系統性對比分析:通過與前代Veo 2和其他專用模型(如Nano Banana、Gemini 2.5 Pro)對比,展示了Veo 3在性能和任務廣度上的顯著提升。
- 理論基礎繼承LLMs基于大規模生成模型和無監督預訓練的成功經驗,結合視頻生成的時空連續性特點,提出視頻模型作為視覺基礎模型的可行路徑,強調提示工程在視覺任務中的重要性。
- 優勢解析
1.統一模型架構減少了多模型維護成本。
2.零樣本能力極大提升了模型的泛化性和任務適應性。
3.通過視頻生成實現了對動態視覺信息的自然建模和推理,突破了靜態圖像模型的限制。
實驗設計與結果分析



- 實驗設計選取了18,384個視頻樣本,涵蓋62個定性任務和7個定量任務,涉及視覺感知(邊緣檢測、分割、關鍵點定位)、物理建模(浮力、反射、物體依賴關系)、圖像編輯(背景移除、風格遷移)、視覺推理(迷宮導航、對稱性、視覺類比)等多個層面。通過多次提示生成,統計成功率和性能指標。
- 結果分析
- 感知任務:Veo 3在邊緣檢測(OIS 0.77)、實例分割(mIoU 0.74)等任務中表現優異,零樣本性能接近專用模型。
- 操控任務:在圖像編輯和物體提取任務中,Veo 3展現了細節保留和準確操控能力,且優于Veo 2。
- 推理任務:迷宮解決成功率達78%,顯著優于Veo 2,視覺對稱性和類比任務表現出初步的空間和抽象推理能力。
- 多場景表現:模型在不同提示和視覺輸入下表現穩定,提示設計對性能影響顯著,表明提示工程是提升性能的關鍵。
- 統計顯著性:從Veo 2到Veo 3的性能提升具有統計學意義,顯示視頻模型能力快速演進。
- 對比基準Veo 3在多數任務上達到或超過了Nano Banana等先進圖像編輯模型的表現,且在動態視覺推理任務中表現出獨特優勢。
結論與展望
- 總結貢獻本文首次系統驗證了大型視頻生成模型Veo 3具備廣泛的零樣本視覺任務解決能力,涵蓋感知、建模、操控和推理四個層次,確立了視頻模型作為通用視覺基礎模型的潛力。研究揭示了鏈式幀推理機制,為視覺智能的未來發展提供新范式。
- 局限分析
- 當前視頻生成成本較高,限制了大規模應用。
- 雖然零樣本性能顯著,但在部分復雜任務上仍低于專用模型。
- 模型對提示設計敏感,提示工程尚需深入研究。
- 部分視覺推理任務(如旋轉類比)存在系統性偏差,表明模型尚未完全掌握抽象變換。
- 方法展望未來可通過推理時間擴展、提示優化、后訓練自動驗證等技術提升性能。隨著推理成本下降,視頻模型有望取代傳統視覺模型,成為視覺領域的基礎設施。結合多模態融合和強化學習,視頻模型將實現更復雜的視覺理解與交互能力。
- 前瞻機器視覺正迎來類似自然語言處理的“GPT-3時刻”,視頻模型的零樣本學習和推理能力將引領視覺智能進入統一、通用的新紀元,推動智能系統在感知、理解和行動上的跨越式發展。
EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning
2025-09-24|Adobe Research, CUHK, JHU|??11
??http://arxiv.org/abs/2509.20360v1???
???https://huggingface.co/papers/2509.20360???
???http://editverse.s3-website-us-east-1.amazonaws.com/??
研究背景與意義

- 問題定義與現狀:當前圖像生成與編輯領域已逐步實現統一框架,但視頻生成與編輯仍處于碎片化階段,主要受限于架構設計和視頻編輯數據稀缺兩大瓶頸。
- 挑戰闡述:
- 架構限制:現有視頻生成模型多為任務專用,難以支持多樣化視頻編輯任務,缺乏統一且靈活的輸入輸出處理能力。
- 數據匱乏:高質量、多樣化的視頻編輯訓練數據遠少于圖像領域,制約模型泛化與能力提升。
- 研究目標:提出EditVerse,一個統一的圖像與視頻生成及編輯框架,通過統一的多模態令牌序列表示,利用全自注意力機制實現強大的上下文學習與跨模態知識遷移,克服視頻編輯數據匱乏,支持任意分辨率和時長的輸入輸出,推動視頻編輯向通用化發展。
研究方法與創新


- 技術架構:
采用Transformer架構,所有文本、圖像和視頻輸入統一編碼為交錯的令牌序列,輸入模型進行全自注意力處理,強化上下文理解和多模態融合。
設計四維旋轉位置編碼(包含空間高度、寬度,序列位置和時間維度),精確區分不同模態及其時空位置,支持變長輸入輸出。
訓練目標為預測視覺速度場,指導圖像/視頻的去噪生成,結合Flow Matching擴散模型,實現高質量內容生成。
- 數據創新:
構建規模達23.2萬的視頻編輯樣本數據管線,結合多種任務特定模型(如對象移除、風格遷移、攝像機變換等)自動生成并篩選高質量視頻編輯對。
結合2百萬圖像編輯樣本及多模態大規模生成數據,實現聯合訓練,促進圖像領域知識向視頻領域遷移。
- 優勢對比:
相較于現有基于跨注意力或多分支架構的專用視頻編輯模型,EditVerse統一且靈活,支持多模態、多任務,且無需任務特定輸入配置。
通過交錯序列和四維位置編碼的創新設計,模型能更好地捕獲模態間及時空依賴關系,提升編輯質量和文本對齊度。
實驗設計與結果分析






- 實驗設計:
訓練基于2B參數的Transformer模型,采用AdamW優化,訓練數據涵蓋圖像生成、圖像編輯、視頻生成及視頻編輯多個數據源。
設計EditVerseBench,包含100個視頻及200個多樣編輯指令,覆蓋20類視頻編輯任務,支持橫豎屏多分辨率測試。
評估指標涵蓋視頻質量(幀級Pick Score)、文本對齊度(CLIP、ViCLIP)、時序一致性(DINO)及視覺語言模型(VLM)評估的編輯質量。
- 結果分析:
EditVerse在EditVerseBench上超越所有公開開源方法及部分商業模型,編輯質量和文本對齊度顯著提升,用戶研究亦驗證其優越性。
在TGVE+數據集上,EditVerse同樣取得最佳文本與視頻編輯方向一致性指標,證明其泛化與多任務能力。
消融實驗顯示圖像生成與編輯數據對視頻編輯性能至關重要,缺失任一數據源均導致性能下降,驗證了跨模態知識遷移的有效性。
模型設計消融表明,交錯輸入設計和序列位置編碼對編輯質量和文本對齊有顯著正面影響,體現架構創新的核心價值。
展示了模型在訓練數據未覆蓋任務上的 emergent ability(新興能力),如復雜多任務編輯和超越訓練數據質量的表現,顯示模型具備強大泛化潛力。
結論與展望
- 貢獻總結:
提出EditVerse,首個統一的圖像與視頻編輯生成框架,突破了視頻編輯架構與數據瓶頸,實現靈活多模態輸入輸出及跨模態知識遷移。
構建大規模高質量視頻編輯數據管線與多任務綜合訓練策略,顯著提升視頻編輯效果。
設計EditVerseBench,填補了多任務、多分辨率指令式視頻編輯評測空白,促進領域標準化評估。
通過豐富實驗驗證,展示了模型的先進性能及Emergent Ability,推動多模態基礎模型研究向前邁進。
- 局限與未來方向:
目前模型對極端長視頻和超高分辨率支持仍有限,未來可探索更高效的長序列建模策略。
視頻編輯數據仍相對不足,后續可進一步擴展多樣化任務和真實世界場景數據。
模型推理速度和資源消耗較高,需優化以適應實時或邊緣設備應用。
期待將該統一框架推廣至更多模態(如音頻、3D)及復雜交互場景,實現更廣泛的多模態理解與生成。
Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation
2025-09-23|Adobe, UCLA|??6
??http://arxiv.org/abs/2509.19244v2???
???https://huggingface.co/papers/2509.19244??
研究背景與意義

- 多模態理解與生成的統一需求:圖像理解和生成歷來依賴不同的專門模型,統一多模態模型如GPT-4o提出了用單一模型完成多任務的范式,兼顧理解與生成能力,尤其在圖像編輯等任務中表現出協同優勢。
- Masked Diffusion Models(MDMs)的興起:作為自回歸模型的有力替代,MDMs通過掩碼和解掩碼的擴散過程,在語言和圖像生成中展現出更優的速度-質量權衡和可控性,且支持并行解碼,極大提升效率。
- 現有統一MDMs的局限:如MMaDa和Muddit在任務支持范圍和性能上仍落后于自回歸及連續擴散模型,面臨訓練成本高、開源資源匱乏、缺乏利用理解能力提升生成質量機制等挑戰。
- 研究目標:提出Lavida-O,首個支持高分辨率圖像合成、對象定位、圖像編輯和交錯生成的多模態MDM,通過創新架構和訓練策略解決上述瓶頸,實現統一模型的高效訓練與優異性能。
研究方法與創新



- Elastic Mixture-of-Transformers(Elastic-MoT)架構:區別于傳統均等分支或雙重參數組架構,生成分支設計為較小隱藏層,減少參數量和訓練開銷;僅在前半層允許跨模態聯合注意力,后半層僅模態內自注意力,激活參數靈活,提升訓練與推理效率。
- 模態感知掩碼機制:引入特殊時間戳將全掩碼圖像標記為特定文本token,推理時動態展開為圖像掩碼token,支持交錯生成和復雜編輯任務,解決了MDM并行解碼中模態路由的難題。
- 任務特定設計:
通用文本條件化:將圖像質量、分辨率等微條件以純文本形式附加,利用模型強語言理解能力,簡化條件設計且增強生成控制。
分層隨機采樣:以空間均勻方式逐步解掩碼,避免高置信度token聚集導致的相關性破壞,提升圖像生成質量。
規劃與自反思機制:模型先生成布局或編輯區域規劃,再執行生成,生成后自評估是否符合需求,不滿足則修正,顯著提升生成準確性和編輯效果。
坐標量化定位:將邊界框坐標歸一化并量化為離散token,實現多目標并行解碼,提升定位效率和準確性。
- 訓練策略:分階段訓練,先強化理解分支,再增設生成分支并逐步提升分辨率,最后聯合訓練多任務,結合上述技術實現高效大規模模型訓練。
實驗設計與結果分析




- 廣泛任務覆蓋:涵蓋圖像理解(對象定位、問答等)、文本到圖像生成、高分辨率圖像編輯及交錯生成等多模態任務。
- 性能表現:
圖像理解:在多個公開基準(如RefCOCO、ChartQA等)超越現有統一MDM和自回歸模型,顯著提升理解能力。
文本到圖像生成:在GenEval、DPG等評測中,Lavida-O優于同類MDM及部分連續擴散模型,FID指標顯著降低,規劃和反思機制進一步提升生成質量。
對象定位:超越Qwen2.5-VL、Grounding-DINO等專門模型,精準度顯著提升。
圖像編輯:在Image-Edit基準上,Lavida-O優于包括GPT-4o在內的多款先進模型,尤其在替換和移除物體等需要局部理解的任務表現突出。
- 效率優勢:
推理速度:相比自回歸模型,Lavida-O實現最高6.8倍推理加速。
訓練效率:Elastic-MoT架構較傳統MoT設計提升訓練速度3.17倍,參數量減少且激活靈活,降低計算資源需求。
- 定性示例:多樣化文本生成和復雜編輯示例展示了模型在細節刻畫、語義理解與任務執行上的卓越能力。
結論與展望
- 貢獻總結:Lavida-O開創了多模態MDM在高分辨率生成、精細編輯和精準定位上的新標桿,實現了統一模型在多任務上的頂級性能和高效訓練推理。
- 創新點:Elastic-MoT架構、模態感知掩碼、規劃與反思機制及任務特定設計共同推動了統一多模態系統的發展。
- 未來方向:
探索更深層次的理解與生成協同機制,進一步提升模型的推理和創造力。
優化模型輕量化與實時響應,拓展應用場景。
豐富訓練數據和任務種類,強化模型泛化能力與多模態融合深度。
- 研究意義:為多模態人工智能系統提供了高效且性能卓越的技術路徑,推動統一模型向通用智能邁進。
PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation
2025-09-24|U Penn, MIT, HKUST|NeurIPS 2025|??4
??http://arxiv.org/abs/2509.20358v1???
???https://huggingface.co/papers/2509.20358???
???https://cwchenwang.github.io/physctrl??
研究背景與意義

- 現有問題與挑戰當前視頻生成模型雖然能從文本或圖像生成高質量的視覺內容,但普遍缺乏物理合理性和三維動態控制能力。這導致生成的視頻往往無法準確反映現實世界中的物理行為,限制了其在游戲、動畫、機器人等領域的應用。
- 研究目標本文旨在提出一種新穎的物理驅動圖像到視頻生成框架——PhysCtrl。該框架能夠通過顯式控制物理參數(如楊氏模量、泊松比)和外部力,實現物理合理且可控的三維動態視頻生成,突破傳統模型在物理真實性和控制精度上的瓶頸。
- 意義與創新點
- 引入物理先驗至視頻生成,提升物理合理性。
- 采用三維點軌跡作為物理動態的緊湊且通用表示,支持多種材料類型。
- 利用大規模合成數據和擴散模型,實現高效且泛化能力強的物理動態生成。
研究方法與創新


- 物理動態表示與生成研究采用2048個三維點的點云軌跡來表示物體的物理動態,兼具表達能力和靈活性,適用于彈性體、塑形體、沙粒和剛體等多種材料。通過這種表示,生成的動態既緊湊又適合與視頻生成模型無縫結合。
- 擴散模型與時空注意力機制設計了一種基于擴散模型的生成網絡,結合創新的時空注意力模塊:
- 空間注意力負責捕捉同一時間點內點云粒子間的相互作用,模擬物理粒子交互。
- 時間注意力則聚合同一粒子在不同時間步的動態信息,保證軌跡的時間一致性。該設計有效降低了時空關聯建模的計算復雜度,同時精準反映物理過程。
- 物理約束與損失函數設計引入基于材料點法(MPM)物理方程的約束,通過物理損失函數強制生成軌跡滿足連續性和力學平衡條件,顯著提升生成動態的物理合理性。邊界損失確保物體不穿透地面等環境限制。
- 大規模合成數據集構建構建了涵蓋55萬個動畫樣本的合成數據集,涵蓋四種典型材料,利用物理模擬器生成多樣且復雜的物理動態,為模型提供豐富且高質量的訓練基礎。
- 圖像到視頻的物理控制流程首先通過多視角重建獲得輸入圖像中物體的三維點云,再利用訓練好的擴散模型生成對應的物理動態軌跡,最后將軌跡投影回圖像空間,作為條件信號驅動預訓練的視頻生成模型,實現物理驅動的圖像到視頻轉換。
實驗設計與結果分析




- 對比基準與評估指標與當前最先進的可控視頻生成方法(如Wan2.1、CogVideoX、DragAnything、ObjCtrl-2.5D)進行比較,采用GPT-4自動評分和用戶研究,評估視頻的語義一致性、物理合理性和視覺質量。
- 定量與定性結果
- 本方法在所有評估維度均顯著優于對比方法,特別是在物理合理性和動態一致性上表現突出。
- 生成視頻能夠根據不同物理參數和外力調整物體運動形態,展示了良好的物理控制能力。
- 軌跡生成任務中,采用物理約束的模型在體積交并比、Chamfer距離和相關性指標上均優于無物理約束版本及其他生成動態方法。
- 消融實驗通過移除空間注意力、時間注意力和物理損失分別進行消融,驗證了各模塊對性能的貢獻。結果顯示,物理損失對生成軌跡的準確性和物理合理性提升最為顯著。
- 多場景適用性盡管主要聚焦單物體四種材料,實驗展示了模型對不同物理條件的適應性和泛化能力,支持用戶調節力的方向和大小,實現多樣化動態生成。
結論與展望
- 貢獻總結本文提出了PhysCtrl,一個結合擴散模型和物理約束的物理驅動視頻生成框架,實現了基于三維點軌跡的物理動態建模與控制。該方法有效解決了傳統視頻生成模型物理合理性不足的問題,支持多材料、多物理參數的顯式控制,顯著提升了視頻的物理真實性和視覺質量。
- 局限性分析
- 當前模型主要針對單物體場景,未充分涵蓋復雜多物體交互和邊界條件。
- 材料類型有限,尚未擴展至流體等更復雜物理現象。
- 對計算資源有較高要求,限制了實時應用的可能性。
- 未來工作方向
- 擴展模型以支持多物體及復雜環境下的物理交互。
- 探索更多物理現象和材料類型,提升模型的通用性。
- 優化計算效率,推動物理驅動視頻生成技術的實時應用。
- 結合更多感知信息,實現更精準的物理參數估計與控制。
綜上,PhysCtrl為物理合理且可控的視頻生成開辟了新路徑,具有廣闊的應用前景和研究價值。
本文轉載自??AI研究前瞻??,作者:胡耀淇

















