視頻生成的下一站?港中文&字節開源VAP:用視頻作提示詞,性能新SoTA,比肩天價商用

論文鏈接:https://arxiv.org/pdf/2510.20888
項目鏈接:https://bytedance.github.io/Video-As-Prompt/
亮點直擊
- 提出VAP這一統一語義控制視頻生成范式,將具備目標語義的參考視頻視為可泛化的上下文控制視頻提示。
- 基于混合Transformer架構構建即插即用的上下文視頻生成框架,該框架能有效防止災難性遺忘,支持多樣下游任務,并對未見的語義條件具備強大的零樣本泛化能力。
- 構建并發布當前最大的語義控制視頻生成數據集VAP-Data,涵蓋100種語義條件,包含超過10萬組經專業篩選的配對樣本。

圖 1 Video-As-Prompt(VAP)是一個統一的語義控制視頻生成框架:它將具有所需語義的參考視頻視為視頻提示,并通過即插即用的上下文混合變換專家來控制生成。第 1 - 6 行:用作不同語義控制視頻生成任務(概念、風格、動作、鏡頭)提示的參考視頻。第 7 行:當給定一個未見過的語義時,視頻即提示的零鏡頭泛化結果,顯示出很強的泛化能力。
總結速覽
效果展示


解決的問題
- 統一且可泛化的視頻語義控制是行業難題。
- 現有方法存在缺陷:要么因強加不合適的像素級先驗而產生偽影,要么依賴條件特定的微調或專用架構,導致泛化能力不足。
提出的方案
- 提出名為Video-As-Prompt (VAP)的創新范式,將問題重新定義為上下文生成任務。
- 核心思想是將參考視頻作為直接的語義提示,來引導視頻生成模型。
- 構建并發布了大規模數據集VAP-Data,以支持該方法并推動后續研究。
應用的技術
- 即插即用的混合專家Transformer架構:基于混合Transformer構建框架,防止災難性遺忘。
- 凍結的視頻擴散Transformer:作為基礎生成模型,接受語義提示的引導。
- 時序偏置位置編碼:用于消除虛假映射先驗,確保魯棒的上下文檢索。
達到的效果
- 卓越性能:作為單一統一模型,在開源方法中達到新 state-of-the-art,用戶偏好度達38.7%,可媲美專業商業模型。
- 強大的泛化能力:具備強大的零樣本泛化能力,能適應未見的語義條件。
- 廣泛的適用性:支持多種下游任務,標志著向通用可控視頻生成邁出重要一步。
- 豐富的資源:發布的VAP-Data數據集為領域內最大的專項數據集,含10萬+配對樣本。
方法
VAP支持在各種語義條件(例如概念、風格、運動和攝像機參數)下實現統一的語義控制視頻生成。本文的核心思路是使用具有目標語義的視頻作為統一提示來跨任務指導生成,從而避免針對每個條件進行微調或為每個任務單獨設計。盡管本文僅研究了有限的條件集合,但該方法無需重大結構改動即可擴展到其他條件,并在不同語義條件、多樣下游任務以及VAP-Data中未見的語義(見下圖7)方面展現出良好的泛化能力。

預備知識

將參考視頻作為任務無關提示



? 概念引導生成:共享概念的視頻,例如實體轉換(如人物變為拉杜杜玩偶)或交互(如AI愛人接近目標)。
? 風格引導生成:具有參考風格(如吉卜力、我的世界)的視頻。
? 運動引導生成:遵循參考運動的視頻,包括非人體運動(如物體像氣球般膨脹)和人體運動(如搖擺舞)。
? 攝像機引導生成:遵循參考攝像機運動的視頻,涵蓋從基本平移(上、下、左、右、縮放)到希區柯克式滑動變焦。


即插即用上下文控制



時序偏置旋轉位置編碼

實驗
實現細節

評估指標
本文從三個方面評估5項指標:文本對齊度、視頻質量和語義對齊度。遵循先前工作,本文使用CLIP相似度衡量文本對齊度,并使用運動平滑度、動態程度和美學質量評估視頻質量。本文還引入了語義對齊度得分,用于衡量參考視頻與生成視頻之間的一致性;本文將每個視頻對及詳細評估規則提交給Gemini-2.5-pro進行自動評分。
數據集
語義控制視頻生成需要配對的參考視頻和目標視頻,這些視頻共享相同的非像素對齊語義控制(例如概念、風格、運動、攝像機參數)。與結構控制設置不同,此類視頻對無法通過直接應用視覺感知模型(例如SAM、Depth-Anything)進行標注。先前工作大多依賴為特定語義條件定制的少量手動收集視頻,限制了統一模型的發展。為解決此問題,本文從互聯網收集了2000張高質量參考圖像,涵蓋男性、女性、兒童、動物、物體、風景和多主體案例。隨后,本文使用商業模型(VIDU和Kling)的圖生視頻視覺效果模板和社區LoRA,通過將每張圖像與所有兼容模板(部分模板限制主體類別)匹配來創建配對視頻。總體而言,本文獲得了VAP-Data——一個包含超過10萬個樣本、覆蓋100種語義條件的語義控制配對數據集,也是目前最大的資源(見前文和上圖3)。為進行評估,本文從測試集的4個類別(概念、風格、運動、攝像機)中均勻采樣了24種語義條件,每個條件包含2個樣本。
與先前方法的比較
本文將VAP與以下方法進行比較:(1) 在多結構條件(例如原始參考視頻、深度、光流)下的最先進結構控制視頻生成方法VACE;(2) 條件特定方法:本文為每個語義條件訓練一個LoRA——這是一種常被報道達到或超越任務特定模型性能的常見社區實踐——并報告平均性能;(3) 最先進的閉源商業模型,包括Kling和Vidu。
定量比較
對于最先進的結構控制方法VACE,該模型以視頻和相同大小的掩碼(指示編輯區域(1)與固定區域(0))為條件。遵循VACE的設置,本文使用參考視頻、其深度圖及其光流作為視頻條件,并將掩碼設置為1以使模型遵循而非復制它們。總體而言,VACE表現最差,這與將結構控制方法直接應用于語義控制生成的預期一致。這是因為VACE假設條件與輸出之間存在像素級映射(例如視頻與其深度圖),這在語義控制下會失效,并從參考視頻中復制不需要的外觀或布局。隨著控制條件從原始視頻、深度圖過渡到光流,外觀細節減少,指標有所改善,證實了像素級先驗不適用于語義控制生成。使用攜帶語義線索的標題驅動預訓練DiT(CogVideoX-I2V)可產生不錯的視頻質量,但語義對齊度較弱,因為許多語義難以通過粗略文本表達。常見的LoRA微調通常通過對特定條件過擬合來獲得強語義對齊度:這會損害基礎質量(對比CogVideoX-I2V行),每個條件需要單獨模型,且無法泛化到未見過的參考視頻。相比之下,VAP在大多數指標上優于開源基線,達到與商業模型相當的性能,并首次為語義控制視頻生成提供了統一模型。
用戶研究
本文進行了一項用戶研究,隨機選取20名視頻生成研究人員來評估視頻質量和語義對齊度。在每次測試中,評估者在觀看語義控制參考視頻后,比較不同方法的輸出結果,并為(i)語義對齊度和(ii)整體質量選擇更優的結果。本文在下表1中報告了偏好率——即所有比較中選擇的歸一化份額,總和為100%。VAP與Kling/Vidu(商業、閉源、任務特定)獲得了總體最高的偏好率,而VAP是作為統一模型實現這一效果的。

定性比較
在上圖6中,VAP相較于結構控制基線、DiT主干網絡和條件特定微調,產生了更好的時間一致性、視覺質量和語義一致性,并與條件特定商業模型Kling和Vidu表現相當。VACE的像素映射偏差將語義參考視頻視為像素對齊,導致外觀/布局復制(例如,青蛙像狗一樣站立;自由女神像模仿綿羊);當參考視頻被深度圖取代,繼而再被光流取代時,這種偽影會減弱,因為后者逐步移除了外觀細節。LoRA微調改善了語義對齊度且沒有復制偽影,但每個條件需要單獨模型,并且缺乏零樣本泛化能力。相比之下,VAP使用單一模型,將所有語義條件視為統一的參考視頻提示,從而實現了統一的語義控制生成。
零樣本生成
通過將所有語義條件視為統一的視頻提示,VAP支持多樣的語義控制生成任務;此外,當給定一個不屬于VAP-Data的未見過的語義參考[47]時(見下圖7),從視頻即提示數據中學到的上下文能力使VAP能夠執行由新參考引導的零樣本生成。

消融研究

可擴展性
如可擴展性部分所示,隨著訓練數據的增長,VAP在所有指標上均有提升,顯示出強大的可擴展性。這源于本文的統一設計——將參考視頻視為提示而無需針對任務進行修改,以及MoT框架——在保留主干網絡生成能力的同時實現即插即用的上下文生成。
DiT結構
為了測試可遷移性,本文為Wan2.1-I2V-14B配備了參數量與CogVideoX-I2V-5B版本相當的VAP(均勻插入1/4的層;約50億參數)。受益于Wan2.1更強的基礎模型,該變體改善了動態程度和美學得分,但由于僅有1/4的上下文交互,其參考對齊度略差于CogVideoX上的VAP。 本文還對VAP的上下文專家Transformer層分布和視頻提示表示進行了消融實驗。
結論
Video-As-Prompt (VAP) 是一個統一的、語義控制的視頻生成框架,它將參考視頻視為提示,并通過混合Transformer專家實現即插即用的上下文控制。VAP克服了結構控制方法(例如,不適當的像素級先驗)和任務/條件特定設計(例如,不可泛化的模型)的局限,提供了可擴展的語義控制和零樣本泛化能力。本文構建了最大的語義控制視頻生成數據集VAP-Data,并通過大量實驗表明,VAP在開源模型中達到了最先進的水平,性能可與商業模型相媲美,并具有強大的泛化能力。
局限性與未來工作
盡管性能強大,一些局限性仍需進一步研究:(1) 本文在大規模VAP-Data上進行了實驗,但VAP-Data中的語義條件相對有限、合成且源自其他生成模型,這可能繼承了源模板的特定風格偏差、偽影和概念局限性。本文將構建更大規模、真實的語義控制視頻數據留待未來工作。(2) VAP使用參考視頻、參考標題和目標標題來指導語義控制。為了貼近原始DiT的分布,本文采用標準視頻描述作為標題;然而,不準確的語義描述或較大的主體不匹配會降低生成質量。指令式標題(例如,“請遵循參考視頻中的吉卜力風格”)可能更有效地捕捉預期語義并改善控制。
本文轉自AI生成未來 ,作者:AI生成未來
原文鏈接:??https://mp.weixin.qq.com/s/2rp9XM3uvaJjE-jaPVKOWQ??

















