Wan2.1背后的技術：阿里發布全能框架VACE，一統視頻生成與編輯，效果驚艷！

angel

發布于 2025-3-14 13:37

瀏覽

0收藏

Wan2.1背后的技術：阿里發布全能框架VACE，一統視頻生成與編輯，效果驚艷！-AI.x社區

文章鏈接：https://arxiv.org/pdf/2503.07598
項目鏈接：https://ali-vilab.github.io/VACE-Page/

亮點直擊

統一框架：VACE是首個基于視頻DiT架構的全能模型，支持廣泛的視頻生成與編輯任務。
概念解耦與上下文適配器：通過概念解耦策略和上下文適配器結構，實現了對編輯和參考任務的自適應處理。
多功能與高效性：VACE框架不僅減少了服務部署和用戶交互的成本，還通過任務組合擴展，提供了多功能和高效的視頻合成解決方案。
創新性與競爭力：在缺乏多任務基準的情況下，VACE通過構建包含12種不同任務的數據集，展示了其在視頻合成領域的創新性和競爭力。

效果展示

Wan2.1背后的技術：阿里發布全能框架VACE，一統視頻生成與編輯，效果驚艷！-AI.x社區

總結速覽

解決的問題

視頻生成與編輯的統一性挑戰：由于視頻在時間和空間維度上的內在一致性需求，實現視頻生成與編輯的統一方法仍然具有挑戰性。
多任務模型的靈活性：現有的視頻生成模型在處理長視頻、多條件和參考生成以及連續視頻編輯等方面存在困難，缺乏一個統一的框架來整合這些任務。

提出的方案

VACE框架：提出了一個全能的視頻生成與編輯框架VACE，支持參考視頻生成、視頻到視頻編輯、mask視頻到視頻編輯等任務，并通過統一的視頻條件單元（VCU）整合多種輸入模態。
概念解耦策略：通過概念解耦策略，使模型能夠理解需要保留和修改的部分，從而更好地處理編輯和參考任務。
上下文適配器結構：采用可插拔的上下文適配器結構，通過時空協同表示將不同任務的概念注入模型，使其具備自適應處理統一任務的能力。

應用的技術

擴散 Transformers（DiTs）：利用當前主流的擴散transformers結構作為基礎視頻框架，并結合預訓練的文本到視頻生成模型，提供更好的基礎能力和擴展性。
視頻條件單元（VCU）：設計了一個統一的接口VCU，整合了編輯、參考和mask等多種模態的輸入。
上下文適配器：通過上下文適配器結構，將不同任務的概念注入模型，實現自適應處理。

達到的效果

性能競爭力：在定量和定性分析中，VACE框架表現出足夠的競爭力，與現有的專用模型相比，性能相當。
任務組合的多樣性：通過基礎任務的組合擴展，構建了如長視頻重新渲染等場景，提供了多功能和高效的視頻合成解決方案。
用戶創造力的提升：通過整合不同任務的能力，解決了現有視頻生成模型的挑戰，賦予用戶更大的創造力。

方法

VACE 被設計為一個多模態到視頻生成的模型，其中文本、圖像、視頻和mask被整合到一個統一的條件輸入中。為了覆蓋盡可能多的視頻生成和編輯任務，我們對現有任務進行了深入研究，然后根據它們對多模態輸入的不同需求將其分為 4 類。在不失一般性的情況下，我們在視頻條件單元（VCU）范式下為每個類別專門設計了一種新穎的多模態輸入格式。最后，為 VCU 輸入重構了 DiT 模型，使其成為一個適用于廣泛視頻任務的多功能模型。

多模態輸入與視頻任務

盡管現有的視頻任務在復雜的用戶輸入和雄心勃勃的創意目標上各不相同，但我們發現它們的大多數輸入可以完全用 4 種模態表示：文本、圖像、視頻和mask。總體而言，如下圖 2 所示，根據這四種多模態輸入的需求將這些視頻任務分為 5 類。

Wan2.1背后的技術：阿里發布全能框架VACE，一統視頻生成與編輯，效果驚艷！-AI.x社區

文本到視頻生成（T2V）是一個基本的視頻創建任務，文本是唯一的輸入。
參考到視頻生成（R2V）需要額外的圖像作為參考輸入，確保指定的內容（如人臉、動物和其他物體的主體，或視頻幀）出現在生成的視頻中。
視頻到視頻編輯（V2V）對提供的視頻進行整體更改，例如著色、風格化、可控生成等。我們使用視頻控制類型，其控制信號可以表示為 RGB 視頻，包括深度、灰度、姿態、涂鴉、光流和布局；然而，該方法本身并不限于這些。
mask視頻到視頻編輯（MV2V）僅在提供的 3D 感興趣區域（3D ROI）內對輸入視頻進行更改，與其他未更改區域無縫融合，例如修復、外繪、視頻擴展等。我們使用額外的時空mask來表示 3D ROI。
任務組合包括上述 4 種視頻任務的所有組合可能性。

視頻條件單元

本文提出了一種輸入范式，即視頻條件單元（VCU），將多樣化的輸入條件統一為文本輸入、幀序列和mask序列。一個 VCU 可以表示為：

Wan2.1背后的技術：阿里發布全能框架VACE，一統視頻生成與編輯，效果驚艷！-AI.x社區

架構

本文為 VACE 重構了 DiT 模型，如下圖 3 所示，旨在支持多模態 VCU 輸入。由于已有文本標記化的流程，我們僅考慮上下文幀和mask的標記化。標記化后，上下文tokens與噪聲視頻tokens結合，并對 DiT 模型進行微調。與此不同，我們還提出了一種上下文適配器調優策略，允許上下文tokens通過上下文塊并添加回原始的 DiT 塊。

Wan2.1背后的技術：阿里發布全能框架VACE，一統視頻生成與編輯，效果驚艷！-AI.x社區

上下文標記化

Wan2.1背后的技術：阿里發布全能框架VACE，一統視頻生成與編輯，效果驚艷！-AI.x社區

完全微調與上下文適配器調優

為了實現以 VCU 為輸入的訓練，一種簡單的方法是完全微調整個 DiT 模型，如前面圖 3a 所示。上下文tokens X與噪聲tokens 一起添加，DiT 和新引入的上下文嵌入器中的所有參數將在訓練期間更新。為了避免完全微調并實現更快的收斂，同時建立與基礎模型的可插拔特性，我們還提出了另一種方法，以 Res-Tuning的方式處理上下文tokens，如上圖 3b 所示。特別是，我們從原始 DiT 中選擇并復制了幾個 Transformer 塊，形成分布式和級聯型的上下文塊。原始 DiT 處理視頻tokens和文本tokens，而新添加的 Transformer 塊處理上下文tokens和文本tokens。每個上下文塊的輸出作為附加信號插入回 DiT 塊中，以協助主分支執行生成和編輯任務。在這種方式下，DiT 的參數被凍結，只有上下文嵌入器和上下文塊是可訓練的。

數據集

數據構建

為了獲得一個全能模型，所需數據構建的多樣性和復雜性也隨之增加。現有的常見文本到視頻和圖像到視頻任務僅需要構建文本和視頻對。然而，對于 VACE 中的任務，模態需要進一步擴展，包括目標視頻、源視頻、局部mask、參考等。為了高效快速地獲取各種任務的數據，必須在保持視頻質量的同時，對視頻數據進行實例級分析和理解。

為此，我們首先通過鏡頭切片對視頻數據本身進行分析，并根據分辨率、美學評分和運動幅度初步過濾數據。接下來，使用 RAM 對視頻的第一幀進行標注，并結合 Grounding DINO 進行檢測，利用定位結果對目標區域過小或過大的視頻進行二次過濾。此外，采用 SAM2 的傳播操作進行視頻分割，以獲取視頻中的實例級信息。利用視頻分割的結果，我們通過基于mask區域閾值的有效幀比例計算，在時間維度上過濾實例。

在實際訓練過程中，不同任務的數據構建還需要根據每個任務的特點進行調整：

對于一些可控視頻生成任務，我們從過濾后的視頻中預提取深度、涂鴉、姿態和光流。對于灰度和布局任務，我們動態創建數據。
對于修復任務，可以從視頻中隨機mask實例以進行修復，而mask的反轉則支持外繪數據的構建。mask的增強允許無條件修復。
對于擴展任務，我們提取關鍵幀，如第一幀、最后一幀、兩端幀、隨機幀和兩端片段，以支持更多類型的擴展。
對于參考任務，可以從視頻中提取幾個人臉或物體實例，并應用離線或在線增強操作來創建配對數據。值得注意的是，我們隨機組合所有上述任務進行訓練，以適應更廣泛的模型應用場景。此外，對于所有涉及mask的操作，我們執行任意增強以滿足各種粒度的局部生成需求。

VACE 基準

視頻生成領域已取得顯著進展。然而，對這些模型性能的科學和全面評估仍然是一個亟待解決的問題。VBench和 VBench++通過廣泛的評估套件和維度設計，為文本到視頻和圖像到視頻任務建立了精確的評估框架。然而，隨著視頻生成生態系統的不斷發展，更多衍生任務開始出現，例如視頻參考生成和視頻編輯，這些任務仍缺乏全面的基準。為了解決這一問題，我們提出了 VACE-Benchmark，以系統的方式評估與視頻相關的各種下游任務。

從數據源開始，真實視頻和生成視頻在評估過程中可能表現出不同的性能特征。因此，本文收集了總共 240 個高質量視頻，按來源分類，涵蓋各種數據類型，包括文本到視頻、修復、外繪、擴展、灰度、深度、涂鴉、姿態、光流、布局、參考人臉和參考物體任務，每個任務平均有 20 個樣本。輸入模態包括輸入視頻、mask和參考，還提供了原始視頻，以便開發者根據每個任務的具體特點進行進一步處理。關于數據提示，提供了視頻的原始描述用于定量評估，以及針對特定任務重寫的提示，以評估模型的創造力。

實驗

實驗設置

實現細節：VACE 基于不同規模的文本到視頻生成的擴散transformers（Diffusion Transformers）進行訓練。它利用 LTX-Video-2B實現更快的生成，而 Wan-T2V-14B則用于更高質量的輸出，支持高達 720p 的分辨率。訓練采用分階段的方法。首先，我們專注于修復和擴展等基礎任務，這些任務被認為是預訓練文本到視頻模型的模態補充，包括mask的整合以及時空維度上下文生成的學習。接下來，從任務擴展的角度，我們逐步從單輸入參考幀過渡到多輸入參考幀，從單一任務過渡到復合任務。最后，我們使用更高質量的數據和更長的序列對模型質量進行微調。模型訓練的輸入支持任意分辨率、動態時長和可變幀率，以滿足用戶的多樣化輸入需求。

基線模型：目標是實現視頻創建和編輯任務的統一，目前尚無類似的全能視頻生成模型可供比較，因此我們將評估重點放在將我們的通用模型與專有的任務特定模型進行比較。此外，由于涉及的任務眾多且許多任務缺乏開源方法，我們對比了離線或在線可用的模型。具體任務對比如下：

對于 I2V 任務，比較了 I2VGenXL、CogVideoX-I2V 和 LTX-Video-I2V；
在修復任務中，比較了 ProPainter用于去除修復，而 Follow-Your-Canvas和 M3DDM用于外繪；
對于可控任務，在深度條件下使用 Control-A-Video、VideoComposer 和 ControlVideo，在姿態條件下比較 Text2Video-Zero、ControlVideo 和 Follow-Your-Pose，在光流條件下比較 FLATTEN；
在參考生成任務中，由于缺乏開源模型，比較了商業產品 Keling1.6、Pika2.2和 Vidu2.0。

評估方法：為了全面評估各種任務的性能，使用 VACE-Benchmark 進行評估。具體來說，將評估分為自動評分和用戶研究的手動評估。對于自動評分，利用 VBench 中的部分指標來評估視頻質量和視頻一致性，包括八個指標：美學質量、背景一致性、動態程度、成像質量、運動平滑度、整體一致性、主體一致性和時間閃爍。對于手動評估，我們使用平均意見分數（MOS）作為評估指標，重點關注三個方面：提示跟隨、時間一致性和視頻質量。在實際操作中，對生成的數據進行匿名處理，并隨機分發給不同參與者進行 1 到 5 分的評分。

主要結果

定量評估：在 VACE-Benchmark 上基于 LTX-Video 的 VACE 綜合模型與任務專用方法進行了比較。對于某些任務，我們遵循現有方法；例如，盡管我們支持基于任意幀生成，但為了確保公平性，使用當前開源方法中的首幀參考方法進行比較。從下表 2 中可以看出，對于 I2V、修復、外繪、深度、姿態和光流任務，我們的方法在視頻質量和視頻一致性的八個指標上表現優于其他開源方法，歸一化平均指標顯示出更優的結果。一些競爭方法只能生成 256 分辨率，生成時長非常短，并且在時間一致性上表現出不穩定性，導致自動指標計算表現較差。對于 R2V 任務，與商業模型相比，小規模快速生成模型在指標上仍有一定差距，但與 Vidu 2.0 的指標相當。根據人類用戶研究的結果，我們的方法在多個任務的評估指標上表現一致更好，與用戶偏好高度吻合。

Wan2.1背后的技術：阿里發布全能框架VACE，一統視頻生成與編輯，效果驚艷！-AI.x社區

定性結果：下圖 1展示了 VACE 單一模型在多種任務中的結果。顯然，該模型在視頻質量和時間一致性方面表現出色。在下圖 4 所示的組合任務中，我們的模型展示了令人印象深刻的能力，有效地整合了不同的模態和任務，生成了現有單一或多個模型無法生成的結果，從而展示了其在視頻生成和編輯領域的強大潛力。例如，在“Move Anything”案例中，通過提供單張輸入圖像和移動軌跡，我們能夠精確地按照指定方向移動場景中的角色，同時保持連貫性和敘事一致性。

Wan2.1背后的技術：阿里發布全能框架VACE，一統視頻生成與編輯，效果驚艷！-AI.x社區

消融實驗

為了更好地理解不同獨立模塊對統一視頻生成框架的影響，基于 LTX-Video 模型進行了一系列系統對比實驗，以實現更好的模型結構和配置。為了準確評估不同的實驗設置，我們為每個任務采樣 250 個數據點作為驗證集，并計算訓練損失，通過不同任務的平均曲線變化反映模型的訓練進展。

基礎結構：文本引導的圖像或視頻生成模型僅以噪聲作為推理輸入。當擴展到我們的統一輸入范式 VCU 時，我們可以通過完全微調或引入額外參數微調進行訓練。具體來說，如圖 5a 所示，我們比較了沿通道維度連接不同輸入的方法，并修改了 patchify 投影層的輸入維度，以實現預訓練模型的加載和完全微調。以 Res-Tuning 的形式引入了一些額外的訓練參數，將 VCU 序列化到旁路分支中，并將信息注入主分支。結果表明，兩種方法的效果相似；然而，由于額外參數微調收斂更快，我們基于此方法進行后續實驗。如下圖 5b 所示，進一步基于此結構進行了超參數實驗，重點關注權重方案、時間戳偏移和 p-zero 等方面。

Wan2.1背后的技術：阿里發布全能框架VACE，一統視頻生成與編輯，效果驚艷！-AI.x社區

上下文適配器：由于上下文塊的數量會顯著影響模型大小和推理時間消耗，嘗試找到上下文塊的最佳數量和分布。從輸入側選擇連續塊開始，并比較前 1/4 塊、1/2 塊和所有塊。受 Res-Tuning方法的啟發，還嘗試均勻分布注入塊，而不是選擇連續的塊系列。如圖 5c 所示，當使用相同數量的塊時，分布排列的塊在淺層塊中優于連續排列。此外，更多的塊通常會產生更好的結果，但由于效果提升有限且訓練資源受限，采用了部分分布排列的塊。

概念解耦：在訓練過程中，引入了概念解耦處理模塊，進一步分解視覺單元，明確模型需要學習修改或保留的內容。如圖 5d 所示，使用該模塊導致損失顯著減少。

結論

VACE，一個全能視頻生成與編輯框架。它統一了各種視頻任務所需的多樣化復雜多模態輸入，彌合了針對每個單獨任務的專用模型之間的差距。這使得大多數視頻 AI 創作任務可以通過單一模型的單次推理完成。在廣泛覆蓋各種視頻任務的同時，VACE 還支持這些任務的靈活自由組合，極大地擴展了視頻生成模型的應用場景，滿足了廣泛的用戶創作需求。VACE 框架為開發具有多模態輸入的統一視覺生成模型鋪平了道路，并代表了視覺生成領域的一個重要里程碑。

本文轉自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/jV5I2qLrCUDOfN-8Nf8IxA??

標簽

視頻

生成

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

Wan2.1背后的技術：阿里發布全能框架VACE，一統視頻生成與編輯，效果驚艷！

效果展示

總結速覽

解決的問題

提出的方案

應用的技術

達到的效果

方法

多模態輸入與視頻任務

視頻條件單元

架構

上下文標記化

完全微調與上下文適配器調優

數據集

數據構建

VACE 基準

實驗

實驗設置

主要結果

消融實驗

結論

目錄