AI 模特時代到來:字節(jié)x清華推出商用級視頻換裝模型DreamVVT,保真度顯著領先SOTA
服裝視頻廣告太燒錢?卡點變裝太難拍? 字節(jié)跳動智能創(chuàng)作團隊聯(lián)合清華大學最新推出一款全能的視頻換裝模型 DreamVVT,為視頻虛擬試穿領域帶來了突破性進展。
該模型基于 Diffusion Transformer(DiTs)構建,通過精細的兩階段設計,成功解決了現(xiàn)有技術在復雜場景下的痛點, 能夠支持任意類型的衣服、處理大幅度的人物或者相機運動、復雜背景以及不同的風格的輸入。




- 論文鏈接:https://arxiv.org/abs/2508.02807
- 代碼鏈接:https://virtu-lab.github.io/
技術前沿:攻克復雜場景下的視頻虛擬試穿難題
視頻虛擬試穿(Video Virtual Try-on, VVT),這項旨在將任意服裝魔法般地 “穿” 在視頻中人物身上的技術,正逐漸成為電商、廣告及娛樂產(chǎn)業(yè)的焦點。然而,要實現(xiàn)理想效果,現(xiàn)有技術仍面臨著嚴峻挑戰(zhàn)。
主流的端到端方案高度依賴稀缺的 “服裝 - 視頻” 成對訓練數(shù)據(jù),同時難以充分利用強大預訓練模型的先驗知識。這導致在人物 360 度旋轉、鏡頭劇烈運鏡或背景動態(tài)變化的復雜場景下,生成的視頻往往會遭遇 服裝細節(jié)崩壞、紋理丟失與時序抖動 等一系列問題。
為攻克這一行業(yè)難題,字節(jié)跳動智能創(chuàng)作團隊與清華大學攜手,提出了全新的 DreamVVT 框架,刷新了該領域的 SOTA 記錄。該框架基于強大的 Diffusion Transformer (DiT) 構建,并獨創(chuàng)性地提出了一套分階段生成方案,精準解決了現(xiàn)有技術在復雜場景下的核心痛點,能夠生成高保真且時間連貫的虛擬試穿視頻。
破局之道:精巧的兩階段生成框架
DreamVVT 的核心設計理念,在于其精巧的兩階段框架。這一設計巧妙地解耦了任務難度,使其既能充分利用海量的非成對數(shù)據(jù)進行學習,又能靈活地融合預訓練模型的先驗知識與測試階段的即時信息。其核心貢獻主要體現(xiàn)在以下三個方面:
1. 創(chuàng)新的分階段框架:我們首次提出了基于 DiT 的分階段方案,它打破了對成對數(shù)據(jù)的依賴,能夠有效利用非成對數(shù)據(jù)、先進視覺模型的先驗知識以及測試時的輸入信息,顯著提升了模型在復雜場景下的虛擬試穿性能。
2. 關鍵幀與大模型結合:我們將靜態(tài)的關鍵幀試穿與視頻語言模型(Video LLM)的推理能力相結合。這一機制為視頻生成提供了兼具豐富外觀細節(jié)與全局運動邏輯的綜合指導,從而在根源上平衡了服裝細節(jié)的保真度與視頻整體的時間一致性。
3. 卓越的性能驗證:最后,大量的實驗結果有力地證明,在多樣化的真實場景下,DreamVT 在保留高保真服裝細節(jié)和確保時序穩(wěn)定性方面,均顯著優(yōu)于現(xiàn)有的所有方法。
技術解碼:揭秘兩階段高清視頻換裝方案

我們的高清視頻換裝技術,其核心是一個精心設計的兩階段框架。第一階段負責生成高質量的多張靜態(tài)換裝參考圖,第二階段則基于這些參考圖,結合多模態(tài)信息,生成時序穩(wěn)定的高保真換裝視頻。
第一階段:生成高質量的換裝關鍵幀
1. 智能關鍵幀采樣
為了全面捕捉人物的動態(tài),我們設計了一套智能采樣策略。首先,設定一個標準的正面 A 字姿態(tài)作為 “錨點幀”。接著,通過計算視頻中每一幀與錨點幀的骨骼運動相似度,并結合人物在畫面中的面積比重進行加權,為每幀的 “獨特性” 打分。最后,我們采用一種反向搜索算法,從高分幀中篩選出一組信息冗余度最低的關鍵幀,為后續(xù)生成提供多樣化的姿態(tài)或者視角參考。
2. 多幀換裝參考圖生成
有了關鍵幀,我們利用一個在預訓練模型 Seedream 上微調的 Diffusion Transformer 來生成換裝后的參考圖。我們巧妙地集成了 LoRA 模塊,實現(xiàn)了參數(shù)高效的微調。模型會同時接收多個關鍵幀、服裝圖以及我們精心設計的 “一致性圖像指令”。通過注意力機制中的 QKV 拼接,模型能有效聚合所有關鍵幀的信息,確保生成的換裝參考圖在細節(jié)上保持高度一致。此外,我們還引入 VLM 對服裝進行詳細的文本描述,并進行對齊,進一步強化了多幀間的外觀一致性。
第二階段:多模態(tài)引導的視頻生成
第二階段的核心任務是,基于第一階段生成的換裝參考圖,結合多種信息,生成最終的換裝視頻。我們基于一個強大的圖生視頻(I2V)框架進行構建。
1. 多模態(tài)輸入處理
模型同時接收多種模態(tài)的輸入,各司其職:
- 動作信息:為了精準還原身體動作,我們提取視頻的 2D 骨骼序列,并通過一個帶有時間注意力機制的 Pose Guider 將其轉換為平滑的姿態(tài)特征。
- 視覺信息:我們將裁剪后的衣服不可知圖像(Agnostic Image)和遮罩送入 VAE 編碼器,得到基礎的視覺特征。
- 文本信息:考慮到僅靠骨骼無法捕捉精細的服裝動態(tài),我們利用 Video LLM 提取詳細的動作和視覺文本描述, 為模型提供不同維度和精細地指導。
- 外觀信息:第一階段生成的換裝關鍵幀則作為核心的外觀參考,同樣被編碼為圖像特征。
2. 模型結構與訓練
在模型結構上,我們凍結了 Seaweed 模型的所有權重,僅在視頻流和圖像流中插入輕量化的 LoRA 適配器,實現(xiàn)了高效訓練。所有模態(tài)的特征在輸入網(wǎng)絡后,通過一次 全自注意力(Full Self-Attention) 操作進行深度融合,使模型能自適應地對齊不同信息。
3. 視頻生成與融合
融合后的特征被送入 DiT 模塊進行多輪去噪,最終由 VAE 解碼器生成換裝視頻。我們還采用高效的拉普拉斯金字塔融合技術,將生成的視頻無縫地嵌入原始背景中。在訓練階段,我們采用了多任務學習策略,隨機切換訓練任務,充分利用了不同模態(tài)的互補優(yōu)勢,最終實現(xiàn)了卓越的生成效果。
此外,針對長視頻生成,團隊使用前一段視頻最后一幀的潛表示作為后一段的初始幀,避免了因反復編碼解碼導致的誤差累積,顯著延長了視頻質量明顯下降前的持續(xù)時間。
實驗驗證:全方位展現(xiàn)通用場景下的 SOTA 性能
與 SOTA 方法的全面對比
在定性對比中,面對 360 度旋轉等復雜野外場景,現(xiàn)有方法(如 CatV2TON、MagicTryOn)常出現(xiàn)細節(jié)崩壞和模糊,而 DreamVVT 則能穩(wěn)定生成時空平滑且細節(jié)逼真的結果。定量數(shù)據(jù)更有力地印證了這一點。在 ViViD-S 數(shù)據(jù)集上,我們的 VFID 和 LPIPS 等關鍵指標達到 SOTA。在更具挑戰(zhàn)性的自建基準 Wild-TryOnBench 上,DreamVVT 在服裝細節(jié)保留度(GP) 、物理真實感(PR) 和 時序一致性(TC) 三項人工評估中全面領先,展現(xiàn)了強大的泛化能力。





消融實驗
1. 關鍵幀數(shù)量:將關鍵幀從 1 幀增至 2 幀,能為模型提供更豐富的服裝與運動信息,顯著提升了細節(jié)保真度與物理真實感,有效避免了偽影。
2. LoRA 微調:采用 LoRA 進行輕量化微調,相比全參數(shù)訓練,能更好地繼承預訓練模型的文本控制能力,在不犧牲其他性能的前提下,顯著增強了生成視頻的物理真實感,尤其能夠實現(xiàn)和服裝的交互。
這些實驗充分證明,DreamVVT 通過其創(chuàng)新的設計,在復雜場景下的視頻虛擬試穿任務中取得了突破性的進展。

總結
DreamVVT 的出現(xiàn),為視頻虛擬試穿技術開辟了新的道路。它在復雜場景下的出色表現(xiàn),標志著視頻虛擬試穿技術正邁向成熟的商業(yè)應用,為電商和泛娛樂行業(yè)開啟了無限的想象空間。































