突破自動駕駛視頻生成極限:港中文&港科大&華為聯手推出MagicDriveDiT
可控視頻生成,對于自動駕駛技術而言,同樣非常重要。
比如,生成高質量、長時間且可控的高質量街景視頻,可以滿足開發自動駕駛應用的數據缺口。

現在,香港中文大學、香港科技大學和華為聯手向這一長期挑戰發起了沖鋒:推出MagicDriveDiT,重新定義自動駕駛視頻生成的標準。
目前該工作同時支持昇騰Ascend NPU以及NVIDIA GPU訓練和推理。

具體而言,MagicDriveDiT基于DiT架構設計。通過流匹配技術和漸進式訓練策略,MagicDriveDiT不僅提升了系統的擴展能力,還能有效生成復雜場景。這一方法極大地提高了視頻生成的質量,尤其是在生成高分辨率和長時間視頻方面表現突出。

精確場景控制
先來看MagicDriverDiT的生成效果。
通過精確的場景控制,MagicDriveDiT可以生成許多少見的行駛路況。
比如無信號燈路口讓行:

路邊起步變道:

以及夜間行車等。
值得一提的是,MagicDriveDiT既支持單個物體的精確控制:

也支持復雜的自車3D軌跡控制。

MagicDriveDiT的整體設計框架
架構設計方面,首先,MagicDriveDiT將跨視角一致性模塊引入STDiT3的基礎模塊中,提出了MVDiT模塊來處理多視角視頻合成。
其次,對于自動駕駛場景中常見的多種控制,MagicDriveDiT在STDiT3的基礎上采用額外的控制分支以及交叉注意力分別處理不同的控制種類信號。
此前的視頻生成都是基于2DVAE編碼實現的,控制條件的空間編碼模塊并不適用于3DVAE的時空潛變量。針對現有方法在可擴展性和控制條件整合方面的不足,MagicDriveDiT采用空間-時間條件編碼技術,實現了對時空潛變量的精確控制。這種方法使得生成的視頻在視覺效果上更加逼真,能夠滿足自動駕駛應用對高質量街景視頻的需求。
以下視頻空間編碼和時空編碼對比,此前的視頻控制方法并不適用于3DVAE的時空潛變量:

MagicDriveDiT提出的條件時空編碼模塊:

訓練方法上,MagicDriveDiT發現,提高視頻分辨率對于生成內容的質量提升最明顯。
因此,MagicDriveDiT采用了分辨率優先的漸進式的訓練策略,加速模型訓練收斂,并且逐漸適配更高分辨率和更長的視頻。此外,通過混合數據訓練,MagicDriveDiT還實現了視頻長度外推的能力,可以直接生成超越訓練長度的視頻。
△MagicDriveDiT 采用的漸進式訓練策略
實驗結果顯示,MagicDriveDiT在生成真實街景視頻方面的表現優于現有的其他方法,不僅在分辨率上有所突破,還在幀數上實現了顯著提升,實現了前所未有的視頻生成效果。


與相關工作的分辨率、時長對比結果如下:

更多內容請見論文:https://arxiv.org/abs/2411.13807
項目地址:https://github.com/flymin/MagicDriveDiT




































