訓練成本暴降99%,35秒出1分鐘高清視頻!英偉達MIT等引爆視頻AI革命
27幀每秒的實時視頻生成、35秒合成1分鐘高清視頻——這不是遙遠的未來,而是剛剛由英偉達聯合MIT與港大團隊帶來的現實。
全新一代視頻擴散模型SANA-Video橫空出世,憑借革命性的線性DiT架構與恒定顯存KV緩存機制,不僅速度超越所有同類模型,更以高達720p的分辨率與分鐘級時長生成,重新定義了AI視頻生成的效率極限。
SANA-Video不僅在速度和性能上表現出色,生成的圖像質量也非常高。
以下是SANA-Video生成的一些示例:




它的核心優勢在于:
· 高效率:采用線性DiT和顯存恒定的KV緩存 ,實現了比傳統模型更快的速度和更高的內存效率。
· 低成本:訓練成本極低(僅為MovieGen的1%),推理速度比SOTA模型快16倍。
· 可部署性:可在RTX5090上部署,僅需29秒即可生成一個5秒的720p視頻。
· 長視頻實時生成:4步蒸餾版本的長視頻生成變種( LongSANA),僅需35秒即可生成1分鐘的480p視頻。在速度和質量之間,SANA-Video樹立了新標桿。
本文將深入探討SANA-Video的創新技術及其卓越性能。

論文名稱:SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer
論文地址:https://arxiv.org/pdf/2509.24695
項目主頁:https://nvlabs.github.io/Sana/Video/
研究背景
在文本到圖像和視頻生成領域,擴散模型(Diffusion Transformer)取得了顯著的成功。
盡管擴散模型可以對多token并行化處理,但在高分辨率圖像和視頻生成時,海量的token數目導致推理速度較慢。
這個問題在文本到視頻領域更為顯著,同時生成5s 81幀的視頻相比圖像生成速度增長50倍。
為了提高計算效率,在視頻任務這種token數量巨大的任務上,線性注意力計算復雜度節省效果顯著。
目前,一些融合Linear Attention和Softmax Attention的方法取得良好效果,但是從頭訓練的全局Linear Attention模型的能力,仍存在不確定性。
SANA-Video在Linear DiT模型SANA-Image的基礎上繼續訓練,繼承其全局線性注意力的模型設計,實現了從頭開始的圖像和視頻模型的高效訓練和推理全流程,在8倍壓縮的Wan-VAE和這次提出的32倍壓縮的DC-AE-V兩種VAE上都驗證的可行性。
最終效果抗打,在Vbench上與Wan-2.1等開源擴散視頻模型持平。

核心創新
SANA-Video的核心在于其創新和魯邦的全局線性注意力Diffusion Transformer訓練框架,及其特有的全局顯存恒定的KV緩存機制。
主要貢獻包括:
- 線性注意力DiT(Linear DiT):針對視頻生成中海量令牌(token)處理的計算瓶頸,模型以線性注意力(Linear Attention)為核心操作。相比于傳統的自注意力機制,線性注意力在處理長序列時更為高效,這為模型在合成高清長視頻時保持卓越的速度和效率奠定了基礎。
- 恒定顯存的KV緩存機制(Constant-Memory KV Cache):為了經濟高效地生成分鐘級長視頻,研究者創新出一種分塊自回歸方法。該方法利用線性注意力的累積特性,創建了一個占用顯存恒定的狀態(KV緩存),從而為模型提供全局上下文信息,且不會隨著視頻長度的增加而消耗更多顯存。這一設計徹底解決了傳統KV緩存的內存瓶頸問題。并且通過步數蒸餾,LongSANA可以以自回歸的方式實時生成分鐘級的長視頻。
- 深度壓縮自編碼器(DC-AE-V):傳統自編碼器只能將視頻空間壓縮8倍,全新AE可將視頻空間壓縮32倍,有效減少了潛在token的數量,解鎖高分辨率視頻生成新速度。
- 卓越的性能與部署效率:SANA-Video在實現了與業界先進小擴散模型(如Wan 2.1-1.3B)相媲美的視頻質量的同時,展現了極高的效率優勢。

訓練成本低:訓練開銷僅為MovieGen的1%。
推理速度快:實測延遲比同類模型快16倍。
消費級部署:可成功部署于RTX5090GPU,并利用NVFP4精度將一段5秒720p視頻的生成時間從71秒縮短至29秒,真正實現了低成本、高質量的視頻生成。
設計細節
模型架構的細節,如下表所示。

· 高效線性DiT(Diffusion Transformer)
原始DiT的自注意力計算復雜度為O(N2),在處理高分辨率圖像時呈二次增長,線性DiT在此替換了傳統的二次注意力機制,將計算復雜度從O(N2)降低到O(N)。
模型從SANA-Image繼續訓練,繼承大部分模型權重,持續使用全局的線性DiT架構,最終形成一套完整的從頭開始訓練的文生圖像視頻模型。
與此同時,研究人員還提出了Spatial-Temporal Mix-FFN,可以在多層感知器(MLP)中交替使用1×3×3的空間卷積和3×1×1的時序卷積,增強了token的局部信息。
實驗結果顯示,線性注意力達到了與傳統注意力相當的結果,在5s視頻生成方面將延遲縮短了2-4倍。

· 恒定顯存的KV緩存機制(Constant-Memory KV Cache)
在線性DiT的基礎上,通過塊間自回歸的訓練方式實現塊線性擴散模型,其具有全局的注意力,但是顯存開銷固定的特性。

具體的,塊間自回歸訓練方式通過將一段視頻分為N塊(Block/Chunk),根據幀所在塊的前后順序加遞增的噪音大小進行擴散模型訓練,通過因果注意力的方式進行建模,后面的塊能過通過線性注意力融合前面塊的特征,但前面塊的特征計算不能引入后續塊的特征。
首先對于線性注意力,其在計算機制上可以實現沿Token順序進行拆分(數學上等價),并通過KV乘積后累加的方式得到所有Token的注意矩陣計算結果。

因此,當塊因果線性擴散模型(Causal Linear Attention)訓練完成后,我們可以通過線性KV緩存機制進行長視頻推理任務。
在塊1的KV1計算后進行緩存,當塊2的KV2矩陣計算完成后與KV1矩陣相加即可得到KV1-2,以此類推,當最后一個塊n的KVn計算完成后,只需要

得到全局的KV矩陣。基于此,每個塊的計算量只包含累加矩陣KVsum與當前塊的KV計算后的加和。

· 深度壓縮自編碼器(DC-AE-V)
按照SANA模型的一貫策略,研究人員引入的全新視頻自編碼器(DC-AE-V),大幅將縮放因子提高至空間32倍,時序4倍。

與F8T4C16+DiT編碼層壓縮2倍相比,F32T4C32輸出的潛在token數量減少了4倍,這對于高效訓練和生成高分辨率視頻(如720p分辨率)至關重要。
· 高效訓練和推理策略
為降低訓練成本,研究人員從數據和訓練策略兩方面進行了優化。
首先,在數據層面,他們設計了高效的過濾標準,并利用強大的視覺語言模型(VLM)為視頻生成包含豐富細節(如主體、動作、環境、鏡頭角度等)的高質量文本描述。
其次,在訓練層面,模型基于一個強大的圖生文(T2I)模型進行連續預訓練,并采用從低分辨率到高分辨率的多階段策略。
最后利用人類偏好的數據進行監督微調(SFT),從而高效地學習視頻的動態和美學特征。

整體性能
如下表中,將SANA-Video與當前最先進的文本生成視頻擴散模型進行了比較。
在480p分辨率的文生視頻(Text-to-Video)任務中,SANA-Video在模型參數量僅為2B的情況下,實現了最高的語義對齊分數(Semantic Score 81.35),其推理延遲僅為60秒,快于其他模型,實現了8倍的速度提升。
在480p分辨率的圖生視頻(Image-to-Video)任務中,SANA-Video同樣速度最快,并且其視頻生成質量分數(I2V Score 96.40)超越了所有同類模型。
在更高分辨率(720p)的性能對比中,SANA-Video-2B的綜合評分(Total Score 84.05)表現最佳。其推理延遲僅為36秒,相比SkyReelV2(568秒)和Wan2.1(403秒)等模型,實現了高達16倍的速度優勢。

如下是,SANA-Video與其他模型可視化性能比較。很顯然,SANA-Video模型生成速度更快的同時質量也同樣能打。

LongSANA:長視頻實時生成
SANA-Video的恒定顯存的KV緩存機制,支持使用全局注意力進行訓練和推理。
因此,研究人員改進Self-Forcing的5s視頻自回歸訓練方式,使用全局注意力進行1分鐘的流式訓練,從而實現更高質量的長視頻,此變種命名為LongSANA。并且通過蒸餾去噪步數,實現在H100上僅需35秒即可生成1分鐘視頻。生成效果如下:

終端設備部署
為了增強邊緣部署,研究人員使用SVDQuant算法進行NVFP4對模型進行量化。在480p和720p視頻的速度上都實現2.4x的加速。并且可以在RTX 5090顯卡上進行推理。

展望未來,SANA-Video將致力于探索實時交互式生成等前沿領域。
研究者堅信開放的力量,因此決定將完整的訓練代碼和模型權重向社區開源,期待與全球的開發者和研究者一同探索視頻生成的無限可能。

































