何必DiT!字節首次拿著自回歸,單GPU一分鐘生成5秒720p視頻 | NeurIPS'25 Oral
啪!~~~
一篇入圍頂會NeurIPS’25 Oral的論文,狠狠反擊了一把DiT(Diffusion Transformer)。
畢竟自打DiT問世以來,視頻生成這塊,算是被它給穩穩拿捏住了。
但站穩了腳跟,并不意味著沒有問題,因為它的計算復雜度高,在資源消耗和速度上有著諸多挑戰。
而這篇來自字節跳動商業化技術團隊的論文,則是提出了一個名叫InfinityStar的方法,一舉兼得了視頻生成的質量和效率,為視頻生成方法探索更多可能的路徑。

像下面這些有趣的動畫片片段,便是由InfinityStar親手打造:

整體來看InfinityStar的亮點,我們可以總結為如下三點:
- 是首個在VBench上超越擴散模型的離散自回歸視頻生成器;
- 視頻生成不用再“慢慢熬”:從百步去噪到自回歸,告別延遲;
- 任務通吃:文生圖、文生視頻、圖生視頻、交互式長視頻生成等。
值得一提的是,InfinityStar目前的論文、代碼、體驗地址均已經發布(鏈接見文末),接下來我們就進一步實測一波~
實測給DiT上了一課的AI視頻生成
首先我們來簡單了解一下InfinityStar的體驗方法。
它的入口就在Discord社區里面,大家登錄賬號之后,點擊下面這個鏈接即可跳轉。http://opensource.bytedance.com/discord/invite
在左側導航欄的下方面,便有InfinityStar文生視頻、圖生視頻等各種功能的選項。像剛才展示的視頻,便是在“i2v-generate-horizontal-1”中實現:

接下來,我們來一個InfinityStar的文生圖和圖生視頻的聯動玩法。
首先來到“infinity-8b-generate”,輸入下圖中的提示詞來生成幾張圖片:
A hyper-detailed, ultra-realistic, cinematic portrait of a fluffy white Ragdoll cat with striking sapphire-blue eyes and long black eyelashes. The cat’s expression is calm, poised, and intensely self-assured — its gaze direct, steady, and dignified, conveying quiet confidence and elegant composure……

挑選一張比較滿意的圖像之后,我們再把圖片“喂”到“i2v-generate-horizontal-1”中,配上下面的提示詞來生成一段視頻:
The cat opened its mouth and made a sound, then licked its nose with its tongue.

通過類似的方法,你也可以快速生成各種風格、影視級的鏡頭:

包括各種運動場景中,人物的復雜動作也是能hold?。?/p>

另外,正如我們剛才提到的,作為原生自回歸模型,InfinityStar還支持交互式長視頻生成。

我們只需要先給一段5s的視頻,然后InfinityStar能夠接受新的提示詞,根據參考視頻和新的提示詞繼續往下生成:
為什么能比DiT快這么多?
InfinityStar的核心架構,是一個名叫時空金字塔建模的方法,這正是它能把圖像、視頻任務統一起來,并且比主流擴散模型快一個數量級的關鍵所在。
整體來看,InfinityStar借鑒了其前作(如VAR和Infinity)在空間維度上的下一尺度預測思想,并將其巧妙地擴展到時空維度;如此一來便彌補了傳統方法往往難以在單一模型中同時處理靜態圖像和動態視頻的問題。
其核心設計是將一個視頻分解為兩個部分。
1、首幀(外觀信息):
視頻的第一幀被視為一個獨立的圖像,采用與Infinity模型一致的圖像金字塔進行由粗到精的建模。這一步專門負責捕捉視頻的靜態外觀信息,如場景、物體和風格。
2、后續片段(動態信息):
首幀之后的視頻內容被切分為若干個連續的視頻片段(Clips)。這些片段金字塔在空間維度之外,額外引入了時間維度,專門負責捕捉視頻的動態變化,如運動軌跡和鏡頭變換。
通過這種“首幀 + 視頻片段”的分解策略,InfinityStar成功地將靜態外觀和動態信息解耦。所有這些金字塔內部(尺度之間)和金字塔之間(片段之間)的依賴關系,都由一個強大的時空自回歸Transformer進行建模。
最終,無論是生成圖像、生成視頻還是圖生視頻,所有任務都被統一為“預測下一個尺度/下一個片段”的自回歸問題,實現了架構的高度統一。

除了整體框架之外,InfinityStar還有兩個關鍵技術。
首先是高效的視覺分詞器。
為了讓Transformer能夠處理視覺信息,首先需要將圖像和視頻翻譯成離散的Token。InfinityStar為此訓練了一個基于多尺度殘差量化的視覺分詞器,并提出了兩項關鍵技術來克服訓練難題:
- 知識繼承 (Knowledge Inheritance)
訓練一個離散的視覺分詞器(Tokenizer)通常非常耗時。研究人員發現,相比于從零開始訓練,繼承一個已預訓練的連續視覺分詞器(如Video VAE)的結構和權重,能顯著加快離散分詞器的收斂速度,使其更快達到高保真度的重建水平。

2. 隨機量化器深度 (Stochastic Quantizer Depth)
在視頻金字塔中,信息分布存在嚴重的“不均衡”問題:大部分細節信息集中在最后幾個精細尺度上,導致token數量相差幾十甚至上百倍。這會妨礙Transformer的學習,使其過度依賴后續尺度,而忽略了決定全局語義的早期尺度。
為此,InfinityStar引入了一種名為隨機量化器深度的正則化技術。在訓練時,隨機丟棄(Discard)后面精細尺度的Token,迫使模型在僅有前面粗糙尺度Token的情況下也能重建出有意義的信息。這使得信息在不同尺度上分布更均衡,顯著提升了模型的學習效率和最終的生成質量。

其次是優化的時空自回歸Transformer。
為了應對視頻生成帶來的新挑戰(如長上下文、時空依賴),InfinityStar對自回歸Transformer本身也進行了三項關鍵改進:
- 語義尺度重復 (Semantic Scale Repetition) 研究人員觀察到,金字塔中靠前的幾個尺度(語義尺度)控制著視頻的全局信息,如整體布局和運動趨勢。為了強化這一點,InfinityStar在預測時將這些語義尺度重復預測N次,允許模型對視頻的全局語義信息進行“反復修正”。這一簡單而有效的技巧,極大地增強了生成視頻在結構上的一致性和運動的流暢性。
- 時空稀疏注意力 (Spacetime Sparse Attention) 視頻生成,特別是長視頻,意味著極長的Token序列,這對注意力機制的計算和顯存是巨大的考驗。InfinityStar設計了一種高效的時空稀疏注意力,它只關注必要的上下文信息(如前一片段的最后一個尺度),從而在保持時間一致性的同時,大大降低了注意力的計算復雜度,使得高質量、長上下文的視頻生成成為可能。
- 時空RoPE位置編碼 (Spacetime RoPE) 為了讓模型精確感知Token在復雜時空金字塔中的位置,InfinityStar引入了增強版的RoPE位置編碼,它同時編碼尺度、時間、高度和寬度信息,為Transformer提供了精確的時空坐標感。
總結來看,InfinityStar之所以能做到比DiT快上一個數量級,關鍵在于DiT需要20–100步去噪迭代,而InfinityStar是純自回歸“一條過”生成;并且離散token+粗到精預測機制,大幅減少inference step數。
在如此方法之下,實驗結果顯示,在文生圖(T2I)任務上,InfinityStar在GenEval和DPG兩項基準上取得了優異的表現,尤其在位置、物體關系上展現出了明顯的優勢。

在文生視頻(T2V)任務上,InfinityStar在VBench基準上表現優秀,不僅顯著超越了先前所有的自回歸模型,甚至取得了比CogVideoX、HunyuanVideo等基于DiT的方法更好的成績。

在和HunyuanVideo的人類偏好評估中,InfinityStar-8B也取得了比HunyuanVideo-13B更好的效果,尤其是在指令遵循方面展現出了顯著的優勢。

在視頻生成的效率方面,InfinityStar的生成速度比同尺寸的基于DiT的方法(如HunyuanVideo、Wan-Video)快一個數量級,在單張GPU上生成一個5s 720p的視頻僅需不到1分鐘。
總而言之,字節的這篇論文證明了離散自回歸模型不僅能快,還能做到好,更是打破了只有擴散才能高清的迷思。
論文鏈接:
https://arxiv.org/pdf/2511.04675
代碼鏈接:https://github.com/FoundationVision/InfinityStar
申請體驗:http://opensource.bytedance.com/discord/invite

























