32倍加速,58秒搞定720p視頻!字節(jié)發(fā)布離散自回歸框架,統(tǒng)一視覺生成和長視頻生成
字節(jié)發(fā)布了InfinityStar框架,將一段5秒720p高清視頻的生成時間,從主流擴(kuò)散模型的30多分鐘,壓縮到了58秒。并且用一套統(tǒng)一的框架,支持圖像生成、文本生成視頻、圖像生成視頻、視頻續(xù)寫等多樣化的任務(wù)。

視覺生成賽道的核心架構(gòu),已經(jīng)從U-Net系統(tǒng)性地遷移到了Transformer。
2022年,Stable Diffusion以一種全新的范式定義了圖像生成,它的1.5版本至今仍在消費(fèi)市場廣泛應(yīng)用。
2023年,DiT架構(gòu)誕生,標(biāo)志著擴(kuò)散模型正式擁抱Transformer作為骨干網(wǎng)絡(luò),這為后來的模型規(guī)模化擴(kuò)展鋪平了道路。
接著,2024年OpenAI的Sora系統(tǒng),首次向世界展示了DiT架構(gòu)在視頻生成領(lǐng)域的Scaling Law(規(guī)模法則)效應(yīng),通過將視頻切成時空補(bǔ)?。⊿pacetime Patch)進(jìn)行處理,實現(xiàn)了分鐘級別的長視頻生成。
這是擴(kuò)散模型路線的演進(jìn)。
另一條路線,自回歸模型,也在悄然發(fā)展。
2023年的VideoPoet項目,探索了語言模型在視頻生成中的應(yīng)用潛力,但它受限于視頻離散化的質(zhì)量和生成效率。
2024年4月,VAR(視覺自回歸建模)提出了一種全新的圖像生成視角,稱之為下一尺度預(yù)測。它不再像傳統(tǒng)自回歸模型那樣一個像素一個像素地預(yù)測,而是將預(yù)測單位從token級別提升到了特征圖(Feature Map)的尺度級別,這極大地提升了生成質(zhì)量。
同年12月,Infinity模型在VAR的基礎(chǔ)上,引入了比特級建模,將模型的詞匯表規(guī)模擴(kuò)展到了驚人的2的64次方。這讓它在圖像生成任務(wù)上,達(dá)到了與擴(kuò)散模型旗鼓相當(dāng)?shù)男阅?,同時保持了超過8倍的推理速度優(yōu)勢。
兩條路線都在高歌猛進(jìn),但各自的短板也異常清晰。
基礎(chǔ)的擴(kuò)散模型需要反復(fù)執(zhí)行50到100次去噪步驟,生成一段720p的視頻,耗時通常超過30分鐘,并且它很難自然地支持視頻的續(xù)寫和外推。
傳統(tǒng)的自回歸模型,比如Emu3,需要預(yù)測數(shù)以萬計的token,一次生成延遲高達(dá)數(shù)分鐘,視覺保真度也一直落后于擴(kuò)散模型。
視覺質(zhì)量、生成效率、任務(wù)通用性,三者似乎難以兼得。
InfinityStar打破了這個困境。
它在保證工業(yè)級應(yīng)用所要求的視覺質(zhì)量的前提下,實現(xiàn)高效的、像水流一樣可持續(xù)的生成能力。
視頻的本質(zhì)是時空的分離
InfinityStar的架構(gòu)設(shè)計,源于一個對視頻數(shù)據(jù)本質(zhì)的第一性原理思考。
視頻,并不是一個在時間和空間上均勻分布的數(shù)據(jù)結(jié)構(gòu)。
它實際上是一個復(fù)合體,由相對靜態(tài)的外觀信息和持續(xù)變化的動態(tài)運(yùn)動信息共同構(gòu)成。
目前的大多數(shù)方法,比如Sora,傾向于將視頻視為一個統(tǒng)一的3D數(shù)據(jù)塊進(jìn)行處理。
這種方式雖然直觀,但卻讓模型難以將這兩種正交的特征——外觀與運(yùn)動——進(jìn)行解耦學(xué)習(xí)。模型需要在一個統(tǒng)一的網(wǎng)絡(luò)里,同時理解一只貓的毛發(fā)紋理和它奔跑的姿態(tài),這增加了學(xué)習(xí)的難度。
InfinityStar提出了一種截然不同的思路:時空金字塔模型(Spacetime Pyramid Model)。

它的核心思想,是顯式地將空間尺度的增長與時間維度的擴(kuò)展分離開來,從而實現(xiàn)一種更符合物理直覺的建模方式。
具體來說,系統(tǒng)會將一段輸入的視頻,分解成一連串連續(xù)的片段。
每個片段的長度是固定的,比如5秒鐘,以16fps計算,就是80幀。
第一個片段的首幀,會被單獨(dú)作為一個特殊的片段c?來處理。它的時間長度T=1,專門用來編碼視頻最核心的靜態(tài)外觀線索,比如場景的布局、物體的材質(zhì)和顏色。
從第二個片段開始,所有后續(xù)片段都保持T>1的等長結(jié)構(gòu),專門用來編碼運(yùn)動信息。
在每個片段的內(nèi)部,模型采用了一種K個尺度的金字塔結(jié)構(gòu)來表示信息。你可以把它想象成一層層分辨率不斷提高的圖像,從模糊的輪廓到清晰的細(xì)節(jié)。
這種設(shè)計,巧妙地構(gòu)建了一個兩層自回歸結(jié)構(gòu)。
在片段內(nèi)部,模型按照尺度從小到大,像爬樓梯一樣逐級生成,這叫尺度級聯(lián)。
在片段之間,模型按照時間順序,一個片段接一個片段地生成,這叫時序級聯(lián)。
這種時空解耦的設(shè)計,使得模型在保持長時序一致性的同時,避免了跨片段的尺度級依賴爆炸。因為在生成新片段時,它不需要回頭去關(guān)注歷史片段的每一個生成細(xì)節(jié),只需要一個更高層級的整體信息。
這為長視頻的生成,提供了理論上可以無限擴(kuò)展的能力。
為了驗證這種設(shè)計的優(yōu)越性,團(tuán)隊進(jìn)行了一項對比實驗。他們設(shè)計了一種偽時空金字塔(Pseudo-Spacetime Pyramid)架構(gòu),這種架構(gòu)像傳統(tǒng)方法一樣,將時間和空間維度同等處理,在金字塔的每一層同時擴(kuò)展時空分辨率。

實驗結(jié)果顯示,這種耦合的設(shè)計,導(dǎo)致外觀和運(yùn)動信息糾纏不清,在VBench(視頻生成綜合評估套件)上的總分從81.28分下降到了80.30分,并且生成的視頻普遍缺乏細(xì)粒度的紋理細(xì)節(jié)。

這證明了InfinityStar時空分離設(shè)計的正確性。
讓視頻分詞器站在巨人的肩膀上
一個高質(zhì)量的視覺分詞器(Visual Tokenizer),是所有離散自回歸模型的基礎(chǔ)。它的作用,是將連續(xù)的像素信息,轉(zhuǎn)換成像語言一樣的離散token,交給Transformer處理。
但訓(xùn)練一個視頻分詞器的成本,遠(yuǎn)高于圖像分詞器。
一幀768×768的圖像,轉(zhuǎn)換后的token序列長度大約在1K到4K之間。
而一段5秒鐘的720p視頻(1280×720分辨率,80幀),在時空壓縮率為16×16×4的情況下,會生成大約9.2萬個token。
計算量呈現(xiàn)出數(shù)量級的增長。
如果采用傳統(tǒng)方法,從零開始訓(xùn)練一個離散的視頻分詞器,需要消耗數(shù)萬個GPU小時,而且模型收斂非常緩慢。
InfinityStar為此提出了一種極為高效的策略:知識繼承(Knowledge Inheritance)。
它的物理本質(zhì),是保留并利用一個已經(jīng)訓(xùn)練好的、強(qiáng)大的連續(xù)視頻VAE(變分自編碼器)所學(xué)習(xí)到的流形表示能力。
與其讓新模型從混沌中學(xué)習(xí)如何理解視頻,不如讓它直接繼承一位老師傅的畢生功力。
具體實現(xiàn)上,團(tuán)隊選用了業(yè)界頂尖的Wan 2.1 VAE作為基礎(chǔ)模型。這個模型的編碼器,可以在16×16×4的壓縮率下,產(chǎn)出64維的連續(xù)特征向量。
他們在這個預(yù)訓(xùn)練好的VAE的編碼器和解碼器之間,插入了一個沒有可學(xué)習(xí)參數(shù)的量化器。
這個量化器采用二進(jìn)制球面量化(Binary Spherical Quantization)技術(shù),并且詞匯表的大小是根據(jù)尺度動態(tài)分配的。對于信息量較少的前12個小尺度,使用2的16次方(約6.5萬)的詞匯表;對于包含大量細(xì)節(jié)的后14個大尺度,使用2的64次方的超大詞匯表。
這種非均勻的分配策略,使得模型的收斂速度提升了30%,并且重建質(zhì)量沒有任何損失。

實驗數(shù)據(jù)有力地證實了這一策略的有效性。
在一個內(nèi)部的高動態(tài)視頻基準(zhǔn)測試集上(480p分辨率,81幀),通過繼承連續(xù)VAE權(quán)重訓(xùn)練的分詞器,其PSNR(峰值信噪比)達(dá)到了33.37dB,SSIM(結(jié)構(gòu)相似性)為0.94,LPIPS(學(xué)習(xí)感知圖像塊相似度)低至0.065。

相比之下,從零開始訓(xùn)練的分詞器,各項指標(biāo)僅為30.04dB、0.90和0.124,差距巨大。
一個更有說服力的事實是,即使完全不進(jìn)行微調(diào),僅僅是繼承了權(quán)重的分詞器,就已經(jīng)能夠合理地重建視頻,PSNR達(dá)到22.6dB,遠(yuǎn)超過一個預(yù)訓(xùn)練的圖像VAE所能達(dá)到的16.4dB。

訓(xùn)練曲線圖顯示,繼承策略在僅僅1萬次迭代步數(shù)內(nèi),損失函數(shù)就迅速達(dá)到了平臺期,而其他方法則需要至少3萬步以上才能達(dá)到類似的水平。
這種站在巨人肩膀上的方法,極大地節(jié)約了訓(xùn)練成本,并為整個模型的高性能奠定了一個堅實的基礎(chǔ)。
除了知識繼承,團(tuán)隊還解決了另一個棘手的問題:時空金字塔結(jié)構(gòu)導(dǎo)致的信息分布極端不均衡。
在26個尺度的配置下,前10個尺度包含的總token數(shù)不足5000個,而最后5個尺度包含的token數(shù)則超過了8萬個。
在訓(xùn)練過程中,量化器會很自然地傾向于將更多的信息壓縮到數(shù)據(jù)量更大的后期尺度中,導(dǎo)致早期尺度中的token幾乎不包含任何有效信息。
這會讓后續(xù)的VAR Transformer難以學(xué)習(xí)和建立跨尺度之間的依賴關(guān)系,因為早期尺度的信息是空的。
為了解決這個問題,團(tuán)隊引入了一種名為隨機(jī)量化器深度(Stochastic Quantizer Depth, SQD)的正則化機(jī)制。
它的原理類似于一種蒙特卡洛dropout(隨機(jī)失活)。
在訓(xùn)練時,最后N個尺度會以一個概率p被隨機(jī)地丟棄,這樣就產(chǎn)生了2的N次方種可能的尺度組合。
這種隨機(jī)性,迫使模型不能過度依賴后期尺度,強(qiáng)制它將更多的核心語義信息存儲到更加保險的早期尺度中。
可視化的實驗結(jié)果非常直觀。

在沒有使用SQD的情況下,僅用前6個尺度重建的圖像,只能看到一些模糊的色塊。
而在啟用了SQD之后,同樣只用前6個尺度,已經(jīng)可以恢復(fù)出物體的清晰輪廓和場景的整體布局。
讓Transformer更懂時空的邏輯
在擁有了一個強(qiáng)大的分詞器之后,優(yōu)化的重心就轉(zhuǎn)移到了核心的自回歸Transformer上。
團(tuán)隊在這里也引入了兩項關(guān)鍵的優(yōu)化。
第一個優(yōu)化,叫做語義尺度重復(fù)(Semantic Scale Repetition, SSR)。
在金字塔的眾多尺度中,最開始的幾個尺度決定了視頻的全局信息,包括場景布局、主體位置、相機(jī)運(yùn)動等核心要素。團(tuán)隊將這些尺度稱為語義尺度。
InfinityStar對這些語義尺度實施了一種重復(fù)預(yù)測機(jī)制。
這個操作聽起來會增加計算量,但實際上,由于早期尺度的token數(shù)量占總token數(shù)的比例極低(不足3%),因此整個操作帶來的額外計算開銷還不到5%。
但其帶來的性能提升是巨大的。
融實驗表明,如果去掉語義尺度重復(fù)機(jī)制,模型的VBench總分會從81.28分,斷崖式暴跌到75.72分。其中,語義一致性這個子項的得分,從80.16分驟降至71.68分。

從定性生成的視頻對比中可以發(fā)現(xiàn),沒有SSR時,視頻中經(jīng)常出現(xiàn)惱人的結(jié)構(gòu)閃爍和主體變形。
而在啟用了SSR之后,即便是像人物翻書、快速切菜這類復(fù)雜的、帶有精細(xì)操作的運(yùn)動,其動作的連貫性也得到了顯著的改善。
第二個優(yōu)化,是時空稀疏注意力(Spacetime Sparse Attention, SSA),它直擊長視頻生成的核心痛點(diǎn):上下文長度爆炸。
在標(biāo)準(zhǔn)的注意力機(jī)制下,模型在生成第c個片段的第k個尺度時,需要attend(關(guān)注)到所有歷史片段的所有尺度信息。
這意味著,上下文序列的長度會隨著片段數(shù)量N的增加而線性增長,導(dǎo)致顯存占用達(dá)到O(N2)的級別,很快就會超出硬件的承受極限。
InfinityStar提出的時空稀疏注意力策略,極大地簡化了這個過程。
它規(guī)定,模型在生成當(dāng)前尺度時,除了attend同片段內(nèi)的前序尺度,只需要額外attend前一個片段的最后一個尺度(即信息最完整的那個尺度)即可。
這個簡單的改動,將計算復(fù)雜度從O(N2)成功降低到了O(N)。
在一個192p分辨率、161幀的生成任務(wù)中,SSA實現(xiàn)了1.5倍的加速,同時顯存占用從57GB降低到了40GB。

在一個更具挑戰(zhàn)性的480p、161幀任務(wù)中,全注意力機(jī)制因為顯存不足(OOM)而直接失敗,而SSA在44.7秒內(nèi)順利完成,顯存占用為63GB。
在性能方面,SSA的VBench總分達(dá)到了81.28分,反而超過了計算量更大的全注意力(80.77分)。這被歸因于稀疏注意力降低了模型的曝光偏差累積問題,讓模型更專注于最相關(guān)的時序信息。
性能表現(xiàn)與零樣本的驚人泛化
經(jīng)過一系列的架構(gòu)創(chuàng)新和技術(shù)優(yōu)化,InfinityStar的最終性能表現(xiàn)如何?
在文本到圖像(T2I)生成任務(wù)中,InfinityStar-T2I模型在兩個權(quán)威基準(zhǔn)GenEval和DPG上進(jìn)行了評估。

GenEval基準(zhǔn)包含了346個復(fù)雜的測試用例,重點(diǎn)考察模型對于對象組合、空間關(guān)系和屬性綁定的理解能力。
InfinityStar以8B參數(shù)的規(guī)模,取得了0.79的總體分?jǐn)?shù),超越了14B參數(shù)的NextStep-1(0.73分)和12B參數(shù)的FLUX-dev(0.67分)。
在DPG基準(zhǔn)上,它測試的是模型生成圖像與文本提示的語義對齊度,InfinityStar的總分達(dá)到了86.55分,比前代Infinity模型提升了3.09個百分點(diǎn)。

在文本到視頻(T2V)生成任務(wù)中,VBench是行業(yè)公認(rèn)的綜合評估套件,它包含16個評估維度,總分由人類動作、場景、多對象、外觀質(zhì)量、語義等多個子項加權(quán)得出。

InfinityStar在8B參數(shù)下,獲得了83.74分。這個分?jǐn)?shù)超越了13B參數(shù)的HunyuanVideo(83.24分),并與14B參數(shù)的Wan 2.1(84.70分)和2B參數(shù)的Goku(84.85分)等頂尖的擴(kuò)散模型處于同一水平。
值得注意的是,這個分?jǐn)?shù)在所有已知的開源自回歸模型中,位列第一,相比于Emu3(80.96分)和Nova(80.12分)等模型,提升顯著。
在人工評測環(huán)節(jié),50名專業(yè)的評估人員對InfinityStar和HunyuanVideo生成的視頻進(jìn)行了雙盲對比。

在T2V任務(wù)中,InfinityStar在文本遵循度、視覺質(zhì)量、運(yùn)動平滑度、時序一致性這四個關(guān)鍵指標(biāo)上,全面領(lǐng)先,勝率分別達(dá)到了68%、72%、65%和71%。
在圖像到視頻(I2V)任務(wù)中,勝率同樣全面領(lǐng)先,分別為64%、58%、61%和63%。
這些評測中的視頻,時長均為5秒,分辨率為720p。
除了強(qiáng)大的基準(zhǔn)性能,InfinityStar還展現(xiàn)出了驚人的零樣本(Zero-shot)泛化能力。
盡管模型只在文本到視頻的數(shù)據(jù)上進(jìn)行了訓(xùn)練,但它能夠自然地擴(kuò)展到視頻續(xù)寫和圖像生成視頻等任務(wù)。

給定一段5秒的參考視頻,模型可以流暢地將其續(xù)寫到20秒。視頻中的核心運(yùn)動模式,比如人物的行走姿態(tài)、手勢的細(xì)微變化,都保持了高度的連貫性,語義漂移被控制在了極低的水平。

在I2V任務(wù)中,模型能夠同時滿足首幀圖像信息和文本指令。無論是貓頭鷹在空中飛翔,還是滑雪者在雪地轉(zhuǎn)彎,生成的視頻都自然且物理合理,并且能夠很好地執(zhí)行復(fù)雜的相機(jī)運(yùn)動指令,比如跟隨拍攝或低角度拍攝。
在技術(shù)指標(biāo)上,其零樣本I2V的時序一致性得分高達(dá)0.91,與那些經(jīng)過專門監(jiān)督微調(diào)的模型相比,差距在3%以內(nèi)。
最后,是效率的對比。

單張英偉達(dá)A100 GPU上,生成一段5秒鐘、720p分辨率(81幀)視頻的端到端延遲,這個時間包含了文本編碼、token生成和VAE解碼的所有環(huán)節(jié)。
頂尖的擴(kuò)散模型Wan 2.1耗時1864秒,超過了30分鐘。
優(yōu)秀的自回歸模型Nova生成480p視頻需要354秒,接近6分鐘。
而InfinityStar,只需要58秒。
它實現(xiàn)了相對于擴(kuò)散模型超過32倍的加速,相對于同類自回歸模型超過6倍的加速。
這種效率的來源在于,InfinityStar的自回歸步數(shù)K只有26步,每一步都可以并行預(yù)測數(shù)千個token。其總計算量,大約只相當(dāng)于擴(kuò)散模型單次UNet前向傳播的十分之一。
走向無限長的交互式生成
為了讓模型能夠支持更具想象力的長交互視頻生成,團(tuán)隊還專門訓(xùn)練了一個名為InfinityStar-Interact的擴(kuò)展模型。

直接訓(xùn)練一個能夠處理超長序列的模型是不可行的,會因為顯存溢出而失敗。
因此,模型采用了一種5秒滑動窗口的訓(xùn)練策略,窗口的步長為2.5秒,這樣視頻就被切分成了相互重疊的片段。
在訓(xùn)練時,模型每次只看到一對相鄰的片段。但在推理時,這種機(jī)制可以被無限地擴(kuò)展下去。
為了抑制在多輪交互后可能出現(xiàn)的語義漂移,模型在生成時,會始終將最早片段的首幀作為一個全局的視覺參考。
同時,為了在保持跨片段一致性的同時降低交互延遲,系統(tǒng)還設(shè)計了一種語義-細(xì)節(jié)雙分支條件機(jī)制。
語義分支會將前一個片段的特征圖在空間上進(jìn)行32倍的下采樣,將其壓縮成一個高度濃縮的摘要信息。
細(xì)節(jié)分支則只從前一個片段中,切片最后幾幀的高分辨率特征,用于保證幀與幀之間的平滑過渡。
通過這種方式,作為條件的token總數(shù)從33.6K個大幅降低到了5.8K個,使得交互延遲減少了5倍。

實驗證明,如果沒有這個雙分支條件,僅僅依賴末幀作為基線條件,生成到第四個片段時,視頻中人物的面部ID已經(jīng)發(fā)生了明顯變化。
而雙分支條件則能很好地保持ID的一致性,動作銜接的像素誤差小于2個像素。
當(dāng)然,InfinityStar目前也存在一些技術(shù)局限性。
在高動態(tài)場景中,模型有時需要在保證運(yùn)動連貫性和維持圖像紋理細(xì)節(jié)之間做出權(quán)衡,這會導(dǎo)致圖像質(zhì)量指標(biāo)約1.5dB的下降。
模型的參數(shù)規(guī)模目前為8B,相比大參數(shù)模型,還有巨大的成長空間。
在長交互生成中,誤差累積的現(xiàn)象依然存在。大約10輪交互之后,視頻質(zhì)量會出現(xiàn)約12%的下降,表現(xiàn)為輕微的結(jié)構(gòu)抖動和顏色漂移。
通過時空金字塔建模、知識繼承分詞器、隨機(jī)量化器深度、語義尺度重復(fù)和時空稀疏注意力這五項核心技術(shù),InfinityStar構(gòu)建了首個能夠支持720p工業(yè)級視頻生成的離散自回歸框架。
它在推理速度上,實現(xiàn)了數(shù)量級的提升,將視頻生成帶入了分鐘級時代。




































