Self-Forcing++:讓自回歸視頻生成模型突破 4 分鐘時長極限
本工作由加州大學(xué)洛杉磯分校與字節(jié) Seed 等團(tuán)隊聯(lián)合完成。
在擴(kuò)散模型持續(xù)引領(lǐng)視覺生成浪潮的今天,圖像生成早已臻于極致,但視頻生成仍被一個關(guān)鍵瓶頸困住——時長限制。目前多數(shù)模型還停留在數(shù)秒短視頻的生成,Self-Forcing++ 讓視頻生成首次跨入 4 分鐘高質(zhì)量長視頻時代,且無需任何長視頻數(shù)據(jù)再訓(xùn)練。先展示一段 100 秒的生成視頻:

- 論文標(biāo)題:Self-Forcing++: Towards Minute-Scale High-Quality Video Generation
- 論文地址:https://arxiv.org/abs/2510.02283
- 項目主頁: https://self-forcing-plus-plus.github.io
- 代碼:https://github.com/justincui03/Self-Forcing-Plus-Plus

研究背景:為什么長視頻生成如此困難?
在擴(kuò)散模型驅(qū)動的視覺生成領(lǐng)域,從 Sora、Wan、Hunyuan-Video 到 Veo,視頻模型正不斷逼近真實(shí)世界。然而幾乎所有主流模型都有一個共同限制:只能生成數(shù)秒的短片段。
這背后的原因在于架構(gòu)層面的「先天缺陷」:
- Transformer 的非因果性 —— 傳統(tǒng)擴(kuò)散 Transformer (DiT) 需要同時看到所有幀,無法自然地逐幀擴(kuò)展;
- 訓(xùn)練-推理不匹配 —— 模型在訓(xùn)練時只見過 5 秒短片,卻在推理時要生成幾十秒甚至幾分鐘;
- 誤差累積 —— 教師模型在每一幀提供強(qiáng)監(jiān)督,但學(xué)生模型在長序列中沒有應(yīng)對逐步誤差的能力;
- 過曝與凍結(jié) —— 長時間生成后常出現(xiàn)畫面靜止、亮度漂移、運(yùn)動中斷等「災(zāi)難性崩塌」。
這些問題共同導(dǎo)致:即使最先進(jìn)的自回歸視頻擴(kuò)散模型,也難以在 10 秒以上保持畫面一致與運(yùn)動連貫。
核心思想:教師模型即世界模型
Self-Forcing++ 的關(guān)鍵洞察是:
教師模型雖然只會生成 5 秒視頻,但它依然掌握糾錯長視頻失真的能力。
研究者利用這一點(diǎn),讓學(xué)生模型先自己生成長視頻(即使這些視頻已經(jīng)開始「崩壞」),再用教師模型來糾正它的錯誤。
經(jīng)過這種「生成→失真→再糾錯→再學(xué)習(xí)」循環(huán),模型逐步學(xué)會了在長時間尺度下自我修復(fù)和穩(wěn)態(tài)生成。這一機(jī)制讓 Self-Forcing++ 無需任何長視頻標(biāo)注,就能把生成時長從 5 秒擴(kuò)展到 100 秒,甚至 4 分鐘 15 秒(達(dá)到位置編碼極限的 99.9%)。
技術(shù)解析:關(guān)鍵的三步讓模型穩(wěn)定生成超長視頻

1?? 反向噪聲初始化(Backward Noise Initialization)
在傳統(tǒng)短視頻蒸餾中,模型每次都從隨機(jī)噪聲生成。
Self-Forcing++ 改為在長視頻 roll-out 后,把噪聲重新注入到已生成的序列中,使后續(xù)幀與前文保持時間連續(xù)性。
這一步相當(dāng)于讓模型「重啟但不失憶」,避免時間割裂。
2?? 擴(kuò)展分布匹配蒸餾(Extended DMD)
作者將原本只在 5 秒窗口內(nèi)進(jìn)行的教師-學(xué)生分布對齊,擴(kuò)展為滑動窗口蒸餾:
學(xué)生先生成 100 秒長視頻 → 隨機(jī)抽取其中任意 5 秒片段 → 用教師分布校正該片段。
這樣,教師不必生成長視頻,也能「局部監(jiān)督」學(xué)生的長序列表現(xiàn),從而實(shí)現(xiàn)長期一致性學(xué)習(xí)。
3?? 滾動 KV 緩存(Rolling KV Cache)
以往自回歸模型(如 CausVid)在推理時使用滾動緩存,但訓(xùn)練時卻仍用固定窗口,造成嚴(yán)重偏差。
Self-Forcing++ 在訓(xùn)練階段也同步采用滾動緩存,實(shí)現(xiàn)真正的訓(xùn)練-推理對齊,徹底消除了「曝光漂移」和「幀重復(fù)」的問題。
進(jìn)一步優(yōu)化:強(qiáng)化學(xué)習(xí)加持的時間平滑
在部分極長視頻中,模型仍可能出現(xiàn)突然跳幀或場景突變。
研究者借鑒強(qiáng)化學(xué)習(xí)中的 Group Relative Policy Optimization (GRPO) 框架,引入光流平滑獎勵(Optical-Flow Reward),讓模型通過懲罰光流突變來學(xué)習(xí)更自然的運(yùn)動過渡。結(jié)果顯示:光流方差顯著下降,視頻流暢度顯著提升。整體的算法可以歸納為下面的流程。
實(shí)驗結(jié)果:在 50、75 和 100 秒的視頻生成評測上全面超越基線
?? 測試設(shè)置
- 模型規(guī)模:1.3B 參數(shù)(與 Wan2.1-T2V 相同)
- 對比方法:CausVid、SkyReels-V2、MAGI-1、Self-Forcing 等
- 評估指標(biāo):VBench + 新提出的 Visual Stability(視覺穩(wěn)定性)
?? 主要成果
以下表格展示的是在 VBench 上和使用 Gemini-2.5-pro (Visual Stability) 上的測試結(jié)果。


如下圖所示,在 0-100 秒的生成結(jié)果上,Self-Forcing++ 都能保持很好的穩(wěn)定性,基線模型大多數(shù)都會經(jīng)歷嚴(yán)重的質(zhì)量下降,比如過曝光和錯誤累積。

可視化展示:更多的超長視頻展示

在這些長視頻中,Self-Forcing++ 始終保持穩(wěn)定亮度與自然運(yùn)動,視覺效果幾乎無明顯劣化。
Scaling 現(xiàn)象:訓(xùn)練算力 ×25 → 255 秒視頻
作者進(jìn)一步探究「算力與時長」關(guān)系,在可視化生成過程中有以下發(fā)現(xiàn):

這說明可能無需長視頻數(shù)據(jù),只要擴(kuò)展訓(xùn)練預(yù)算,即可延展生成時長。
局限與展望
雖然自回歸視頻生成已經(jīng)能達(dá)到分鐘級別,但是目前依舊有以下問題有待提高:
- 長時記憶缺失:極長場景下,仍可能丟失被遮擋物體的狀態(tài);
- 訓(xùn)練效率較慢:自回歸訓(xùn)練成本高,比 teacher-forcing 訓(xùn)練速度慢。
更多演示視頻和我們的方法請參考我們的主頁。




































