上下文即記憶!港大&快手提出場景一致的交互式視頻世界模型,記憶力媲美Genie3,且更早問世!
AI生成的人物和場景轉頭就變樣,缺乏一致性?
nonono,這回不一樣了,康康下面的demo!
游戲地圖:《塞爾達傳說》中的綠色田野

建筑:《黑神話悟空》里的廢棄寺廟

角色模型:《原神》里的云堇

無論鏡頭怎么晃,場景里的元素都乖乖不動,一致性滿分。
這一驚艷效果就來自香港大學和快手可靈的研究團隊提出的全新框架——“上下文即記憶”(Context-as-Memory)。

該方法直接將完整的歷史上下文幀(context frames)作為記憶,并通過記憶檢索高效利用相關歷史幀,極大地優化了交互式長視頻生成中的場景一致性。
他們是怎么做的?快來一起看看吧。
上下文記憶與記憶檢索
在聊新方法之前,咱們先來簡單梳理一下視頻生成里的兩類“記憶”類型:
一類是處理短期運動和行為模式的動態記憶,例如視頻中的角色動畫、車輛軌跡、粒子效果以及天氣變化等。
另一類就是這篇論文針對的靜態記憶,包括場景級和物體級的記憶,例如游戲地圖、建筑、角色模型和物體外觀。
明確了動態與靜態記憶的區別后,我們就可以更清晰地理解本論文提出的核心思路:Context-as-Memory。
總體來看,Context-as-Memory的核心思想有以下三點:
- 長視頻生成需要長期的歷史記憶:為了保持長時間的場景一致性,模型不能只依賴最近的幾幀。
- 記憶檢索是關鍵:直接使用所有歷史幀成本太高,需要一個“記憶檢索”模塊來智能地從無限的歷史上下文中篩選出真正有用的信息。
- 上下文記憶:通過將篩選出的上下文幀(作為記憶)直接拼接在輸入中,模型可以在生成新幀時參考這些歷史信息,從而實現場景的一致性。

具體來說,模型從一個無限長度的歷史上下文中開始,利用一個“記憶檢索”模塊從中篩選出那些真正有用的、與當前生成最相關的上下文幀。
這些被篩選出的上下文幀隨后與帶噪聲的待預測幀拼接在一起,作為核心的“自回歸視頻擴散Transformer”的輸入。
模型處理這個拼接后的輸入,利用歷史記憶作為條件來指導去噪過程,最終生成一系列最新的預測幀。
通過這種方式,Context-as-Memory避免了直接處理全部歷史上下文的巨大計算開銷,同時也避免了僅依賴短期上下文導致場景不一致的問題,從而實現了高效且具有場景連貫性的長視頻生成。
那么,模型是如何進行幀選取,從而進行記憶檢索的呢?
在這里,研究提出了一個不同于隨機、就近選取與壓縮的方法——基于攝像機軌跡搜索。

這一方法通過已知的攝像機軌跡,選擇與當前生成幀可視區域高度重疊的上下文幀。 通過計算過去幀和未來幀之間的視場重疊,并僅選擇重疊度較高的幀作為上下文,從而能在保證計算效率的同時,也保持一致性。
此外,為了獲取包含攝像機位姿標注的視頻數據,團隊還利用Unreal Engine 5制作了一個包含長時序視頻、攝像機位姿和字幕標注的數據集。
這一數據集包含100個視頻,共涵蓋12種不同風格的場景。每個視頻由7601幀組成,并且每隔77幀就由一個多模態大模型生成對應的字幕。
值得注意的是,正如我們在開頭的demo中所見,攝像機的運動僅表現為左右搖鏡。這一設計是為了簡化位姿處理,將攝像機的控制限制在二維平面上,包括xy方向上移動以及z軸上的旋轉。
實驗結論
為了評估Context-as-Memory方法,研究團隊在相同的基礎模型、數據集和訓練配置下將其與下列視頻生成方法進行了對比。
- 單幀上下文:只用第一幀作為上下文。
- 多幀上下文:用第一幀+隨機選取的歷史幀。
- DFoT:固定大小的窗口,只利用最近的20幀。
- FramePack:把歷史上下文層級壓縮成兩幀,每次壓縮把幀的高或寬減半。

實驗結果表明,Context-as-Memory方法在記憶能力和生成質量上都顯著優于基線和SOTA方法,這表明它能夠有效利用歷史上下文,避免冗余和歷史信息丟失,從而保持長視頻生成的一致性。
最后,為了測試方法的泛化性,團隊還從互聯網選取了不同風格的圖像作為首幀來生成長視頻,并采用“旋轉遠離再旋轉返回”(左右搖鏡)的軌跡進行驗證。

研究結果表明,在開放域場景中,Context-as-Memory也展現出了強大的記憶能力。
One More Thing
這篇論文由香港大學、浙江大學和快手可靈團隊聯合完成,這篇論文的第一作者余濟聞,是香港大學的在讀博士生,師從劉希慧教授。目前,他在快手可靈團隊擔任研究實習生,接受王鑫濤博士的指導。

在此之前,他曾在北京大學獲得碩士學位,師從張健教授。
值得一提的是,這篇關于“上下文記憶”的工作,是他在交互式視頻生成、世界模型和具身人工智能方向上的延續。
他此前在視頻生成與世界模型方向的研究成果GameFactory: Creating New Games with Generative Interactive Videos,曾入選ICCV 2025Highlight。

































