上下文記憶力媲美Genie3,且問世更早:港大和可靈提出場景一致的交互式視頻世界模型
要讓視頻生成模型真正成為模擬真實物理世界的「世界模型」,必須具備長時間生成并保留場景記憶的能力。然而,交互式長視頻生成一直面臨一個致命短板:缺乏穩定的場景記憶。鏡頭稍作移動再轉回,眼前景物就可能「換了個世界」。
這一問題嚴重制約了視頻生成技術在游戲、自動駕駛、具身智能等下游應用的落地。8 月初,Google DeepMind 發布的 Genie 3 引爆 AI 圈,以其在長視頻生成中依舊保持極強場景一致性的能力,被視為世界模型領域的質變之作。不過遺憾的是,Genie 3 并未公開任何技術細節。
來自港大和快手可靈的研究團隊近期發表的 Context as Memory 論文,可能是目前學術界效果上最接近 Genie 3 的工作,且投稿時間早于 Genie 3 的發布。早在此前研究中,團隊就發現:視頻生成模型能夠隱式學習視頻數據中的 3D 先驗,無需顯式 3D 建模輔助,這與 Genie 3 的理念不謀而合。如下是一個結果展示:

技術上,團隊創新性地提出將歷史生成的上下文作為「記憶」(即 Context-as-Memory),利用 context learning 技術學習上下文條件,從而在整段長視頻生成中實現前后場景一致性。
進一步地,為了高效利用理論上可無限延長的歷史幀序列,論文提出了基于相機軌跡視場(FOV)的記憶檢索機制(Memory Retrieval),從全部歷史幀中篩選出與當前生成視頻高度相關的幀作為記憶條件,大幅提升視頻生成的計算效率并降低訓練成本。
在數據構建上,團隊基于 Unreal Engine 5 收集了多樣化場景、帶有精確相機軌跡標注的長視頻,用于充分訓練和測試上述技術。用戶只需提供一張初始圖像,即可沿設定的相機軌跡自由探索生成的虛擬世界。

- 論文標題:Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval
- 項目主頁:https://context-as-memory.github.io/
- 論文地址:https://arxiv.org/pdf/2506.03141
Context as Memory 能力展示


從上述視頻可以觀察到,Context as Memory 可以在幾十秒的時間尺度下保持原視頻中的靜態場景記憶力,并在不同場景有較好的泛化性。
更多示例請訪問項目主頁:https://context-as-memory.github.io/
Context as Memory 創新點
研究者表示,Context as Memory 的主要創新點為:
- 我們提出了 Context as Memory 方法,強調將歷史生成的上下文作為記憶,無需顯式 3D 建模即可實現場景一致的長視頻生成。
- 為了高效利用歷史上下文,我們設計了 Memory Retrieval 方法,采用基于視場(FOV)重疊的相機軌跡規則進行動態檢索,顯著減少了需要學習的上下文數量,從而提高了模型訓練與推理效率。
- 實驗結果表明,Context as Memory 在長視頻生成中的場景記憶力表現優越,顯著超越了現有的 SOTA 方法,并且能夠在未見過的開放域場景中保持記憶。
Context as Memory 算法解讀

如上圖(a)所示,Context-as-Memory 的長視頻生成是通過基于 Context learning 的視頻自回歸生成來實現的,其中,所有歷史生成的視頻幀作為 context,它們被視為記憶力的載體。
進一步地,如上圖(b)所示,為了避免將所有歷史幀納入計算所帶來的過高計算開銷,提出了 Memory Retrieval 模塊。該模塊通過根據相機軌跡的視場(FOV)來判斷預測幀與歷史幀之間的重疊關系,從而動態篩選出與預測視頻最相關的歷史幀作為記憶條件。此方法顯著減少了需要學習的上下文數量,大幅提高了模型訓練和推理的效率。
Context as Memory 實驗結果

在實驗中,研究者將 Context-as-Memory 與最先進的方法進行了比較,結果表明,Context-as-Memory 在長視頻生成的場景記憶力方面,相較于這些方法,表現出了顯著的性能提升。
總結
在本文中,研究者提出了 Context-as-Memory,一種能夠實現靜態場景記憶的交互式長視頻生成模型。Context-as-Memory 的核心創新在于,提出了一種無需顯式 3D 建模,僅通過對歷史上下文學習,即可使視頻生成模型具備 3D 一致性的理解與生成能力。此外,Memory Retrieval 模塊的提出進一步減少了需要學習的上下文數量,大大提高了模型在訓練和測試階段的效率。
團隊近期在世界模型與交互式視頻生成領域已經積累了多篇研究成果。其中包括整理了交互式視頻生成領域工作的綜述論文和觀點論文,系統性地總結了該領域的發展現狀,還提出了世界模型的五大基礎能力模塊:Generation,Control,Memory,Dynamics 以及 Intelligence。這一框架為后續基礎世界模型的研究指明了方向,具有很高的學習與參考價值。在該框架指導下,團隊不僅提出了專注于 Memory 能力的 Context-as-Memory 工作,還在 ICCV 2025 上發表了 GameFactory 論文。GameFactory 聚焦于世界模型的可泛化開放域控制能力,能夠生成無限可交互的新游戲,并被選為 Highlight 論文。


































