AAAI 2026|教會視頻擴散模型「理解科學現象」:從初始幀生成整個物理演化
近年來,Stable Diffusion、CogVideoX 等視頻生成模型在自然場景中表現驚艷,但面對科學現象 —— 如流體模擬或氣象過程 —— 卻常常 “亂畫”:如下視頻所示,生成的流體很容易產生違背物理直覺的現象,比如氣旋逆向旋轉或整體平移等等。
上述問題的根源在于,這些模型缺乏對科學規律的內在理解。它們學習到的只是像素分布,而非支配這些分布的動力學方程。更糟的是,科學數據具有稀缺性,且缺少語言描述(不像 “a dog is running” 那樣易于提示),導致傳統 “文本提示 — 圖像生成” 范式在科學視頻生成任務中失效。

現有的視頻擴散模型與本文新方法的生成效果對比
因此,在擴散模型不斷重塑視覺生成的今天,一個全新的問題正在浮現:當 AI 可以生成炫麗的自然視頻時,是否也能推演 “真實的科學現象”
這正是來自東方理工與上海交大的研究團隊在最新研究中提出的挑戰。他們在一篇新論文中,提出了一種讓視頻擴散模型學習 “潛在科學知識” 的全新框架,使模型在給定一幀初始圖像的情況下,可以生成更為貼近物理規律的科學現象演化過程 —— 例如流體運動、臺風路徑、湍流結構等。

- 論文標題:Latent Knowledge-Guided Video Diffusion for Scientific Phenomena Generation from a Single Initial Frame
- 論文地址:https://arxiv.org/abs/2411.11343
不同于以往依靠語言提示或大規模視覺數據的生成方式,這項方法讓模型在 “看懂科學” 的基礎上自己推演后續的演化軌跡,在生成式 AI 中注入了 “物理直覺(physical intuition)”。該研究已被人工智能頂會 AAAI 2026 正式接收。

圖一:整體算法框架。該方法通過參數高效的微調將潛在的物理現象知識融入視頻擴散模型中,從而在數據受限的場景下實現更貼近物理規律的視頻生成。
方法介紹
如圖一所示,整個方法核心可分為三步:潛在知識提取 → 偽語言提示生成 → 知識引導視頻生成。
第一步:從一幀中提取 “潛在科學知識”
研究的起點是極具挑戰性的設定:模型只能獲得一幀初始圖像。在這種情況下,它需要有“潛在科學知識”,從而“推斷”出后續的動態演化。為此,作者設計了兩種互補的知識提取模塊:
- 靜態知識(Static Knowledge)—— 通過預訓練的 Masked Autoencoder (MAE) 提取。這一步相當于讓模型 “看懂” 一幀圖像中隱含的結構規律,例如流場初始條件、溫度梯度、云層形態等。不同于一般視覺自監督方法中隨意的旋轉、噪聲擾動,研究者刻意避免破壞物理連續性的增強方式,使 MAE 能在 “科學一致性” 條件下學習。
- 動態知識(Dynamic Knowledge)— 通過 光流預測網絡(Optical Flow Predictor, OFP) 提取,用以捕捉物理系統的運動趨勢,如流體方向或旋渦遷移。這一模塊讓模型 “想象” 科學現象的運動軌跡,從而獲得對動力學過程的隱式理解。通過這兩個模塊,模型獲得了一種 “潛在物理直覺”:它不僅看到靜態狀態,還能感受到變化的方向。
第二步:讓科學知識 “說話”—— 偽語言提示生成
擴散模型通常依賴文字提示(prompt)來控制生成,但在科學領域,“語言提示” 很難準確定義。例如,用自然語言準確描述 “一個雷諾數為 10? 的流場如何演化”就極為困難。為此,研究者創新性地利用了 CLIP 模型的跨模態對齊特性。他們將前一步提取的視覺特征與科學知識特征輸入 CLIP 的視覺空間中,并通過一種四元數網絡(Quaternion Network)進行投影,把這些潛在特征轉換成偽語言提示嵌入(pseudo-language embeddings)。
這一步的關鍵思想是,避開文字局限,通過跨模態特征對齊與多維信息融合,使科學知識轉化為可被擴散模型解析的引導信號。四元數網絡使模型能在多維空間中同時處理圖像、靜態知識、動態知識與頻率信息,從而生成能夠引導擴散模型的語義性信號。研究者還將頻域(Frequency Domain)特征注入提示生成過程,讓模型在 “空間-頻率” 兩個維度理解科學規律。
第三步:知識引導下的視頻生成
在擁有這些 “偽語言提示” 后,研究者將其注入 Stable Video Diffusion (SVD) 或 CogVideoX 的注意力層,通過 LoRA(Low-Rank Adaptation) 的方式進行輕量微調。
在訓練階段,模型從真實的科學視頻(如流體仿真、臺風演化)中學習如何從噪聲逐步重建出物理一致的視頻序列;在推理階段,它只需要輸入一幀圖像,就能借助潛在知識推演出整個動態過程 —— 實現從 “初態” 到 “演化” 的全程科學生成。這種機制讓模型不再僅僅是圖像生成器,而是一個能夠模擬科學規律的世界現象生成器(World Phenomena Simulator)。
模型結果
研究團隊在流體力學仿真數據和真實臺風觀測數據上進行了大規模實驗,結合數值精度指標和物理精度指標進行評估。該模型的輸出不僅呈現效果更優,更關鍵的是,它生成得更 “科學”。
在實驗中,研究者分別使用了四種典型的流體模擬場景:Rayleigh-Bénard Convection(瑞利 - 貝納德對流)、Cylinder Flow(圓柱繞流)、DamBreak(潰壩流)和 DepthCharge(深水爆炸 / 水下爆炸)。這些都是流體力學中經典而復雜的物理過程。此外,研究者還將方法應用于真實衛星觀測的臺風數據,選取了 4 個臺風事件(202001、202009、202102、202204),讓模型在僅看到一幀初始衛星圖像的情況下,推演整個風暴演化。

圖二:臺風現象生成效果對比。


圖三:流體現象生成效果對比。
定性上看,如圖二和圖三所示,傳統視頻擴散模型(如 Stable Video Diffusion 或 CogVideoX)往往會 “畫出” 違背物理規律的畫面。在相同的初始幀下,傳統模型生成的流體場常出現 “靜止渦旋” 或 “反重力液面”,而本研究的模型則能自然還原出連續的流動與下泄過程。現有模型生成的臺風中心漂移、風眼逆轉、云層斷裂;而新方法生成的視頻不僅結構連貫,而且旋轉方向、云帶卷吸、能量分布都更好的保持了物理合理性。

表一:對流體模擬數據(左)和真實臺風數據(右)進行定量評估。
定量上評估,除了傳統的 RMSE 和 SSIM 指標,為了驗證生成結果是否 “符合科學”,研究團隊設還基于六項物理一致性指標,從不同角度評估生成視頻是否尊重物理規律:
- RMSE:像素層誤差,衡量整體偏差;
- SSIM:結構相似性,衡量圖像紋理保持程度;
- SFE(Stream Function Error):流函數誤差,檢驗流體走向與真實場是否一致;
- SE(Smoothness Error):平滑度誤差,考察流場演化是否連貫;
- GS(Gradient Smoothness):梯度平滑度,評估空間變化是否自然;
- CS(Continuity Score):連續性得分,檢驗是否違反質量守恒;
- QCE(Q-Criterion Error):渦度判據誤差,衡量渦旋結構是否被保持;
- VE(Vorticity Error):旋渦誤差,檢查流體旋轉強度的一致性。
如表一所示,在所有這些指標上,新模型都顯著超越了主流方法。例如,在流體模擬任務中,Q-Criterion 誤差降低了一個數量級,意味著生成視頻的渦旋結構具有更強的物理一致性;而在臺風預測任務中,SSIM 提升超過 10%,RMSE 降低 20% 以上,證明生成結果更加貼近真實觀測。
總結
綜上所述,這項研究展示了生成式 AI 在科學建模方向上的一次有意義的探索。通過讓視頻擴散模型學習潛在的科學知識,研究團隊讓 AI 不再只是 “畫出” 自然現象,而能 “推演” 出它們的演化邏輯。
在從一幀圖像生成出完整科學過程的同時,模型也學會了遵守能量守恒、流體連續性等自然規律。需要明確的是,由于缺少未來邊界條件等約束信息,其生成的并非未來真實發展的唯一結果,而是物理上可行的解。這種從 “視覺生成” 到 “科學生成” 的轉變,意味著生成模型開始具備理解物理世界的潛能。
未來,這一方向有望在氣象預測、流體仿真、地球系統建模等領域發揮更大作用,讓 AI 真正成為科學家的助手,而不僅是藝術家的畫筆。





































