圖像編輯新神器:英偉達用拍電影思維解決圖像編輯與世界模擬一致性難題
AI圖像編輯領域,編輯前后保持一致性,一直是非常棘手的難題,尤其是物理一致性。
例如:Change the vehicle in the picture to be set in a beach environment(將圖片中的車輛更改為在海灘環境中)。

FLUX.1 [Dev],OmniGen2,Qwen-Image得到的結果分別是這樣的:

NVIDIA和多倫多大學的研究者們提出了一個絕妙的想法:假如我們不把圖像編輯看作是修改一張靜態圖片,而是看作在拍攝一部只有兩幀的微型電影呢?

這個想法催生了ChronoEdit框架。結果立馬見效:

ChronoEdit框架將輸入圖像視為電影的第一幀,將編輯后的理想圖像視為最后一幀。
通過這個簡單的視角轉換,圖像編輯這個經典難題,瞬間變成了一個視頻生成問題。
這使得模型可以借助大規模視頻生成模型中早已學到的時間連續性知識,來確保編輯過程符合物理規律,讓P圖不再翻車。
圖像編輯的物理學難題
今天的圖像編輯技術,在生成模型的驅動下已經變得異常強大。我們可以用一句話讓圖片里的白天變為黑夜,或者讓空無一物的桌子上出現一個蛋糕。
但這種強大背后,隱藏著一個深刻的缺陷:物理一致性的缺失。
物理一致性,通俗地講,就是編輯結果必須尊重現實世界的基本規律。一個被編輯的物體,應當保持它原有的核心屬性,比如幾何形狀、材質和顏色。更重要的是,編輯所引發的變化,必須是連貫且合理的。
比如,你要求模型將這輛車向前移動一點,一個缺乏物理常識的模型可能會拉長車身、扭曲輪胎,或者干脆生成一個不合邏輯的影子。它只是在像素層面理解了向前,卻沒有理解移動這個動作背后所蘊含的一整套物理約束。
這些失敗的根源在于,現有方法大多是純粹由數據驅動的。
它們學習了海量圖像中的關聯性,卻缺乏一種內在機制來強制編輯過程的連續性。這導致它們很容易產生一些看似合理,實則違反物理定律的漂移編輯。
在娛樂應用中,這或許只是個小瑕疵。
但在自動駕駛、機器人技術或科學模擬等嚴肅領域,物理一致性是不可逾越的紅線。一個錯誤的模擬結果,可能會直接影響下游系統的決策與安全。
大規模視頻生成模型的出現帶來了新的曙光。
這些模型在訓練中看過了不計其數的視頻,天生就具備在連續幀之間保持物體結構和外觀一致的強大能力。這種能力,就是一種內隱的時間先驗。
ChronoEdit正是抓住了這一點,它沒有重新發明輪子,而是巧妙地將視頻模型的這種時間感知能力,嫁接到圖像編輯任務上,構建了一個為物理一致性而生的基礎模型。
將編輯變成一部微型電影
ChronoEdit的核心設計,可以用一句話概括:將預訓練的圖像到視頻(I2V)模型,重新用于圖像編輯。

這個過程的第一步,是將編輯任務巧妙地重構為一個兩幀視頻生成問題。
當用戶提供一張輸入圖像和一條編輯指令時,ChronoEdit并不直接去修改這張圖。它將輸入圖像建模為視頻序列的第0幀,而將期望的輸出圖像建模為序列的第T幀。
通過這種方式,模型的任務不再是修改,而是預測中間過程。它需要想象出一個從第0幀到第T幀的合理演變路徑。當模型用精心策劃的圖像編輯數據進行微調后,這種兩幀的設定賦予了視頻模型強大的編輯能力,同時完美地保留并利用了其預訓練中獲得的時間先驗,以確保物體保真度。
對于那些對時間連貫性要求極高的世界模擬任務,例如動作編輯(讓這個人舉起手),ChronoEdit更進一步,引入了時間推理機制。
這個機制讓編輯過程在推理時被顯式地引導。
模型不再是直接從第一幀跳到最后一幀,而是主動地去想象并生成一系列中間過渡幀。這些中間幀就像一個思維草稿,規劃了編輯應該如何一步步展開。
這些中間幀在技術上被稱為時間推理token。它們與輸入幀、目標幀一起,在一個聯合去噪的過程中被處理。這個過程強迫模型去思考一個物理上可行的變換軌跡,從而將解空間限制在合理范圍內,最終產生更符合物理規律的編輯結果。
具體到技術實現上,ChronoEdit建立在一種名為整流流(Rectified Flow)的視頻生成模型之上。
這類模型通常使用一個預訓練的變分自編碼器(VAE)將高維的像素視頻壓縮成緊湊的潛在表示。所有核心的訓練和推理都在這個低維的潛在空間中進行,最后再由解碼器重建為像素視頻。
為了處理時間結構,ChronoEdit利用了一種因果視頻VAE。它會獨立編碼第一幀,然后根據前一幀的潛在信息來壓縮后續的視頻塊。
當處理一個編輯對(輸入圖像c,輸出圖像p)時,ChronoEdit會將它們重新解釋為一個極短的視頻序列。輸入圖像c被編碼為第一個潛在幀zc。而輸出圖像p則被重復四次,以匹配視頻VAE 4倍的時間壓縮率,然后編碼為潛在幀zp。
這樣就得到了兩個在結構上與視頻模型完全對齊的時間潛在變量。為了讓模型明確感知它們在時間上的分離,ChronoEdit還通過調整模型的3D分解旋轉位置嵌入(RoPE),將輸入圖像錨定在時間步0,將輸出圖像錨定在預設的時間步T。
時間推理token的引入,是ChronoEdit超越傳統輸入輸出映射的關鍵。模型的目標不再是單步內憑空生成目標圖像,因為這往往會導致突兀和不連貫的變化。通過推理中間狀態,模型能更好地保持物體的身份、幾何形狀和物理連貫性。
實踐中,ChronoEdit在代表輸入圖像的zc和代表輸出圖像的zp之間,插入了若干個中間潛在幀。這些幀在初始時被填充為隨機噪聲,然后與輸出幀的潛在變量zp一同參與去噪過程。它們扮演了中間向導的角色,幫助模型思考出一條合理的變換路徑。
這種設計還帶來一個巨大的優勢:訓練框架的統一。無論是處理圖像編輯對,還是處理完整的視頻序列,模型都可以用同一種方式進行訓練。
對于圖像編輯數據,每一對樣本(輸入圖c,輸出圖p,指令y)都被看作一個兩幀視頻,模型直接學習如何根據指令完成編輯。
對于視頻數據,其結構與推理token的設計完全匹配:視頻的第一幀對應輸入c,最后一幀對應輸出p,所有中間幀則自然地成為時間推理token。
這種設計讓推理token在推理時成為一個可選項,即便沒有它們,解碼器也能獨立恢復目標幀。而當它們存在時,又能為模型提供強大的連貫性轉換監督。
這種圖像對與視頻的聯合訓練策略,讓ChronoEdit得以兩全其美。它能從海量的圖像對中學習到豐富的語義對齊能力(即理解指令),同時又能從視頻數據中學習到寶貴的時間一致性。
當然,要讓模型學會思考演變過程,就需要給它看足夠多、足夠好的范例。
為此,ChronoEdit團隊策劃并生成了一個包含140萬個視頻的大規模合成數據集。這個數據集特別強調將場景動態與相機運動解耦,因為在訓練中,如果第一幀和最后一幀之間發生了意外的視角變化,模型很可能會將其誤解為一種編輯效果。
這個精心策劃的視頻語料庫涵蓋了三個互補的類別:
- 靜態相機、動態物體的片段。這類視頻由文本到視頻模型生成,并在提示中特別加入了整個視頻中相機保持靜止的約束。
- 以自我為中心的駕駛場景。這是世界模擬中的一個關鍵場景,利用了能夠固定相機、同時通過邊界框精確控制車輛運動的專用模型生成。
- 動態相機、靜態場景的片段。這類視頻允許精確控制相機軌跡,同時保持場景內容不變。
為了給這些視頻配上相應的編輯指令,ChronoEdit使用了一個視覺語言模型(VLM)為每個視頻自動生成描述,總結從第一幀到最后一幀發生的變化。
在推理執行編輯時,ChronoEdit也設計了一套高效的兩階段方法。它允許模型從時間推理token中獲益,又不必承擔生成完整視頻的全部計算開銷。
直覺上,一個生成過程(無論是擴散還是流模型)的最初幾個步驟,在最嘈雜的狀態下,決定了最終結果的全局結構。
因此,ChronoEdit只在最開始的若干個去噪步驟中加入視頻推理token,讓它們在最關鍵的時刻發揮作用。在后續的去噪步驟中,則省略它們,以在質量和計算成本之間取得最佳平衡。
為了進一步提速,ChronoEdit還采用了蒸餾技術。
它使用一種名為DMD的損失函數,訓練了一個僅需8步就能完成推理的學生模型。經過蒸餾后,模型在保持高質量編輯效果和指令遵循能力的同時,推理速度得到了顯著提升。
現有的圖像編輯基準,大多關注視覺保真度和指令遵循度,很少有專門評估物理一致性的。為了彌補這一空白,ChronoEdit團隊引入了一個名為PBench-Edit的全新基準。
PBench-Edit源自一個專門用于評估物理世界模型的PBench數據集。原數據集涵蓋了自動駕駛、機器人、物理學和常識推理等多個領域。
PBench-Edit從中精選出代表性的視頻幀,并為它們手工制作并驗證了編輯指令,從而構建了一個既多樣化又植根于物理現實的評測集。
與其它偏向于簡單動作的基準不同,PBench-Edit覆蓋了更廣泛的真實世界交互,如烹飪、駕駛和機器人操作。
它總共包含了271個高質量的圖像編輯對。
評估時,同樣使用GPT-4.1作為裁判,從指令遵循度、編輯質量和細節保留度三個維度進行打分。
用數據說話的卓越性能
ChronoEdit在實驗中展現了其強大的能力。模型分為140億參數的ChronoEdit-14B和20億參數的ChronoEdit-2B兩個版本。

在通用的圖像編輯基準ImgEdit上,ChronoEdit-14B(在禁用時間推理以保證公平比較的情況下)獲得了4.42的最高總分,優于所有最先進的基線模型。
尤其是在需要空間和結構推理的提取、移除等任務上,其優勢尤為明顯。這表明,即便是基礎的圖像視頻聯合預訓練,也能為模型帶來強大的動態一致性和場景轉換建模能力。
經過蒸餾加速的ChronoEdit-14B-Turbo版本,推理速度比原版快了6倍(在兩塊NVIDIA H100 GPU上,每張圖僅需5秒),得分僅略微下降,但仍然大幅超越了同級別的其它模型。
當戰場轉移到強調物理一致性的PBench-Edit基準上時,ChronoEdit的優勢變得更加突出。

ChronoEdit-14B獲得了4.43的最高總分。最值得關注的是動作保真度這一項,它直接反映了模型在執行涉及真實世界交互的編輯時,保持物理一致性的能力。在這個維度上,ChronoEdit-14B明顯優于其它所有純圖像編輯模型。
當開啟了時間推理功能后,ChronoEdit-14B-Think(即會思考的版本)更是將總分提升到了4.53,動作保真度得分也隨之大幅增長。這清晰地證明了顯式時間推理對于理解和執行物理編輯的巨大價值。
一個有趣的發現是,即便在總共50個采樣步中,只在前10步使用時間推理(Nr=10),其性能也與全程使用推理相當,而計算開銷僅增加了不到5秒。這說明了ChronoEdit兩階段推理策略的有效性。
更令人印象深刻的是,ChronoEdit能夠可視化其思考過程。如果將那些作為中間狀態的推理token也完全去噪并解碼成圖像,我們就能看到一條完整的推理軌跡。

如圖所示,當被要求在長椅上添加一只貓時,模型并沒有直接畫出一只貓。它的推理軌跡顯示:首先,場景中的長椅被合成出來;然后,一只貓從角落出現,并以一個合理的跳躍動作登上了長椅。整個過程由一系列連貫的中間狀態組成,仿佛一部微型動畫。
我們來看看ChronoEdit的編輯效果。






Restore the Winged Victory of Samothrace by adding a realistic classical head and arms
ChronoEdit用一個優雅的視角轉換,將圖像編輯的物理一致性難題,轉化為其擅長的視頻生成問題,并引入時間推理機制讓模型學會思考變換過程。
它不僅在通用編輯任務上達到了頂尖水平,更在需要物理常識的世界模擬場景中展現了無與倫比的優勢。































