編輯快到飛起!InstantEdit重構圖像編輯:文字描述秒變PS指令,原圖細節紋絲不動!

文章鏈接:https://arxiv.org/pdf/2508.06033
Git鏈接:https://github.com/Supercomputing-System-AI-Lab/InstantEdit

亮點直擊
- 少步高效編輯:首次在RectifiedFlow框架下實現8步高質量圖像編輯,速度接近實時交互需求。
- 創新反轉與生成技術:提出PerRFI和ILI,解決少步擴散模型的反轉不準確和生成不一致問題。
- 解耦與結構控制:通過DPG和ControlNet的聯合應用,實現編輯區域的精準定位與全局結構保持,顯著提升可控性。
總結速覽
解決的問題
- 計算成本高:傳統文本引導圖像編輯方法(如基于擴散模型)需要大量計算步驟,難以實現實時交互。
- 少步數下的挑戰:現有少步擴散模型(如1-8步)在圖像編輯中存在反轉軌跡不準確、編輯性不足的問題,導致生成質量下降或編輯效果不理想。
- 細節與編輯性的平衡:在快速編輯中難以同時保持原始圖像的關鍵內容細節和文本指令的精準遵循。
提出的方案
- InstantEdit框架:基于RectifiedFlow的少步(8步)文本引導圖像編輯方法,通過改進反轉和生成過程實現高效編輯。
- PerRFI(分段校正流反轉):專為RectifiedFlow設計的反轉策略,利用線性軌跡降低少步反轉誤差。
- 反轉隱空間注入(ILI):在生成階段復用反轉階段的隱空間信息,提升生成的一致性和細節保留。
- 解耦提示引導(DPG):通過正交分解平衡目標提示和源提示的條件,增強編輯可控性。
- 結構引導:集成Canny-conditioned ControlNet,通過邊緣結構約束抑制偽影并保持布局一致性。
應用的技術
- RectifiedFlow框架:利用其線性采樣軌跡特性,減少反轉和生成的累積誤差。
- 隱空間操作:通過ILI在生成階段注入反轉隱空間變量,優化內容一致性。
- 條件控制技術:結合DPG的注意力掩碼機制和ControlNet的結構引導,實現精準編輯。
達到的效果
- 高效性:僅需8步(NFE)即可完成編輯,速度顯著快于傳統方法。
- 高質量:在PIE數據集上,編輯結果在定性和定量評估中優于現有少步方法,部分結果媲美多步方法。
- 平衡性:通過DPG和ControlNet,在編輯性與細節保留間取得更好平衡,生成結果更符合文本指令且結構自然。
方法
問題定義

圖像反轉


另一種方法是DDPM噪聲反轉方法,通過在最后一步迭代地向隱空間變量添加噪聲來替代反轉過程。盡管簡單,但無法保證推導出的隱空間變量落在最優編輯軌跡上,并且我們通過實驗發現,這種方法顯示出有限的編輯能力。


重新生成
僅靠PerRFI無法產生最令人滿意的結果。為了進一步減小反轉誤差的影響,同時實現更好的可編輯性,我們在兩個方向上創新了重新生成流程:采樣策略和引導方法,我們將其命名為反轉隱空間注入(ILI) 和 解耦提示引導(DPG)。

另一方面,DDPM噪聲反轉將預定的DDPM噪聲注入潛在圖像,并將其用作無條件中間隱空間變量,因此我們稱這種方法為噪聲隱空間注入(NSLI)。然而,預定的非確定性DDPM噪聲會導致圖像隱空間變量偏離其常規ODE軌跡,引入不連貫的修改,使其難以與目標提示精確對齊。
為解決上述問題,我們提出了重新生成流程——反轉隱空間注入(ILI)。在進行反轉時,我們將存儲PerRFI生成的所有中間反轉隱空間變量,并重新利用它們來校準每個重新生成步驟:


解耦提示引導(DPG)。需要注意的是,公式8的后半部分可以進一步展開為:

其中第一項跨提示項捕捉了新提示和原始提示下生成軌跡預測的差異。第二項是相同提示下新軌跡與原始軌跡預測的差異。TurboEdit發現,縮放跨提示項能有效引導至目標提示,將其稱為偽引導(PG)。


為解決這一問題,本文提出增強目標提示與源提示引導信號之間的解耦,以減輕源提示不準確引導的影響。首先,我們將生成設置下的偽引導重新表述為:





ControlNet引導編輯
為更好地保留背景并最小化結構信息損失,我們開發了一種即插即用方法,將主干網絡替換為Canny邊緣條件ControlNet。Canny邊緣可以快速提取,僅帶來邊際計算開銷。通過插入邊緣信息,我們發現圖像反轉精度得到提升,從而減少結構信息損失。該方法的另一優勢是用戶可通過調整ControlNet條件縮放因子(現有ControlNet流程普遍支持)靈活控制結構剛性。
實驗
評估方法
實現 本文基于Diffusers構建的模型流程實現InstantEdit,使用從Stable Diffusion 1.5(SD1.5)蒸餾的PeRFlow作為主干。需注意,一致性指標(結構、一致性)與可編輯性指標(對齊度)存在權衡關系。本方法中控制該權衡的關鍵參數為ControlNet條件縮放因子和DPG縮放因子,具體超參數選擇過程詳見補充材料。
基準測試
采用PIE Bench基準,涵蓋9類編輯任務:物體替換、添加物體、刪除物體、內容修改、姿態調整、顏色變更、材質替換、背景更改及風格遷移。
評估指標
遵循Ju等的設置:
- 結構保留:使用結構距離量化結構變化程度(忽略外觀信息)。
- 一致性:在編輯掩碼外的區域計算均方誤差(MSE)、峰值信噪比(PSNR)、結構相似性指數(SSIM)和感知圖像塊相似度(LPIPS),評估未編輯區域的整體一致性。
- 圖像-提示對齊:通過CLIPScore計算目標提示與1)整圖;2)掩碼標注編輯區域的相似度,反映模型編輯能力。
- 效率:記錄單圖處理的墻鐘時間及函數評估次數(NFE,即單圖編輯時模型前向傳播總次數)。另包含采樣步數(Step),因部分文獻[4,9]采用此表述。
主要結果
將InstantEdit與以下少步編輯基線方法進行比較:
- ReNoise
- InfEdit
- TurboEdit
同時包含多步編輯方法:
- 編輯友好型DDPM反轉(EF);
- 近端引導(ProxG);
- Prompt-to-Prompt+空文本反轉(P2P) ;
- 直接反轉(DI)。
此外,測試了InfEdit在默認12步設置下的表現,并同步運行12步的InstantEdit以展示多步場景性能。
定量結果
如表1所示,盡管因反轉過程耗時較長,本方法較InfEdit和TurboEdit略有時間開銷,但在少步和多步場景下幾乎所有指標均超越其他基線。觀察到:當生成步數增加時,InstantEdit和InfEdit的一致性與結構分數顯著提升,而對齊指標保持少步設置水平。
定性結果
圖5展示了InstantEdit與其他方法的編輯效果對比。雖然所有方法均展現一定編輯能力,但InstantEdit在編輯提示對齊和原圖編輯區域一致性上表現更優。例如,對于狗的圖片,InstantEdit在保留背景區域信息的同時生成最佳編輯結果,而TurboEdit和InfEdit未能生成合理的狗,ReNoise則丟失了椅子結構。
用戶研究
針對15張PIE Bench隨機樣本,邀請37名用戶從TurboEdit、InfEdit、ReNoise和InstantEdit中基于以下標準選擇最佳結果:
- 可編輯性
- 一致性
- 視覺質量
共收集545份有效反饋(表2)。總體而言,InstantEdit和TurboEdit更受青睞,其中InstantEdit被選頻率最高。需注意,用戶研究與定量結果存在部分不一致:InfEdit雖定量指標優于TurboEdit,但用戶偏好較低。經檢驗發現,InfEdit易產生微小偽影和畸變(這些在指標計算中被忽略,但易被人類感知)。詳見補充材料中的樣本與分析。
消融實驗
本文通過以下方式研究InstantEdit各組件對編輯結果的貢獻:
- 橫向對比:分別比較PerRFI、ILI和DPG的替代方法;
- 內部對比:分析Canny-conditioned ControlNet的影響(ControlNet縮放因子和注意力掩碼閾值的超參數消融詳見補充材料)。
PerRFI vs. DDIM反轉比較PerRFI與基于SDXL-Turbo的DDIM反轉的圖像重建性能(下表3定量結果,圖4定性對比)。為確保公平,其他技術保持一致。需注意,本實驗的CLIPScore評估生成圖像與原始提示(非編輯用目標提示)的對齊度。

ILI vs. NSLI將本文的再生方法ILI與主流替代方案NSLI對比。NSLI使用DDPM噪聲反轉的加噪隱空間變量,而ILI利用PerRFI的中間反轉隱空間變量。通過將ILI無縫替換為NSLI(下表4“再生”部分及下圖6),結果顯示本文的方法在一致性指標(尤其是提示-圖像對齊)上表現更優。


DPG vs. PG
- 偽引導(PG):縮放跨提示分量;
- 解耦提示引導(DPG):縮放目標與源引導信號的正交分量,通過解耦過濾源提示的不準確信號,并可結合注意力掩碼機制增強解耦效果。將PG嵌入本文的流程替代DPG后(下圖7及上表4“引導”部分),定性與定量結果均表明DPG在保持編輯性的同時實現了更好的結構一致性。下圖8展示了注意力掩碼的定性效果(其他基線的擴展分析見補充材料)。


Canny-conditioned ControlNet從最終配置中移除ControlNet,分析其對一致性-可編輯性權衡的影響(上表4“ControlNet”部分)。添加ControlNet后,兩者平衡性顯著改善。下圖9可視化顯示:ControlNet能有效防止反轉與生成過程中的結構信息丟失,避免非預期的結構畸變。

結論
InstantEdit,一種基于RectifiedFlow模型的快速精準文本引導圖像編輯方法。通過改進少步擴散過程中的反轉精度,并結合反轉隱空間注入(ILI) 和 解耦提示引導(DPG) 等新技術,顯著提升了圖像一致性與模型可編輯性。進一步采用Canny-conditioned ControlNet更好地保留編輯圖像的結構信息。InstantEdit在保持高速編輯的同時,實現了優于現有方法的圖像編輯質量。
然而,InstantEdit仍存在以下局限性:
- 受反轉方法影響,相比InfEdit和TurboEdit仍存在較小時間開銷;
- 目前僅支持適度編輯,對于大幅結構變更(如姿態調整)仍面臨挑戰(但僅依賴文本引導完成此類任務本身極具難度)。現有工作如MasaCtrl和InfEdit需復雜注意力操控和多步編輯才能實現輕微結構調整,而另一類方法需額外引導信號(如拖拽點/區域)。
未來計劃結合這些方向,實現更靈活高效的文本引導圖像編輯。
本文轉自AI生成未來 ,作者:AI生成未來

















