精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯原創

發布于 2025-5-12 09:06

瀏覽

0收藏

摘要

基于指令的圖像編輯能夠通過自然語言提示實現強大的圖像修改，但當前的方法面臨著精度和效率之間的權衡。微調方法需要大量的計算資源和大規模數據集，而免訓練技術在指令理解和編輯質量方面存在困難。我們利用大規模擴散變換器（DiT）增強的生成能力和固有的上下文感知來解決這一困境。我們的解決方案有三個貢獻：（1）一種基于上下文提示的零樣本指令遵從的上下文編輯框架，避免了結構變化；（2）一種 LoRA-MoE 混合調優策略，通過高效的自適應和動態專家路由提高了靈活性，而無需進行大量的重新訓練；（3）一種早期過濾推理時間縮放方法，利用視覺語言模型（VLMs）在早期選擇更好的初始噪聲，提高了編輯質量。廣泛的評估證明了我們方法的優越性：與傳統基線相比，它在僅使用 0.5% 的訓練數據和 1% 的可訓練參數的情況下，性能優于最先進的方法。這項工作建立了一個新的范式，實現了高精度且高效的指令引導編輯。

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

圖1. 我們提出了上下文編輯（In-Context Edit）方法，這是一種新穎的方法，僅使用先前最先進方法所需訓練數據的0.5%和參數的1%，就能實現最先進的基于指令的圖像編輯。第一行展示了一系列多輪編輯，執行精度很高；而第二行和第三行則突出顯示了我們的方法在單次編輯中產生的多樣且視覺效果令人印象深刻的結果。

1. 引言

近年來，基于指令的圖像編輯因其能夠使用自然語言提示來轉換和操作圖像而備受關注?；谥噶畹木庉嫷闹饕獌烖c是它能夠用最少的文本指令生成精確的修改，從而為自動化圖像處理和用戶驅動的內容創建開辟了新的可能性。

現有的基于指令的圖像編輯方法通常分為兩類：基于微調的方法和免訓練技術?；谖⒄{的方法 [3, 10, 12, 28, 39, 47, 48] 通常涉及在大規模編輯數據集上重新訓練預訓練的擴散模型，使模型能夠學習遵循指令的能力。相比之下，免訓練技術 [1, 13, 19, 21, 30, 43, 51] 通過圖像反演、提示交換（用生成性提示替換指令）或操作注意力權重等機制避免了重新訓練過程。

盡管當前的圖像編輯方法展示出了令人印象深刻的能力，但它們在精度和效率之間面臨著關鍵的權衡?；谖⒄{的方法通過結構修改（例如，參考圖像處理模塊、通道調整）以及在大規模數據集（45 萬個樣本 [3] 到 1000 萬個樣本 [39]）上的廣泛訓練，能夠提供精確的指令跟隨結果，但需要大量的計算資源，這降低了效率。相反，免訓練方法消除了架構修改和數據集訓練，但在解釋復雜指令方面存在困難，導致精度降低，限制了它們的實際應用。

盡管存在上述困境，但擴散變換器（DiT）[7, 8, 35] 的最新進展提供了一條有前景的途徑。DiT 架構具有兩個關鍵特性：（1）可擴展的生成保真度：更大的 DiT 變體（例如，FLUX [22]）在沒有輔助模塊的情況下實現了最先進的文本到圖像對齊，能夠直接適應參考引導合成 [41] 和身份保留編輯 [17] 等任務。（2）內在的上下文感知：DiT 通過注意力機制在參考內容和生成內容之間建立雙向交互，能夠在沒有專用對齊網絡的情況下同時處理源圖像和目標圖像 [17, 49]。這引發了一個關鍵問題：DiT 的生成能力和上下文感知能否直接解決基于指令的圖像編輯問題，并通過其內在能力而非外部復雜性來平衡精度和效率？

我們的研究通過探索 DiT 的編輯能力揭示了兩個關鍵見解。首先，我們實現了一種基于 DiT 的免訓練上下文編輯范式，其中模型通過處理源圖像（雙聯圖的左面板）和 “上下文提示” 來生成編輯后的輸出（雙聯圖的右面板）。這種方法展示了兩個關鍵優勢：（1）消除了對參考圖像編碼的架構修改，（2）通過上下文理解實現了免調優的指令遵從。雖然仍然存在持續的失敗案例，但所實現的優勢建立了一個強大的基線，便于進行高效的微調以提高精度。

其次，我們觀察到初始噪聲的選擇對結果質量有顯著影響。某些類型的噪聲會導致更好的結果，這凸顯了選擇更好的初始噪聲以提高性能的重要性。

基于這些觀察結果，我們探索了兩種策略來提高編輯范式的精度和效率：

?LoRA-MoE 混合調優：在 DiT 框架內將參數高效的 LoRA 適配器與專家混合（MoE）路由相結合，這種方法在編輯過程中動態激活特定任務的專家。在最少的公開可用數據上進行訓練，它可以在不同場景下提高編輯成功率，而無需進行架構修改或大規模重新訓練。

?早期過濾推理時間縮放：利用視覺語言模型（VLMs）作為質量評估器，我們在整流流模型的早期去噪步驟中識別更好的初始噪聲分布。這種策略選擇與文本指令對齊的噪聲候選，提高了魯棒性和輸出質量。

我們在 Emu Edit [39] 和 MagicBrush 基準測試上的實驗展示了三個關鍵進展。首先，該方法實現了卓越的數據和參數效率，在僅使用 0.5% 的訓練數據和 1% 的可訓練參數的情況下，性能優于最先進的方法。其次，它優于最近基于 DiT 的模型，證實了我們上下文編輯范式的有效性。第三，VIE 分數評估 [20] 顯示，與商業系統相比，我們的方法具有競爭力（78.2 對比 SeedEdit 的 75.7），證明了其實際可行性。這些結果在精度和效率之間實現了前所未有的平衡（如圖 2 所示）?？傊?，我們的貢獻包括：

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

- 圖2：模型性能與訓練數據效率?！皵祿省迸c訓練數據量成反比，而CLIP分數反映編輯性能。我們的方法用更少的訓練數據實現了高編輯精度。

?我們探索了大規模預訓練擴散變換器（例如 FLUX）的編輯能力，并引入了一種新穎的上下文編輯范式，能夠在不修改模型架構或進行大量微調的情況下實現有效的指令式圖像編輯。

?我們提出了 LoRA-MoE 混合微調方法，用于參數高效的編輯任務適應，并結合了基于 VLM 的噪聲修剪的早期過濾推理時間縮放策略。這種協同設計在保持上下文編輯框架效率的同時，協同提高了編輯精度。

?我們的實驗表明，與以前的方法相比，我們的方法在僅需要 0.5% 的訓練數據和 1% 的可訓練參數的情況下，實現了最先進的編輯性能。這有效地解決了長期以來困擾先前方法的精度 - 效率權衡問題。

2. 相關工作

免訓練編輯技術。自擴散模型出現以來，許多免訓練的圖像編輯方法 [5, 13, 21, 31, 42, 51] 受到了關注。RF-Solver [43] 通過減輕 ODE 求解誤差提高了整流流模型中的反演精度，并利用 MasaCtrl [5] 進行圖像編輯。StableFlow [1] 通過消融研究確定了關鍵的 MM-DiT 塊，僅將特征注入這些塊以增強編輯能力。然而，這些方法面臨兩個關鍵限制：1）手動設計的模塊限制了生成能力，阻礙了對復雜指令的理解，降低了成功率；2）編輯需要精心設計的提示，限制了泛化性和可擴展性。

基于微調的編輯方法。目前大多數編輯模型修改架構并在高質量數據集上進行微調 [3, 44-48]。InstructPix2Pix [3] 使用原始圖像作為輸入對擴散 UNet 進行微調。MGIE [10] 通過集成多模態大語言模型（MLLM）來編碼指令并將其注入擴散模型，增強了指令理解能力。然而，生成性提示和編輯指令的嵌入空間之間存在差距，降低了擴散模型的泛化能力，需要大規模數據集來彌合這一差距。例如，InstructPix2Pix 生成了 45 萬對數據，Emu Edit [39] 收集了近 1000 萬對數據，FluxEdit [34] 基于 FLUX [22] 使用了來自 [44] 的 120 萬對數據，但編輯結果仍然不盡如人意。

3. 方法

在本節中，我們首先探索原始 DiT 生成模型中的上下文編輯能力，并提出用于基于指令的圖像編輯的上下文編輯框架（§3.1）。在進行深入分析之后，我們將 LoRA-MoE 混合微調（§3.2）引入我們的框架，并使用一個小型編輯數據集，這顯著提高了編輯質量和成功率。最后，我們提出一種早期過濾推理時間縮放策略（§3.3），以選擇更好的初始噪聲，在推理過程中提高生成質量。

3.1 DiT 的上下文編輯能力探索

帶有編輯指令的上下文生成。受最近的工作 [16, 17, 41, 49] 啟發，這些工作展示了大規模 DiT 模型強大的上下文能力，我們探索是否可以使用上下文生成進行圖像編輯。為此，我們將編輯指令添加到為上下文編輯設計的生成提示中。具體來說，我們設計的提示形式為：“同一 {主題} 的并排圖像：左邊描繪了原始 {描述}，而右邊與左邊鏡像，但應用了 {編輯指令}”。我們將這種表述稱為上下文編輯提示（IC 提示）。利用在 DiT 中廣泛采用的 T5 文本編碼器 [36]，因其強大的句子級語義理解能力 [11]，這種方法有效地解釋了這些擴展提示，實現了精確且上下文連貫的編輯。

如圖 3 所示，上下文編輯提示（IC 提示）使 DiT 模型能夠以雙聯圖格式生成編輯后的輸出：左邊是與描述對齊的圖像，而右邊是根據編輯指令調整后的同一圖像。為了闡明這種機制，我們檢查了 IC 提示中編輯提示的注意力圖，發現在預定修改的區域中注意力值明顯較高。這一證據表明，DiT 模型能夠巧妙地解釋和執行嵌入在 IC 提示中的編輯指令，使其能夠理解編輯指令并相應地執行，而無需進行大量的微調。

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

- 圖3：編輯指令的注意力圖可視化（§3.1）。我們通過對不同步驟和層的總和與平均值進行聚合，計算所選文本的注意力值。

基于 T2I DiT 的上下文編輯框架?

基于上述見解，我們提出了一種編輯框架，其中將左邊指定為參考圖像，能夠無縫地將編輯應用到右邊。具體來說，我們分別基于文本到圖像（T2I）DiT 和修復 DiT 引入了兩種免訓練框架，如圖 4 所示。對于 T2I DiT 框架，我們設計了一種隱式參考圖像注入方法。我們首先對參考圖像進行圖像反演 [1, 5, 29, 43]，保留各層和各步驟的注意力值。然后將這些值注入到代表雙聯圖左邊的標記中以進行圖像重建，而右邊則在上下文生成過程中根據預定義的 IC 提示中的編輯指令生成。

相比之下，修復 DiT 框架提供了一種更直接的方法。由于它接受參考圖像和掩碼，我們預設一個并排圖像，左邊為參考圖像，右邊為掩碼，使用相同的 IC 提示來指導修復過程。

圖 4 展示了這兩種框架的操作，示例輸出顯示了它們在編輯過程中保留參考圖像身份的能力。然而，表 3 中的實驗表明，這兩種框架都不能在各種編輯任務中始終如一地提供穩定、可靠的結果，限制了它們在現實世界中的適用性。此外，T2I DiT 方法需要額外的反演步驟，與更簡單的修復框架相比，增加了計算需求。因此，我們認為基于修復的框架是進一步改進的更可行候選方案。

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

- 圖4：兩種免訓練上下文編輯結構的探索（§3.1）。每個框架的示例圖像均為其編輯輸出。盡管存在一些瑕疵，但它們展示了基于指令的編輯任務的潛力。

3.2 LoRA-MoE 混合微調

基于上述分析，我們將我們的方法總結為一個函數 ε，它將源圖像 Is 和編輯指令 Te 映射到目標編輯輸出 It：

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

其中 D 是修復擴散變換器，IIC 表示上下文圖像輸入，源圖像 Is 放在左邊，右邊被固定的二進制掩碼 M 掩蓋。編輯指令 Te 被轉換為上下文編輯提示 TIC。

LoRA 微調。為了增強這個框架的編輯能力，我們從公開來源收集了一個緊湊的編輯數據集（5 萬個樣本）（見第 4 節），并在多模態 DiT 塊上采用 LoRA 微調 [15, 49]，以實現高效的參數適應。盡管數據集規模有限，但這種方法在編輯成功率和質量上都有顯著提高。然而，某些任務（例如風格改變和移除）仍然存在挑戰，降低了整體成功率。

這些發現使我們認為，單一的 LoRA 結構能力有限，不足以應對各種編輯任務。不同的編輯任務需要不同的潛在特征操作，同時掌握這些不同的模式是一個重大挑戰。以前的 LoRA 微調通常專注于特定任務，為不同的目標訓練單獨的權重，這凸顯了統一的 LoRA 模型在全面編輯場景中的局限性。

LoRAs 混合。為了解決這一限制，我們從大語言模型的最新進展中獲得靈感，其中專家混合（MoE）架構 [4, 18, 23, 25] 使用專門的專家網絡巧妙地處理各種輸入模式。MoE 范式為我們的任務提供了兩個關鍵優勢：（1）專門處理，使各個專家能夠專注于不同的特征操作；（2）動態計算，允許通過路由機制 [38] 選擇特定的專家。這在不犧牲計算效率的情況下增強了模型能力。

利用這些優勢，我們在 DiT 塊中提出了一種混合 LoRA-MoE 結構，將并行的 LoRA 專家合并到多模態（MM）注意力塊的輸出投影層中，同時在其他層中使用標準 LoRA 進行高效的參數調整。一個可訓練的路由分類器根據視覺標記內容和文本嵌入語義動態選擇最適合的專家進行特征轉換。

具體來說，我們設置 N 個專家，每個專家對應一個秩為 r 且縮放因子為 α 的 LoRA 模塊。對于每個輸入標記，路由分類器 G 預測每個專家的選擇概率，其中 i∈[1, N]。MoE-LoRA 結構的輸出計算如下：

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

這里，Bi∈R^d×r 和 Ai∈R^r×k（r << min (d, k)）表示第 i 個 LoRA 專家的學習權重，x∈R^k 是輸入標記。路由分類器為每個專家分配一個選擇概率 G (x) i，最終輸出是專家輸出的加權和。在我們的實現中，我們使用稀疏 MoE 設置，只選擇前 k 個專家：

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

其中 TopK (?, k) 函數僅保留向量的前 k 個條目，并將所有其他條目設置為 -∞。這確保了專家的高效使用，在保持編輯任務靈活性的同時最小化計算開銷。

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

- 圖5：我們通過LoRA-MoE混合調優增強了修復框架的編輯能力，集成了參數高效的適應和動態專家路由以進行專門的特征處理和動態計算（§3.2）。

3.3 早期過濾推理時間縮放

在推理過程中，我們發現初始噪聲對編輯結果有顯著影響，一些輸入產生的結果更符合人類偏好（見圖 10），最近的研究 [27, 50] 也支持這一模式。這種可變性促使我們研究推理時間縮放，以提高編輯的一致性和質量。在基于指令的編輯中，我們觀察到指令對齊的成功通常在幾個推理步驟中就很明顯（見圖 6），這一特征與整流流 DiT 模型 [24, 26] 兼容。這些模型能夠有效地遍歷潛在空間，只需幾個去噪步驟（有時只需一個 [9]）就能提供高質量的輸出。因此，與需要更多步驟來提高細節和質量的生成任務不同，我們可以僅通過幾個步驟來評估編輯的成功與否。

基于這一見解，我們提出了一種早期過濾推理時間縮放策略。我們首先對 M 個初始噪聲候選進行采樣，并為每個候選生成一個初步的 m 步編輯，其中 m << n（完整的去噪步驟）。然后，一個視覺大語言模型（VLM）使用冒泡排序啟發的成對比較來評估這 M 個早期輸出是否符合指令，迭代地確定最佳候選，類似于選擇最大值（見圖 6）。隨后，使用 π 步去噪對這個最佳種子進行細化，以生成最終圖像。我們的方法能夠快速識別早期的良好噪聲，而 VLM 選擇確保輸出符合人類偏好。補充材料（Sup. Mat.）中提供了更多細節。

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

- 圖6：推理時間縮放策略示意圖（§3.3）。上排展示了編輯成功與否可在最初幾個步驟內評估。這些早期結果用于通過VLM評判篩選出最優初始噪聲。

4. 實驗

實現細節。我們采用 FLUX.1 Fill，這是領先的基于開源 DiT 的修復模型，作為我們的骨干網絡。為了微調我們的混合 LoRA-MoE 模塊，我們從公共來源收集了一個簡潔的編輯數據集。最初，我們使用了 MagicBrush 數據集 [47]，其中包含 9000 個編輯樣本，但發現了它的局限性：1）編輯類型混合不均衡，2）缺乏專注于風格的數據，以及有限的領域多樣性。為了解決這些問題，我們用來自開源 OmniEdit 數據集 [44] 的大約 4 萬個樣本對其進行了擴充，形成了我們最終的訓練集。我們的模型配置中 LoRA 秩為 32，在 MoE 模塊中包含四個專家，并使用 TopK 值為 1。在我們的推理時間縮放策略中，我們使用 Qwen-VL-72B [2] 作為評估器來評估圖像輸出。補充材料中提供了關于數據集、模型參數和對比研究的更多細節。

評估設置。我們在 Emu [39] 和 MagicBrush 測試集 [47] 上進行了全面評估。對于包含編輯結果真值（GT）的 MagicBrush，我們緊密遵循 [47, 48] 來計算 CLIP [14, 37]、DINO [6, 33] 和 L1 等指標，測量我們模型的結果與 GT 之間的差異。相反，Emu 測試集缺乏編輯結果真值；我們遵循 [39, 48] 進行基線評估，并按照 [44] 使用 GPT4o 進行補充，以判斷編輯的成功與否（見補充材料）。為了確保公平比較，所有模型都使用單個默認噪聲輸入進行評估，并且不使用我們提出的早期過濾推理時間縮放技術。

正如 [20, 44, 45] 所強調的，傳統指標（如 CLIP [14, 37]和 DINO [6, 33]）往往與人類偏好不一致。為了更準確地評估我們模型的編輯性能和視覺質量，我們還計算了 VIE 分數 [20]。這個指標由兩個部分組成：SC 分數，用于評估指令遵守情況和未編輯區域的保留情況；PQ 分數，用于獨立于源圖像和指令衡量視覺質量。總體分數通過Overall =\sqrt{SC ×PQ}計算得出。我們利用這個指標來衡量推理時間縮放策略帶來的提升，并將我們的方法與頂級閉源商業模型 SeedEdit [40] 進行基準測試。

4.1 與最先進方法的比較

MagicBrush 和 Emu 測試集上的結果：我們將模型與基于 UNet 的方法 [3, 39, 47] 和基于 DiT 的方法 [28, 34, 43, 48] 進行評估比較，詳細結果見表 1 和表 2。我們的模型在兩個數據集上都達到了與最先進方法相當的性能，在 MagicBrush 測試集上（表 1），輸出結果與真值非常接近，展示出強大的編輯能力。在 Emu 測試集上（表 2），它在文本對齊方面與最先進方法相當，同時更好地保持了圖像的真實性。值得注意的是，盡管我們的模型所需的訓練數據少得多，但基于 GPT 的評估分數顯著優于開源模型，并且接近閉源的 Emu Edit 模型。與具有相同骨干網絡的基于 DiT 的模型相比，我們的方法使用更少的樣本和參數，卻能提供更優的性能，突出了其效率和有效性。定性結果見圖 7 和補充材料。

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

- 表1：MagicBrush測試集上的定量結果（§4.1）。遵循[48]，所有指標均在編輯后的圖像與MagicBrush [47]提供的GT編輯圖像之間計算。*表示該方法無法直接處理指令性提示，而是依賴數據集提供的輸出字幕。

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

- 表2：Emu測試集上的定量結果（§4.1）。遵循[39, 48]，我們計算源圖像和編輯后圖像之間的CLIP-I和DINO分數，而CLIP-out衡量輸出字幕與編輯后圖像之間的距離。此外，我們使用GPT-4o評估編輯結果。

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

- 圖7：在Emu Edit測試集上與基線模型的比較（§4.1）。與基線模型相比，我們的方法在編輯指令準確性和非編輯區域保留方面表現更優。放大可查看詳細內容。

VIE 分數評估：如圖 8 所示，在編輯準確性和視覺質量方面，我們的模型顯著優于開源的最先進方法。通過隨機種子測試，我們的性能接近 SeedEdit，并且使用推理縮放策略后，整體分數超過了 SeedEdit。雖然 SeedEdit 可能由于其精美的、具有商業吸引力的輸出而獲得更高的 PQ 分數，但它在未編輯區域的身份保留方面常常失敗。相比之下，如圖 9 所示，我們的方法在這些方面保持了更高的保真度。

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

- 圖8：我們使用VIE分數評估與人類偏好的一致性，并量化推理時間縮放策略帶來的改進（帶推理縮放，§4.1和§4.2）。

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

- 圖9：在以人類為中心的圖像編輯中，SeedEdit優先考慮美學而犧牲身份一致性，而我們的方法確保更精確的編輯，符合預期目標。

4.2 消融研究

模型結構：我們通過各種配置的實驗驗證了我們的方法，詳見表 3。上下文編輯提示（IC 提示）被證明至關重要：在無訓練模型中，它的表現明顯優于直接編輯指令，并且使用 IC 提示進行微調進一步增強了其編輯能力。我們的 LoRA-MoE 設計優于標準的 LoRA 微調，以更少的參數實現了更好的編輯質量和成功率（GPT 分數提高 13%），突出了其效率。此外，僅對輸出投影層進行適應（“僅 MoE”）會導致性能下降，這表明對所有模型模塊進行微調的必要性。

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

- 表3：模型結構的消融研究（§4.2）。我們在Emu測試集上評估不同消融設置的性能。

推理時間縮放：如圖 8 和圖 10 所示，我們的推理時間縮放策略顯著提高了編輯性能，SC 分數提高了 19%，VIE 總分提高了 16%。當使用固定或隨機種子生成編輯時，模型可以產生可行的結果，但并不總是最優的。通過使用視覺語言模型（VLMs）從多個種子的早期輸出中篩選并選擇最佳候選，我們實現了更高的編輯質量。補充材料中提供了進一步的比較細節。

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

- 圖10：推理時間縮放的消融實驗（§4.2）。我們的策略顯著提高了編輯質量。例如，對于“去掉頭盔”的指令，默認固定種子錯誤地移除了人物的頭部，而VLM過濾避免了這一有缺陷的結果。

數據效率：如圖 2 和表 2 所示，與我們的無訓練框架（參考 FLUX.1 fill）相比，我們的方法僅使用 0.05M 的訓練樣本就取得了顯著的改進，這遠遠少于最先進模型使用的 1000 萬個樣本。這突出了我們框架的有效性和微調方法的效率。

4.3 應用

和諧編輯：如圖 1 和圖 11 所示，我們的方法產生的編輯結果與原始圖像無縫融合。模型在編輯過程中能夠智能地適應周圍的上下文，從而產生更自然、更逼真的結果，這是以前的方法難以實現的能力。

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

- 圖11：我們的方法通過自動融入陰影效果和風格對齊，實現了更協調的編輯結果，從而顯著提升了效果（§4.3）。

多樣化任務：我們的方法是一個通用的圖像到圖像框架，適用于如手部細化和重新光照等現實世界任務，如圖 12 所示。未來使用特定任務的數據集進行微調，可能會進一步拓寬其在各種場景中的適用性。

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

- 圖12：應用（§4.3）。無需額外調整，我們的方法在各種任務中展示出強大的泛化能力。

5. 結論

在本文中，我們提出了上下文編輯（In-Context Edit），這是一種基于 DiT 的新穎指令編輯方法，僅需極少的微調數據就能實現最先進的性能，在效率和精度之間達到了無與倫比的平衡。我們首先在無訓練的背景下探索了生成式 DiT 的固有編輯潛力，然后提出了一種 LoRA-MoE 混合微調策略，以提高穩定性和質量。此外，我們引入了一種推理時間縮放方法，利用視覺語言模型從多個種子中選擇最佳的早期輸出，從而提升編輯效果。大量實驗證實了我們方法的有效性，并展示了卓越的結果。我們相信這個高效、精確的框架為基于指令的圖像編輯提供了新的思路，并且計劃在未來的工作中進一步完善它。

本文轉載自公眾號AIRoobt ，作者：Zechuan zhang等

原文鏈接：??https://mp.weixin.qq.com/s/3Cg_f1_Lehe-z3gFkt4fSQ???

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

上下文編輯

In-Context Edit

贊

收藏

回復

舉報

回復

相關推薦

谷歌將免費提供3款，生成式AI圖像編輯工具

Aceryt ? 4573瀏覽 ? 0回復
Next-Level Agents：釋放動態上下文（Dynamic Context）的巨大潛力

Baihai_IDP ? 6327瀏覽 ? 1回復
在長上下文LLM的時代，RAG是否仍然必要？

sbf_2000 ? 3996瀏覽 ? 0回復
圖像編輯多任務一網打盡！PromptFix，新型擴散模型&大規模視覺指令數據集（羅切斯特大學&微軟）

angel ? 4819瀏覽 ? 0回復
拋棄UNet，首個基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質量更優 | 北大&港科大

angel ? 4002瀏覽 ? 0回復
斯坦福提出擴散自蒸餾：定制圖像生成，任意上下文下擴展到任意實例！

angel ? 4243瀏覽 ? 0回復
循環變換器中的潛在思維：深度與參數效率的權衡研究

頓數AI ? 3422瀏覽 ? 0回復
【模型部署】在Dify中接入ComfyUI+Flux實現文生圖

一起AI技術 ? 1.5w瀏覽 ? 1回復
ChatDiT：一個用于任務無關自由形式聊天的無訓練基線擴散變換器

AIRoobt ? 2110瀏覽 ? 0回復
d1：通過GRPO在擴散LLM中縮放推理

ceesoft ? 4000瀏覽 ? 0回復
In-Context Edit 高效圖像編輯框架上線

HyperAI超神經 ? 2435瀏覽 ? 0回復
MCP(Model Context Protocol)模型上下文協議介紹

AI探索時代 ? 6129瀏覽 ? 0回復
大型語言模型的上下文工程（Context Engineering）綜述

chengganfei ? 4788瀏覽 ? 0回復
搞懂上下文工程（Context Engineering)，讓你的LLM更聰明

Halo咯咯 ? 2326瀏覽 ? 0回復
AI圖像編輯站上新高度！Follow-Your-Shape精控大規模形變，穩準狠！

zhangyannni ? 2337瀏覽 ? 0回復
Qwen-Image-Edit發布：圖像編輯終于能“懂語義+改細節”了

Halo咯咯 ? 8288瀏覽 ? 0回復
一文讀懂AI應用上下文工程(Context Engineering)

十一月雨_55 ? 1057瀏覽 ? 0回復
談談上下文工程（Context Engineering）

周末程序猿 ? 761瀏覽 ? 0回復
上下文工程中的上下文

芝士AI吃魚 ? 194瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

基于協作式語義專家的語言模型微調（AAAI 2025） 3天前發布
大型語言模型基準測試綜述（2025） 3天前發布

熱門推薦

用 Cognee 構建端到端知識圖譜，實現當前效果最好的AI Agent記憶層 0回復

Spring AI Alibaba：Java 后端接入大模型，終于不用羨慕 Python 了！ 0回復

小模型，大能量：阿里巴巴 Qwen3-VL 4B/8B，重新定義多模態輕量化邊界 0回復

2025 年最強 OCR 大比拼：從識別文本到文檔智能，誰才是終極解法？ 0回復

8%價格，2倍速度！國產MiniMax M2暴打Claude Sonnet 4.5？我們實測后發現堪稱性價比之王！ 0回復

上一篇：面向未來通信的大語言模型綜述：基礎、應用與挑戰

下一篇： HoVLE：通過整體視覺-語言嵌入釋放單體視覺-語言模型的潛力

社區精華內容

目錄

国产成人啪精品视频免费网| 欧美日韩中字一区| 91在线在线观看| 午夜三级在线观看| 精品国产第一国产综合精品| 亚洲色图欧美在线| 操一操视频一区| 国产精品7777| 亚洲欧洲美洲国产香蕉| 在线中文字幕一区二区| 日产中文字幕在线精品一区| 久久久久久在线观看| 精品久久91| 在线国产精品一区| 精品久久久三级丝袜| 9色porny| 色综合久久网女同蕾丝边| 亚洲综合另类| 日韩小视频在线| 在线观看一区二区三区视频| 国内激情视频在线观看| 国产亚洲女人久久久久毛片| 国产精品爽爽ⅴa在线观看| 国产小视频你懂的| **日韩最新| 亚洲777理论| 亚洲看片网站| 亚洲va天堂va欧美ⅴa在线| 99国内精品| 中文字幕欧美精品日韩中文字幕| 欧美在线aaa| h片精品在线观看| 日本一区二区三区在线不卡| 97操在线视频| 日本欧美www| 亚洲国产精品一区| 在线观看日韩视频| 国产精品99精品无码视亚| 免费成人动漫| 一区av在线播放| 欧美视频小说| 亚洲av无码乱码国产精品久久| 欧美精品日本| 亚洲性xxxx| 久草视频福利在线| 欧洲亚洲精品久久久久| 精品欧美一区二区三区| 国产手机视频在线观看| yw在线观看| 成人午夜视频免费看| 国产精品久久久久影院日本| 国产亚洲成人精品| 91精品在线观看国产| 亚洲女在线观看| 中文字幕在线观看91| 国产精品专区免费| 亚洲成人av电影在线| 伊人狠狠色丁香综合尤物| 欧美91精品久久久久国产性生爱| 国产在线不卡一卡二卡三卡四卡| 国产精品99蜜臀久久不卡二区| 久久婷婷一区二区| 亚洲色图国产| 久久激情五月丁香伊人| 阿v天堂2014| 国产99精品一区| 亚洲高清av在线| 美女日批在线观看| 精品一区二区三区中文字幕视频| 欧美无砖专区一中文字| 成人在线看视频| 成人黄色动漫| 午夜欧美视频在线观看| 真实国产乱子伦对白视频| 直接在线观看的三级网址| 欧美高清在线精品一区| 日韩中文一区| 丁香婷婷在线观看| 国产欧美精品一区| 日韩中文字幕一区| 91福利在线视频| 中文字幕成人在线观看| 视频一区国产精品| 9191在线| 综合分类小说区另类春色亚洲小说欧美| 手机成人在线| 午夜老司机在线观看| 国产精品久久久久久亚洲毛片| 日韩欧美精品一区二区| 日本午夜在线视频| 久久亚洲影视婷婷| 亚洲va久久久噜噜噜久久狠狠 | 国产精品大片wwwwww| 丁香六月婷婷综合| 日韩一级不卡| 国产suv精品一区二区| 日本一本在线观看| 美女诱惑一区二区| 成人黄色片视频网站| 天堂中文字幕在线| 中文字幕巨乱亚洲| 免费观看亚洲视频| 午夜影视一区二区三区| 欧美亚洲国产怡红院影院| 三级网站免费看| 欧美色资源站| 日韩在线一区二区三区免费视频| 欧美激情国产精品免费| 一本色道久久综合亚洲精品不卡 | 亚洲国产一区二区三区四区| 精品无人区无码乱码毛片国产| 99久久九九| 性色av香蕉一区二区| 精品黑人一区二区三区| 国产福利精品导航| 久久久久中文字幕| 不卡av电影在线| 国产不卡在线播放| 午夜精品视频在线观看一区二区| 女人黄色免费在线观看| 在线一区二区观看| 在线看黄色的网站| 婷婷综合激情| 国产第一区电影| 黄色aaa毛片| 国产精品国产精品国产专区不片 | 久久久精品日韩| 99精彩视频在线观看免费| 国产天堂在线| 亚洲国产精品久久久男人的天堂 | 亚洲国产精品毛片| 蜜桃av.网站在线观看| 亚洲欧美日韩电影| 麻豆av免费在线| 中文字幕一区二区三区中文字幕 | 爽爽视频在线观看| 亚洲美女视频在线观看| 日本在线一二三区| 国产区精品区| 欧美亚洲视频在线观看| 朝桐光av在线一区二区三区| 久久久一区二区三区| 欧美午夜性视频| 7777精品| 欧美成人在线网站| 艳妇乳肉豪妇荡乳av| 国产午夜精品一区二区三区视频 | 国内精品美女在线观看| 国产精品中文在线| 国产中文字幕在线| 日本高清无吗v一区| 91av在线免费| 在线亚洲激情| 国内成+人亚洲| 成年人国产在线观看| 日韩一区二区三区在线视频| 蜜桃av.com| 精品无人码麻豆乱码1区2区| 神马影院我不卡午夜| 四虎4545www精品视频| 亚洲午夜av久久乱码| 黄色一级视频免费看| www欧美成人18+| 国产在线观看福利| 蜜桃a∨噜噜一区二区三区| 91成人性视频| 日韩电影免费| 黑人巨大精品欧美一区二区三区| 无码一区二区精品| 日韩午夜在线| 久久一区二区三区欧美亚洲| 老牛影视精品| 亚洲欧美综合区自拍另类| www.com亚洲| 亚洲国产精品成人综合| 亚洲欧洲日本精品| 一区二区三区午夜视频| 成人做爰66片免费看网站| 成人超碰在线| 亚洲人线精品午夜| 一区二区三区免费观看视频| 亚洲精选在线视频| 小毛片在线观看| 久久久999| 精品91一区二区三区| 99ri日韩精品视频| 欧美一级在线播放| 四虎久久免费| 欧美va亚洲va香蕉在线| 91video| 国产欧美日韩在线| 性生活在线视频| 亚洲在线视频| 伊人久久av导航| 国产精品色呦| 国产欧美va欧美va香蕉在| 中日韩高清电影网| 亚洲女人初尝黑人巨大| 国产三级在线观看视频| 亚洲第一av色| 欧美自拍偷拍网| 成人性视频免费网站| 国产成人综合一区| 欧美在线资源| 日韩电影天堂视频一区二区| 国内精品视频| 国产91在线播放九色快色| 黄色成人在线| 亚洲精品自在久久| 国产日韩欧美一区二区东京热| 一区二区理论电影在线观看| 91精彩刺激对白露脸偷拍| 蜜桃av一区二区| 18黄暴禁片在线观看| 欧美理论电影大全| 成人蜜桃视频| 精品成人av| 欧美另类69精品久久久久9999| 欧美另类自拍| 欧美一区二区女人| 精品人妻一区二区三区免费看| 亚洲欧美中日韩| 亚洲欧美在线不卡| 精品在线一区二区三区| 国产伦精品一区二区三区四区视频_| 清纯唯美日韩| 国产日韩欧美一区二区| 成人国产在线| 97视频在线观看亚洲| 麻豆影院在线观看| 亚洲精品午夜精品| 国产日韩欧美一区二区东京热| 午夜不卡av免费| 国产老头老太做爰视频| 久久亚区不卡日本| 免费观看污网站| 精品影视av免费| 欧美日韩在线观看不卡| 亚洲精品美女91| 欧美日韩视频免费在线观看| 首页亚洲中字| 国产精选一区二区| 国产精品白丝久久av网站| 日本亚洲欧洲色| 伊人成综合网站| 久久99精品久久久久久青青91 | 成人在线综合网站| 黄色aaa级片| 久久精品网址| 日本www在线视频| 欧美激情一级片一区二区| 热这里只有精品| 精品一区电影| 欧美裸体网站| 久久国际精品| 97人人澡人人爽| 亚洲青青一区| 国产欧美日韩精品专区| 精品肉辣文txt下载| 日本三级韩国三级久久| 麻豆国产在线| 69精品小视频| 成人性生活av| 欧洲美女免费图片一区| 国产乱码精品一区二三赶尸艳谈| 午夜精品久久久久久99热| 午夜羞羞小视频在线观看| zzjj国产精品一区二区| 91xxx在线观看| 色婷婷**av毛片一区| 91网在线播放| 亚洲人在线视频| 成年人视频免费在线观看| 最近免费中文字幕视频2019| 成人性生交大片免费看午夜 | 欧美一级本道电影免费专区| 国产尤物91| 视频一区中文| 日韩一区国产在线观看| 成人在线视频免费观看| 潘金莲一级淫片aaaaa免费看| 99久久亚洲精品蜜臀| 宅男噜噜99国产精品观看免费| 精品色999| 成人毛片100部免费看| 影院欧美亚洲| 国产特级淫片高清视频| 日韩不卡手机在线v区| 91福利国产成人精品播放| 免费看欧美美女黄的网站| www.亚洲天堂网| 精品一区中文字幕| 亚洲区欧美区| 97se亚洲国产综合自在线观| ass极品国模人体欣赏| 亚洲三级电影网站| 国产一级生活片| 色老头久久综合| 国产又粗又长视频| 日韩美女视频在线| 日韩一区免费视频| 亚洲视频在线观看视频| 黄色网址在线免费| 欧美日韩国产成人在线观看| 高清不卡av| 91中文字幕在线| 欧美日韩破处| 51xx午夜影福利| 午夜影院日韩| 亚洲天堂伊人网| 盗摄牛牛av影视一区二区| 久久精品aaaaaa毛片| 禁断一区二区三区在线| 男女啪啪的视频| 母乳一区在线观看| 91日韩精品视频| va亚洲va日韩不卡在线观看| 成人性生交大片免费看无遮挡aⅴ| 国产精品夫妻自拍| 日本高清www免费视频| 欧美性猛xxx| 亚洲高清精品视频| 亚洲欧洲偷拍精品| 中文在线观看免费| 国产精品男人爽免费视频1| 亚洲专区**| 污视频在线免费观看一区二区三区 | 99中文字幕一区| 久久久亚洲精选| 亚洲视频资源| 日本一区二区在线视频观看| 中文字幕一区二区三区欧美日韩| 国产97色在线 | 日韩| 国产电影精品久久禁18| 精品欧美一区二区久久久| 综合亚洲深深色噜噜狠狠网站| 国产精品乱码一区二区视频| 日韩免费性生活视频播放| 国产理论电影在线观看| 欧美在线播放视频| 粉嫩的18在线观看极品精品| 夜夜爽www精品| 蜜桃视频一区二区| 日本xxx在线播放| 亚洲一区中文日韩| 亚洲精品国产精品国| 日韩在线小视频| 8av国产精品爽爽ⅴa在线观看| 久久亚洲午夜电影| 亚洲福利专区| 女人扒开双腿让男人捅| 亚洲精品中文在线影院| 一级黄色免费片| 国产亚洲一区精品| 日本综合视频| 欧美区高清在线| 尤物在线精品| 国产麻豆天美果冻无码视频| 夜夜嗨av一区二区三区中文字幕| 99热这里只有精品66| 久久精品99久久香蕉国产色戒| 欧洲一区二区三区精品| 免费精品视频一区| 午夜影院日韩| 精品国产无码在线观看| 日本久久电影网| 国产奶水涨喷在线播放| 综合久久一区| 91精品国产91久久久久麻豆主演| 黄色资源网久久资源365| jizz亚洲少妇| 欧美疯狂做受xxxx富婆| 成av人电影在线观看| 91精品久久久久久久久久| 日韩视频在线观看| 天天影视综合色| 成人免费一区二区三区视频| 国产又黄又猛又爽| 中文字幕日韩精品在线观看| 在线欧美激情| 300部国产真实乱| 99久精品国产| 精品不卡一区二区| 国产一区二区久久精品| 97精品资源在线观看| 黄色网zhan| 成人福利视频在线| 激情网站在线观看| 久久久精品影院| 日韩三级一区| www.日本少妇| 91免费看`日韩一区二区| 在线观看国产小视频| 北条麻妃一区二区三区中文字幕| 麻豆国产一区| 国产乱子夫妻xx黑人xyx真爽| 国产欧美一区二区精品婷婷| 一炮成瘾1v1高h| 欧美亚洲日本黄色| 欧美a级片视频|