精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架 精華

發(fā)布于 2024-12-23 09:52
瀏覽
0收藏

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2411.15738
項目鏈接:https://dcd-anyedit.github.io/

亮點直擊

  • 從全新的視角系統(tǒng)地對各種編輯指令進行分類,并創(chuàng)新性地引入了一個統(tǒng)一的編輯框架,該框架利用自適應(yīng)編輯 pipeline自動收集不同場景下的多樣化高質(zhì)量編輯數(shù)據(jù),從而以可擴展的方式進行處理。
  • 構(gòu)建了一個多類型、多場景的數(shù)據(jù)集AnyEdit,并為其設(shè)計了相應(yīng)的基準測試集AnyEdit-Test,涵蓋了25種復(fù)雜的編輯類型,以滿足現(xiàn)實世界中更廣泛的編輯需求。
  • 使用提出的AnySD方法,充分挖掘AnyEdit的潛力,在多個編輯類型中實現(xiàn)了指令遵循和圖像保真度的SOTA。

驚艷效果,一睹為快

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

總結(jié)速覽

解決的問題:

  1. 現(xiàn)有模型難以準確執(zhí)行復(fù)雜的用戶指令:由于訓(xùn)練數(shù)據(jù)質(zhì)量較低且編輯類型有限,現(xiàn)有的指令驅(qū)動的圖像編輯模型在處理復(fù)雜用戶指令時存在困難。
  2. 缺乏高質(zhì)量的指令編輯數(shù)據(jù)集:現(xiàn)有的編輯數(shù)據(jù)集數(shù)據(jù)質(zhì)量不足,且難以支持基于多模態(tài)感知和復(fù)雜指令的圖像編輯任務(wù),如空間構(gòu)圖、視角變化和常識理解等。
  3. 當前數(shù)據(jù)集在多種輸入格式和編輯需求上的適應(yīng)性差:現(xiàn)有數(shù)據(jù)集缺乏對不同編輯任務(wù)的適配,導(dǎo)致編輯結(jié)果質(zhì)量差,且生成的圖像常存在低分辨率、高噪聲或與文本不對齊的問題。

提出的方案:

  1. AnyEdit數(shù)據(jù)集:提出了一個全面的多模態(tài)指令編輯數(shù)據(jù)集,包含250萬高質(zhì)量的編輯對,涵蓋20多種編輯類型和五個領(lǐng)域。通過引入對抗合成場景來平衡數(shù)據(jù)集中的概念分布,確保編輯數(shù)據(jù)的多樣性和質(zhì)量。
  2. 自適應(yīng)編輯流程:為了適應(yīng)不同的編輯需求,AnyEdit引入了自適應(yīng)編輯流程,可以根據(jù)任務(wù)類型選擇合適的數(shù)據(jù)處理流程,提高編輯效果。
  3. 指令驗證和圖像評估:通過開發(fā)指令驗證預(yù)篩選和圖像評估后篩選策略,過濾出不合格的編輯結(jié)果,從而確保數(shù)據(jù)集質(zhì)量。
  4. AnyEdit Stable Diffusion(AnySD):提出了一種新的穩(wěn)定擴散模型,采用任務(wù)感知路由和可學(xué)習(xí)的任務(wù)嵌入來支持不同類型的編輯任務(wù),從而構(gòu)建一個強大的指令驅(qū)動的圖像編輯模型。

應(yīng)用的技術(shù):

  1. 多模態(tài)數(shù)據(jù)集:通過收集并組織2.5百萬高質(zhì)量的圖像-文本編輯對,AnyEdit涵蓋了包括局部編輯、全局編輯、相機運動編輯、隱式編輯和視覺編輯在內(nèi)的多種編輯類型。
  2. 自適應(yīng)編輯流程:通過自動化選擇適合每個任務(wù)的數(shù)據(jù)處理流程,提升數(shù)據(jù)集的適應(yīng)性。
  3. 任務(wù)感知路由:AnySD模型通過任務(wù)感知路由調(diào)整編輯的粒度(如局部物體編輯或全局風(fēng)格編輯),增強了模型在處理多種編輯任務(wù)時的適應(yīng)能力。
  4. 學(xué)習(xí)型任務(wù)嵌入:通過引入可學(xué)習(xí)的任務(wù)嵌入,AnySD模型能夠有效協(xié)調(diào)不同任務(wù)的復(fù)雜性,提升編輯效果。
  5. 圖像質(zhì)量評估:通過引入圖像質(zhì)量的預(yù)篩選和后篩選機制,確保數(shù)據(jù)集的編輯對具備高質(zhì)量。

達到的效果:

  1. 提升編輯模型的性能:通過AnyEdit數(shù)據(jù)集和AnySD模型,實驗表明AnyEdit能顯著提高擴散基礎(chǔ)編輯模型的性能,在MagicBrush和Emu-Edit基準測試中創(chuàng)下新紀錄。
  2. 更高的視覺和語義相似性:AnyEdit比現(xiàn)有的SOTA數(shù)據(jù)集提高了28.9%的視覺相似性和18.8%的語義相似性。
  3. 解決復(fù)雜任務(wù)的局限性:在AnyEdit-Test基準測試中,AnyEdit數(shù)據(jù)集幫助解決了現(xiàn)有模型在復(fù)雜任務(wù)(如動作變化)中的表現(xiàn)差異,顯著提升了模型對多場景編輯任務(wù)的處理能力。
  4. 挑戰(zhàn)現(xiàn)有基準測試的能力:AnyEdit-Test展示了現(xiàn)有基準測試在復(fù)雜任務(wù)中的局限性,強調(diào)了AnyEdit-Test在評估編輯模型能力中的重要性。

通過這些技術(shù)和方案,AnyEdit為指令驅(qū)動的圖像編輯模型的開發(fā)提供了巨大的潛力,推動了人類創(chuàng)造力的發(fā)揮。

AnyEdit

編輯類型定義

為了使基于指令的編輯模型具備全面的能力,以遵循任何創(chuàng)意構(gòu)思,制作了一個多模態(tài)圖像編輯數(shù)據(jù)集 AnyEdit,用于基于指令的圖像編輯,該數(shù)據(jù)集包含250萬對高質(zhì)量的編輯樣本,涵蓋五個主要領(lǐng)域,如圖1所示。

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

該數(shù)據(jù)集包括被劃分為五大類的編輯任務(wù),每個類別下包含不同的編輯類型:

  • 局部編輯:添加、刪除、替換、顏色變化、外觀變化、材質(zhì)變化、動作變化、文本變化、計數(shù)。
  • 全局編輯:背景變化、色調(diào)轉(zhuǎn)移、風(fēng)格變化。
  • 相機運動編輯:旋轉(zhuǎn)變化、外延繪制、移動、調(diào)整大小。
  • 隱式編輯:隱性變化、關(guān)系變化。
  • 視覺編輯:視覺參考、材質(zhì)轉(zhuǎn)移、視覺條件(如深度、分割、涂鴉、草圖、mask)。

具體來說,局部編輯針對圖像的特定區(qū)域進行修改,而不改變與之無關(guān)的語義內(nèi)容;全局編輯則影響整個圖像。相機運動編輯通過操控特定物體或場景內(nèi)整體內(nèi)容的視角來擴展這一概念。隱式編輯涉及狀態(tài)或交互模式的隱藏變化,通常需要更深的理解。視覺編輯則加入額外的視覺輸入作為參考,配合編輯指令一起使用。圖1(a)展示了每種編輯類型的示例。

自動數(shù)據(jù)集收集

通用數(shù)據(jù)準備

以往研究表明,高質(zhì)量的初始圖像有助于編輯圖像創(chuàng)作的多樣性。為了應(yīng)對現(xiàn)實世界中復(fù)雜場景下的圖像編輯需求,從已標注的數(shù)據(jù)集(如 MSCOCO 、LLaVA-CC3M-Pretrain)和多視角圖像數(shù)據(jù)集(如 MVImgNet)中收集了約 68 萬對真實世界的圖像-文本配對。隨后,使用多語言大模型(例如 VILA)來豐富這些簡短的描述,以增強描述的完整性。然而,這些圖像-文本配對存在固有的數(shù)據(jù)偏差,導(dǎo)致模型在一些沒有被廣泛覆蓋的領(lǐng)域中表現(xiàn)不佳。因此,引入了 反事實合成場景對數(shù)據(jù)集,以平衡初始圖像-文本配對的數(shù)據(jù)分布。具體來說,從互聯(lián)網(wǎng)數(shù)據(jù)中收集較少出現(xiàn)的尾部概念,并結(jié)合多個概念和上下文,通過 LLaMA-3B 生成描述。隨后,使用現(xiàn)成的 T2I 模型生成初始圖像。通過這種方式,通過引入罕見的概念組合,豐富了原始數(shù)據(jù)集,從而為 AnyEdit 數(shù)據(jù)集收集提供了約 70 萬對高質(zhì)量和多樣的圖像-文本配對,如表2所示。

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

多樣化指令生成

目標是基于初始圖像的描述,生成多樣的編輯指令和相應(yīng)的編輯后描述輸出。如圖2所示,我們利用公開的 Llama3-8b 模型將原始描述轉(zhuǎn)換為多樣的編輯指令。為了克服在生成編輯指令時指令多樣性和一致性方面的局限性,將直觀的類型約束與大語言模型(LLM)生成相結(jié)合,并使用上下文示例來開發(fā)一個針對每種編輯類型的特定任務(wù)代理。此外,將生成的編輯指令與原始描述結(jié)合,形成指令對,作為上下文示例供其進行迭代自我增強,從而逐漸提高指令的多樣性和復(fù)雜性。

自適應(yīng)編輯pipeline

傳統(tǒng)的指令編輯數(shù)據(jù)集依賴于固定的pipeline或耗時的手動篩選,這使得在復(fù)雜的編輯類型和各種輸入格式下,難以高效地生成高質(zhì)量的編輯圖像。在此,我們提出了一種自適應(yīng)的編輯pipeline視角,能夠根據(jù)特定的編輯類型定制編輯后的圖像。具體來說,設(shè)計了9條核心pipeline,用于生成局部、全局、相機運動、隱式和視覺編輯數(shù)據(jù),涵蓋了20多種編輯類型。在圖像編輯生成過程中,我們將編輯指令對與原始圖像及其變體輸入到自適應(yīng)編輯pipeline中。該pipeline根據(jù)編輯類型動態(tài)選擇量身定制的解決方案,生成與預(yù)期編輯一致的圖像。此外,在擴散過程中將額外的約束(如膨脹mask、布局和幾何引導(dǎo))融入到UNet層中,以實現(xiàn)更精確的語義對齊和減少偽影。

數(shù)據(jù)質(zhì)量增強

由于編輯數(shù)據(jù)的質(zhì)量對于在AnyEdit中訓(xùn)練強大的編輯模型至關(guān)重要,進一步引入了一個全面的數(shù)據(jù)質(zhì)量增強篩選策略。該策略包括兩個步驟:指令驗證預(yù)篩選和圖像質(zhì)量后篩選。

  • 指令驗證預(yù)篩選 注意到,來自大語言模型(LLMs)的部分編輯指令有時會引入歧義,進而不利于編輯圖像(例如,“顏色變化”編輯中的外觀變化,或“動作變化”編輯中的靜態(tài)桌面動作變化)。同時,低質(zhì)量的初始圖像(如低分辨率、不良的長寬比、缺乏美學(xué))即使經(jīng)過多輪篩選,也會導(dǎo)致編輯結(jié)果不滿意。因此,采用特定任務(wù)的啟發(fā)式規(guī)則來驗證各種指令,確保指令的一致性,并進行美學(xué)評估,以確保使用的圖像在審美上平衡,適合編輯過程。

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

特性與統(tǒng)計

得益于我們有效的自動化數(shù)據(jù)集收集方法,AnyEdit包含250萬對高質(zhì)量的編輯樣本,涵蓋25種不同的編輯類型。AnyEdit涵蓋了更廣泛的領(lǐng)域,包括視角編輯、隱式編輯和視覺編輯等復(fù)雜編輯任務(wù),并融合了更豐富的場景種類,包括概念豐富的合成場景(參見表1)。此外,圖1(b)中的AnyEdit數(shù)據(jù)分布反映了多種編輯類型的廣泛覆蓋。定量評估表明,基于語義相似度和視覺相似度指標(參見表3),AnyEdit在像素級一致性和準確反映編輯指令方面表現(xiàn)出顯著的提升(相較于UltraEdit,DINOv2提升+25.2%,CLIPin提升+16.0%)。

AnyEdit數(shù)據(jù)集集中每種編輯類型的詳細流程圖:

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

現(xiàn)有圖像編輯數(shù)據(jù)集的比較

“真實圖像”表示原始圖像來自現(xiàn)實世界,“合成圖像”表示它們來自T2I模型,“合成場景”表示圖像和描述都是為了解決固有的數(shù)據(jù)偏差而生成的:

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)


釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

方法

架構(gòu)

由于AnyEdit包含了跨多個領(lǐng)域的多種編輯指令,因此具有開發(fā)強大編輯模型的潛力,能夠處理高質(zhì)量的編輯任務(wù)。然而,訓(xùn)練這樣一個模型面臨三個額外的挑戰(zhàn):(a)對各種多模態(tài)輸入的語義對齊;(b)識別每個領(lǐng)域中的語義編輯,以控制編輯的粒度和范圍;(c)協(xié)調(diào)各種編輯任務(wù)的復(fù)雜性,以防止災(zāi)難性遺忘。為此,提出了一種新穎的AnyEdit穩(wěn)定擴散方法(AnySD),以應(yīng)對現(xiàn)實世界中的各種編輯任務(wù)。如圖3所示,AnySD包括三個設(shè)計:視覺提示投影器、任務(wù)感知路由和可學(xué)習(xí)的任務(wù)嵌入。接下來,將介紹每個AnySD設(shè)計。

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

可學(xué)習(xí)的任務(wù)嵌入

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

訓(xùn)練與推理

為了增強 AnySD 處理多樣化編輯條件的能力,引入了 CFG ,擴展自 InstructPix2Pix,用于三種條件化。此外,將 AnySD 的訓(xùn)練結(jié)構(gòu)分為兩個階段,以確保擴散模型能夠充分理解通用的編輯知識并開發(fā)細粒度的任務(wù)特定技能。

階段 I:指令理解

在此階段,為了增強模型的指令跟隨能力,凍結(jié)任務(wù)感知路由,將額外的條件設(shè)置為零張量,并僅預(yù)訓(xùn)練擴散過程中的 UNet 主干,以使其與編輯指令對齊。此外,在訓(xùn)練過程中隨機省略原始圖像和編輯指令,以增強推理時的 CFG。

階段 II:任務(wù)調(diào)整

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

推理

在推理階段,我們使用 LLMs(例如 LLaMA-3)預(yù)測編輯類型,并根據(jù)輸入的指令應(yīng)用我們的 AnySD 進行編輯。

實驗

首先在流行的標準編輯基準上評估 AnyEdit 和 AnySD,展示 AnyEdit 數(shù)據(jù)集的高質(zhì)量以及 AnySD 架構(gòu)的優(yōu)越性。此外,將評估擴展到更具挑戰(zhàn)性的 AnyEdit-Test 基準,以展示方法的擴展性,更好地與現(xiàn)實場景中的創(chuàng)意編輯需求對接。還進一步展示定性結(jié)果并進行深入分析,以說明 AnyEdit 的可擴展性和更廣泛的適用性。

實驗設(shè)置

設(shè)置

為了公平比較,采用 Stable-Diffusion 1.5 作為主干,并遵循 InstructPix2Pix的設(shè)置來訓(xùn)練我們的 AnySD。值得注意的是,僅使用 AnyEdit 數(shù)據(jù)進行訓(xùn)練,而未結(jié)合任何額外的數(shù)據(jù)集。

基準與評估指標

在兩個流行的基準上評估我們的方法:Emu Edit Test和 MagicBrush。這些標準基準通過比較編輯結(jié)果與真實值來評估編輯模型。此外,從 AnyEdit 中手動選擇了每種編輯類型的 50 個高質(zhì)量編輯數(shù)據(jù),創(chuàng)建了更具挑戰(zhàn)性和綜合性的 AnyEdit-Test 進行評估。值得注意的是,AnyEdit-Test 在訓(xùn)練期間不可見。遵循先前的工作 [17, 64, 82],采用語義相似度(例如 CLIPim 和 CLIPout)和視覺相似度(例如 DINO 和 L1 距離)指標來評估基于 AnyEdit 訓(xùn)練的 AnySD 在指令驅(qū)動圖像編輯中的效果。

基準方法

使用以下基準方法:

  • 專門的圖像編輯方法:PnP, Null-Text;
  • 基于指令的方法:它直接用自然語言編輯圖像,包括 InstructPix2Pix, MagicBrush, HIVE, EMU-Edit, UltraEdit;
  • 視覺條件方法:它針對視覺編輯,包括 Uni-ControlNet。

標準圖像編輯的主要結(jié)果

在 EMU-Edit Test 和 MagicBrush 基準上報告 AnyEdit 和其他基準方法的標準圖像編輯結(jié)果,見表 4。

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

根據(jù)實驗結(jié)果,總結(jié)了以下結(jié)論:

  • 使用 AnyEdit 的 SD-1.5,僅更改訓(xùn)練數(shù)據(jù)為 AnyEdit,在編輯對齊和內(nèi)容保留方面始終表現(xiàn)出優(yōu)越的語義性能,甚至沒有額外的掩碼監(jiān)督(在 EMU-Edit Test 上,CLIPim 為 0.872,CLIPout 為 0.285)。這突出了 AnyEdit 在掌握高質(zhì)量圖像編輯方面的有效性,驗證了其高質(zhì)量編輯數(shù)據(jù)在語義對齊和清晰的編輯結(jié)構(gòu)方面的顯著作用。
  • 使用 AnySD 模型,在 AnyEdit 數(shù)據(jù)上訓(xùn)練并采用 AnySD 架構(gòu),進一步在語義和視覺相似度上超越了 SOTA 方法(在 EMU-Edit Test 上 CLIPim 為 0.872,在 MagicBrush Test 上 DINO 為 0.881),在 MagicBrush 和 Emu-Edit 基準上創(chuàng)下新紀錄。這表明 AnySD 在遵循編輯指令的同時,能夠保持未修改圖像元素的完整性,得益于其任務(wù)感知架構(gòu),從 AnyEdit 中學(xué)習(xí)任務(wù)特定知識,提升了模型在跨任務(wù)編輯中的能力。

AnyEdit-Test 基準對比

表 5 展示了 AnyEdit-Test 基準的結(jié)果,其中每個指令旨在嚴格評估 AnyEdit 在更廣泛的挑戰(zhàn)性編輯場景中的適應(yīng)性。

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

從中可以觀察到:(i)大多數(shù)基準方法在處理標準基準中很少出現(xiàn)的復(fù)雜編輯任務(wù)時效果不佳(平均 L1 為 0.190 對比 0.121),尤其是在隱式編輯任務(wù)上,這些任務(wù)需要推理能力。這表明 AnyEdit-Test 對于評估編輯模型在復(fù)雜任務(wù)中的表現(xiàn)至關(guān)重要。(ii)即使是常見的編輯任務(wù),最先進的模型在 AnyEdit-Test 上的表現(xiàn)也出現(xiàn)了顯著下降(UltraEdit 在 CLIPim 上下降了 3.5%,在 DINO 上下降了 19.2%)。這突出了現(xiàn)有基準在評估多場景編輯中的局限性。(iii)相比之下,AnyEdit 在所有編輯類別中顯著優(yōu)于最先進的方法,展示了其在處理復(fù)雜任務(wù)中的可擴展性和魯棒性。(iv)傳統(tǒng)方法在處理視覺編輯時常常難以有效應(yīng)對額外的視覺輸入。在這種情況下,即使與經(jīng)過多種視覺條件預(yù)訓(xùn)練的 Uni-ControlNet 相比,AnyEdit 在視覺編輯任務(wù)中也始終表現(xiàn)得更好。這顯示了 AnyEdit 在處理視覺條件編輯指令時的有效性。

定性評估

由于定量指標在評估編輯任務(wù)中的局限性,進行了定性評估,以進一步評估我們方法的有效性,如圖 5 所示。

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

主要觀察結(jié)果如下:

  1. 大多數(shù)基準模型,包括人工調(diào)優(yōu)的 HIVE-c和擁有大量訓(xùn)練數(shù)據(jù)的最先進方法 UltraEdit,在處理復(fù)雜的精細化指令(例如圖 5(ii) 中的“面部畸形”和“缺失眼鏡”)時,仍然會遭遇過度編輯或錯位的情況。
  2. 由于當前數(shù)據(jù)集的多樣性和質(zhì)量有限,先前的方法(如 ip2p、MagicBrush 和 UltraEdit)在不同場景下難以推廣到新型編輯類型(例如,在旋轉(zhuǎn)變換和計數(shù)任務(wù)中未能遵循指令,或在外觀修改任務(wù)中粗略改變對象的外觀)。
  3. 相比之下,我們的方法可以有效確保目標區(qū)域的編輯精度,并在不相關(guān)區(qū)域保持一致性,即使沒有任何掩膜指導(dǎo)(如圖 5(i)、(vii))。此外,方法能夠自動區(qū)分前景和背景,并修改背景(如圖 5(v))。我們的方案還成功執(zhí)行了更復(fù)雜的編輯指令(例如圖 5(vi) 中的風(fēng)格變換和圖 5(x) 中的修復(fù))。

此外,在圖 6 中可視化了 AnyEdit 在視覺編輯中的結(jié)果。在這個具有挑戰(zhàn)性的設(shè)置下,Uni-ControlNet 僅能反映視覺條件中的像素信息,或者保留原始圖像的語義而不執(zhí)行任何編輯。相比之下,對于各種視覺指令,AnyEdit 始終能夠理解視覺條件中的像素信息并實現(xiàn)可靠的編輯。這些有前景的可視化結(jié)果確認了 AnyEdit 在處理視覺條件編輯指令時的有效性和高質(zhì)量。

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

深入分析

AnySD 架構(gòu)

調(diào)查了每個組件的有效性,并在 EMU-Edit Test 基準上進行了以下實驗:

  • 我們移除了 AnySD 中的文本感知路由策略(參見表 6 的第 1 行),發(fā)現(xiàn)其導(dǎo)致了顯著的性能下降(CLIPim 從 0.838 降至 0.872,L1 從 0.154 降至 0.070),表明該策略對于適應(yīng)多樣的圖像編輯任務(wù)至關(guān)重要。
  • 移除了 AnySD 中的任務(wù)嵌入,觀察到這對語義對齊的影響較小,但對視覺一致性有顯著影響(參見表 6 的第 2 行),這表明任務(wù)嵌入在跨注意力過程中控制了像素信息的感知粒度。

釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架-AI.x社區(qū)

AnyEdit 中數(shù)據(jù)擴展的分析

在圖 4 中,分析了 AnyEdit 數(shù)據(jù)擴展對圖像編輯能力的影響。觀察到:

  • 對于一致性指標(例如 CLIPim 和 DINO),隨著數(shù)據(jù)規(guī)模的增加,性能逐步提升;
  • 對于編輯準確性指標(例如 CLIPout),即使數(shù)據(jù)量較少,也能實現(xiàn)令人滿意的性能,表明 AnyEdit 在語義對齊方面表現(xiàn)優(yōu)異;
  • 此外,移除了在反事實合成場景中的 AnyEdit-Composition 編輯數(shù)據(jù),如表 6 第 3 行所示,缺乏概念平衡會限制 AnySD 的泛化能力,導(dǎo)致語義性能下降(CLIPout 降低了 4.9%)。這證實了反事實合成場景在編輯任務(wù)泛化中的有效性。

結(jié)論

這項工作提出了一種新的編輯任務(wù)分類視角,并引入了一個統(tǒng)一框架,利用自適應(yīng)pipeline構(gòu)建低資源環(huán)境下適用于多樣編輯任務(wù)的高質(zhì)量數(shù)據(jù)。在此基礎(chǔ)上,提出了 AnyEdit,這是一個多類型、多場景的基于指令的編輯數(shù)據(jù)集,包含 250 萬個編輯樣本,覆蓋 25 種不同類型,并配套 AnyEdit-Test 基準,開啟了統(tǒng)一圖像編輯的更全面的范式。此外,開發(fā)了強大的 AnySD,充分釋放了 AnyEdit 的潛力。通過在標準基準和具有挑戰(zhàn)性的 AnyEdit-Test 上的廣泛實驗,證明了我們的方法在多樣任務(wù)和場景下的高質(zhì)量圖像編輯能力,能夠準確執(zhí)行復(fù)雜指令,同時保持未修改元素的圖像一致性。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/3LAh7-HTdwSFZMEGR_EdZA??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
国产一区二区久久| 日韩午夜电影网| 色天天综合久久久久综合片| 天天综合色天天综合色hd| 国产精品视频在线观看免费| 黄色日韩精品| 中文字幕亚洲欧美在线| 日本中文字幕有码| 色成人免费网站| 午夜时刻免费入口| 91综合久久爱com| 欧美在线免费播放| www.69av| 岛国在线大片| www.在线成人| 成人免费视频97| 日本免费精品视频| 伊人久久成人| 久久夜色撩人精品| 久久精品成人av| 9l亚洲国产成人精品一区二三| 色综合久久久久久久久| 欧洲精品在线播放| 毛片免费不卡| 国产欧美一区视频| 精品蜜桃一区二区三区| 国产特级aaaaaa大片| 日韩福利视频网| 97超级碰碰人国产在线观看| 老熟妇高潮一区二区三区| 九九视频精品全部免费播放| 精品国精品自拍自在线| 日本高清久久久| 欧美无毛视频| 午夜精品爽啪视频| 精品久久久久久无码中文野结衣| 日本在线观看视频| 中文字幕乱码日本亚洲一区二区| 欧美激情专区| 完全免费av在线播放| 色先锋aa成人| 69堂免费视频| av剧情在线观看| 亚洲综合精品自拍| 永久免费网站视频在线观看| 欧洲不卡视频| 日韩理论片中文av| 一级黄色录像免费看| av网页在线| 久久久久久久久久久久久女国产乱| 国产伦精品一区二区三区高清| 国产极品久久久| 国内精品写真在线观看| 成人免费视频网| 国产老女人乱淫免费| 精品影院一区二区久久久| 国产精品丝袜久久久久久高清| 一级片在线免费播放| 日韩av中文在线观看| 亚洲.国产.中文慕字在线| 看全色黄大色大片| 午夜dj在线观看高清视频完整版| 亚洲日本va在线观看| 色婷婷777777仙踪林| av网站网址在线观看| 一区二区三区在线不卡| 久久99久久99精品| 美女高潮在线观看| 日本韩国精品一区二区在线观看| 激情综合网俺也去| 日本电影久久久| 欧美一区二区三区在| 天天爽夜夜爽视频| 精品一区二区男人吃奶| 日韩精品视频免费| 四虎成人免费影院| 在线观看国产精品入口| 久久久伊人欧美| 天天操天天干视频| 蜜桃av一区二区| 51精品国产人成在线观看| 亚洲第一成人av| 91网站在线观看视频| 日本高清不卡一区二区三| 免费av在线| 偷偷要91色婷婷| 国产高潮免费视频| 日韩中文一区二区| 亚洲男子天堂网| 波多野结衣欲乱| 激情综合自拍| 国产精品日韩在线观看| 成人av免费播放| 久久综合一区二区| ijzzijzzij亚洲大全| 国产激情在线播放| 欧美电影在线免费观看| 亚洲精品女人久久久| 日韩.com| 欧美一级电影久久| 国产绿帽刺激高潮对白| 91麻豆视频网站| 青青在线免费视频| 3d性欧美动漫精品xxxx软件| 日韩一区二区三区高清免费看看| 加勒比一区二区| 欧美福利视频| 国产精品欧美激情在线播放| 十八禁一区二区三区| 中文字幕中文在线不卡住| 国产精品无码人妻一区二区在线| 婷婷久久免费视频| 精品偷拍各种wc美女嘘嘘| 国精品无码一区二区三区| 麻豆久久精品| 国产自产在线视频一区| 国产精品刘玥久久一区| 欧洲国内综合视频| 中文字幕丰满孑伦无码专区| 国户精品久久久久久久久久久不卡| 国产精品日韩在线一区| 女人天堂在线| 香蕉成人伊视频在线观看| 亚洲精品mv在线观看| av一区二区高清| 6080yy精品一区二区三区| 国产wwwxxx| 中文字幕日韩精品一区| 欧美性猛交xxx乱久交| 天天躁日日躁狠狠躁欧美巨大小说 | 日韩av电影在线免费播放| 亚洲精选一区二区三区| 国产精品成人免费在线| 亚洲国产高清av| 久操国产精品| 欧美资源在线观看| 四虎在线视频| 午夜精品爽啪视频| 中文文字幕文字幕高清| 欧美视频成人| av激情久久| 欧美卡一卡二| 日韩精品一区二区三区三区免费| 青花影视在线观看免费高清| 久久99精品国产麻豆婷婷| 亚洲一区二区高清视频| 国产精品久久久久久妇女| 亚洲色在线视频| 午夜精品免费观看| 国产女人水真多18毛片18精品视频| 99爱视频在线| 国产精品嫩模av在线| 热草久综合在线| 九色在线播放| 欧美色视频一区| 成人涩涩小片视频日本| 国产九色精品成人porny| 一二三四中文字幕| 国产一区在线电影| 97色在线观看| 户外极限露出调教在线视频| 欧美偷拍一区二区| 国产美女高潮视频| 粉嫩绯色av一区二区在线观看| 99国产精品白浆在线观看免费| 97se亚洲| 日本高清久久天堂| 91caoporn在线| 日韩一区二区免费在线电影| 豆国产97在线 | 亚洲| 99久久精品久久久久久清纯| 日韩一级免费在线观看| 欧美韩国日本在线观看| 97自拍视频| 大胆人体一区二区| 中文字幕久久久av一区| av观看在线免费| 午夜精品一区二区三区三上悠亚| 色婷婷在线影院| 精品在线亚洲视频| 欧美综合在线播放| 成人黄色av| 不卡一卡2卡3卡4卡精品在| 亚洲黄色中文字幕| 久久久999精品视频| 天堂国产一区二区三区| 欧洲av在线精品| 久久99久久98精品免观看软件| 26uuu国产在线精品一区二区| 中文字幕视频在线免费观看| 欧美三区不卡| 神马影院午夜我不卡影院| 麻豆精品一区| 国产成人福利视频| 在线中文免费视频| 亚洲午夜未满十八勿入免费观看全集| 亚洲天堂狠狠干| 欧美日韩另类字幕中文| 午夜激情福利电影| 久久综合狠狠综合| 日韩精品――色哟哟| 久久亚洲二区| 久久综合久久网| 色爱综合网欧美| 国内一区二区在线视频观看| 日韩成人在线电影| 国产91热爆ts人妖在线| 色呦呦在线看| 日韩在线中文字| 精品一二三区视频| 亚洲电影在线看| 国产精品自偷自拍| 欧美午夜电影网| 少妇一级淫片免费放中国 | 粉嫩av一区二区三区在线播放 | 日韩专区视频网站| 日本欧美爱爱爱| xxx.xxx欧美| 欧美高清在线播放| 免费在线午夜视频| 一区二区三区国产在线观看| 日韩中文字幕免费观看| 日韩午夜av一区| 一二区在线观看| 在线视频中文字幕一区二区| 日韩精品乱码久久久久久| 久久99国内精品| 免费在线观看的毛片| 夜夜嗨一区二区三区| 国产精品久久久久久久久电影网| 91欧美在线| 亚洲午夜精品久久久中文影院av| 亚洲丝袜啪啪| 久久99导航| 欧美a一欧美| 久久99精品久久久水蜜桃| 2021年精品国产福利在线| 5566中文字幕一区二区| 成人激情久久| 91在线中文字幕| 精品国产伦一区二区三区观看说明 | 国产精选一区二区三区| 久久精品国产露脸对白| 精品一区二区三区免费播放| 99sesese| 激情深爱一区二区| 真实乱偷全部视频| 国产91精品一区二区| 男人网站在线观看| 成人av在线播放网址| 国产不卡一二三| 99国产精品久久| 中文字幕狠狠干| 欧美精彩视频一区二区三区| 国产又粗又硬视频| 国产精品短视频| 日本a级片视频| 亚洲午夜一区二区三区| 日韩欧美视频在线免费观看| 福利一区福利二区微拍刺激| 国产suv精品一区二区33| 欧美性猛片xxxx免费看久爱| 亚洲特级黄色片| 日韩精品一区二区三区四区| 少妇人妻一区二区| 亚洲一品av免费观看| 91视频在线观看| 欧美日韩国产二区| 一区二区三区短视频| 国产精品老女人精品视频| 久久精品嫩草影院| 国产精品久久久久久久天堂第1集 国产精品久久久久久久免费大片 国产精品久久久久久久久婷婷 | 久久精品无码一区二区三区 | 一区二区三区在线高清| 久久草视频在线| 日韩人体视频一二区| 在线视频1卡二卡三卡| 日韩一区二区三区免费看 | 亚洲天天综合网| 91精品国产麻豆| 无码国产伦一区二区三区视频| 亚洲色图校园春色| av在线免费观看网址| 欧美伊久线香蕉线新在线| 国产综合色激情| 国产精品一国产精品最新章节| 精品在线播放| 国产视频在线观看网站| 久久综合图片| 国产伦理在线观看| 国产视频在线观看一区二区三区| 成人免费精品动漫网站| 欧美日韩国产页| 国产原创中文av| 亚洲精品成人久久| 免费av在线网址| 国产mv免费观看入口亚洲| 国产美女视频一区二区| 日本黑人久久| 在线不卡视频| 天天色天天干天天色| 国产肉丝袜一区二区| 妺妺窝人体色www在线下载| 日本高清无吗v一区| 欧洲精品久久一区二区| 色婷婷综合成人| 第四色男人最爱上成人网| 超碰97国产在线| 天天射成人网| 动漫av免费观看| 成人精品视频.| 在线免费日韩av| 欧美日韩一区二区电影| 精品亚洲综合| 97人人爽人人喊人人模波多| 久久在线观看| 亚洲永久激情精品| 日韩电影一二三区| 亚洲人人夜夜澡人人爽| 亚洲成人av福利| 囯产精品久久久久久| 久久精品99国产精品酒店日本| 欧美精选视频一区二区| 精品午夜一区二区| 国语对白精品一区二区| 中文字幕1234区| 日韩一区欧美一区| 中文字字幕在线观看| 亚洲人成电影网| 日韩欧美看国产| 欧美日韩成人一区二区三区| 亚洲免费播放| 成人做爰www看视频软件| 亚洲一区二区三区自拍| av网站在线观看免费| 久久亚洲精品网站| 少妇精品视频在线观看| 资源网第一页久久久| 美国三级日本三级久久99| 日本黄色小视频在线观看| 欧美午夜精品一区| 亚洲1卡2卡3卡4卡乱码精品| 国产精品久久久久久网站 | 久久亚洲综合色| 亚洲第一在线播放| 亚洲欧美激情一区| 亚洲成人激情社区| 亚洲精品一区二区三区樱花| 青青青伊人色综合久久| sm捆绑调教视频| 日韩一区二区三区电影| 欧美人与禽猛交乱配| 国产亚洲一区二区三区在线播放| 亚洲精品孕妇| wwwwxxxx国产| 欧美日韩黄色影视| 黄色网页在线观看| 成人国产1314www色视频| 激情综合激情| 中文字幕丰满乱子伦无码专区| 在线欧美日韩精品| 欧美尤物美女在线| 1卡2卡3卡精品视频| 亚洲欧洲另类| 男人天堂av电影| 欧美日韩一区二区三区免费看| 操你啦视频在线| 久久精品综合一区| 日本三级亚洲精品| 日本在线一级片| 亚洲国产成人在线播放| 欧美与亚洲与日本直播| 国产免费色视频| 成人晚上爱看视频| 国产suv精品一区二区33| xvideos亚洲| 国产伦精品一区二区三区在线播放 | 日韩精品欧美国产精品忘忧草| 欧美日韩视频免费观看| 先锋影音男人资源| 91香蕉视频黄| 国产精品视频无码| 欧美一级大片视频| 亚洲色图国产| 免费看污黄网站在线观看| 欧美日韩一区二区欧美激情| 97久久人人超碰caoprom| 日韩精品久久一区二区三区| 国产一区二区在线影院| 天天爽夜夜爽夜夜爽精品| 久久精品中文字幕电影| 欧洲精品一区| 天堂av2020| 色偷偷久久一区二区三区| 制服丝袜中文字幕在线| 手机成人在线| 99久久99久久精品免费观看| 国产又粗又长又黄| 欧美一区二区三区四区在线| 在线国产一区|