精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大

發(fā)布于 2024-12-25 09:21
瀏覽
0收藏

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2412.17098
Github鏈接:https://zj-binxia.github.io/DreamOmni-ProjectPage/

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

亮點(diǎn)直擊

  • 對(duì)現(xiàn)有的模型框架進(jìn)行了分析,并基于不同任務(wù)的特點(diǎn),提出了一種高效且強(qiáng)大的統(tǒng)一圖像生成與編輯框架——DreamOmni
  • 引入了一種合成拼貼數(shù)據(jù)pipeline,用以解決當(dāng)前創(chuàng)建和篩選高質(zhì)量編輯數(shù)據(jù)的低效性和困難。此外,還利用該合成拼貼數(shù)據(jù)pipeline來提高T2I模型輸出的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,合成數(shù)據(jù)是一種高效、優(yōu)質(zhì)且具有成本效益的方法,能夠擴(kuò)展數(shù)據(jù)規(guī)模,進(jìn)而實(shí)現(xiàn)統(tǒng)一的圖像生成與編輯訓(xùn)練。
  • 經(jīng)過統(tǒng)一訓(xùn)練后,結(jié)合T2I數(shù)據(jù)和多種合成數(shù)據(jù)集,DreamOmni展示了具有競(jìng)爭(zhēng)力的T2I生成能力,并在一系列編輯任務(wù)中表現(xiàn)出色。

總結(jié)速覽

解決的問題

文生圖遇到了一些挑戰(zhàn):

  • 將這些模型適應(yīng)到下游應(yīng)用通常需要以不同的方式集成各種插件(如ControlNet和IP-adapter),或擴(kuò)展輸入通道(例如,SD-inpainting 、InstructP2P)。這種對(duì)專門化框架的依賴限制了多任務(wù)泛化能力,并增加了部署的復(fù)雜性。
  • 高質(zhì)量和準(zhǔn)確的編輯數(shù)據(jù)難以獲得,包括基于指令的編輯、拖拽編輯和主題驅(qū)動(dòng)的生成數(shù)據(jù)。

提出的方案

  • 提出將T2I模型與多種編輯任務(wù)(如基于指令的編輯、圖像修復(fù)與擴(kuò)展、拖拽編輯以及參考圖像生成)統(tǒng)一到一個(gè)框架中。
  • 引入了一個(gè)高效的合成數(shù)據(jù)pipeline,用于高效且準(zhǔn)確地構(gòu)建編輯數(shù)據(jù),促進(jìn)原生統(tǒng)一生成與編輯模型的訓(xùn)練。

應(yīng)用的技術(shù)

  • DreamOmni:DreamOmni框架支持統(tǒng)一的圖像生成與編輯,具有快速的訓(xùn)練收斂速度和強(qiáng)大的性能。
  • 一種基于拼貼的合成數(shù)據(jù)生成流程。該流程可以高效地生成用于各種編輯任務(wù)的數(shù)據(jù),例如在基于指令的編輯中進(jìn)行添加、刪除和替換操作,在拖拽編輯中進(jìn)行平移、縮放和旋轉(zhuǎn)操作。此外,它還支持參考圖像生成以及分割與檢測(cè)任務(wù)。此外,合成數(shù)據(jù)生成流程提高了T2I(文本到圖像)生成的準(zhǔn)確性,特別是對(duì)于與文本、幾何形狀、顏色、位置和數(shù)量相關(guān)的屬性。

達(dá)到的效果

T2I視覺比較

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

圖像修復(fù)比較

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

圖像條件生成比較

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

主題驅(qū)動(dòng)生成的視覺比較

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

基于指令的編輯的視覺比較

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

拖動(dòng)編輯的視覺比較

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

方法論

多任務(wù)統(tǒng)一化是計(jì)算機(jī)視覺和人工智能領(lǐng)域的一個(gè)趨勢(shì)和追求,它不僅增強(qiáng)了模型的可用性,減少了部署的復(fù)雜性,還能實(shí)現(xiàn)協(xié)同訓(xùn)練,從而促進(jìn)任務(wù)之間的協(xié)同效應(yīng)。然而,目前的T2I基礎(chǔ)模型主要是專門為T2I設(shè)計(jì)的,通常忽視了與其他任務(wù)(如各種圖像編輯任務(wù))整合的潛力。為此,提出了DreamOmni,一個(gè)統(tǒng)一的圖像生成與編輯模型。從三個(gè)方面設(shè)計(jì)并訓(xùn)練了DreamOmni:

  • 在公平的環(huán)境下比較了各種框架,并基于不同任務(wù)的特性設(shè)計(jì)了一個(gè)強(qiáng)大且訓(xùn)練收斂速度快的框架,支持統(tǒng)一的多任務(wù)處理。
  • 提出了一個(gè)便捷、高效且準(zhǔn)確的合成數(shù)據(jù)流程,用于擴(kuò)展數(shù)據(jù)規(guī)模,以促進(jìn)多任務(wù)的統(tǒng)一訓(xùn)練并增強(qiáng)模型的指令跟隨能力。
  • 介紹DreamOmni的訓(xùn)練方案。

T2I和各種編輯任務(wù)的本地統(tǒng)一訓(xùn)練可以防止概念遺忘和生成質(zhì)量下降,同時(shí)增強(qiáng)模型的編輯和提示跟隨能力。

框架

旨在設(shè)計(jì)一個(gè)統(tǒng)一且強(qiáng)大的圖像生成與編輯框架。目前,不同的編輯模型通常有不同的結(jié)構(gòu)設(shè)計(jì)。例如,IP-adapter和 BLIP-Diffusion通過跨注意力注入信息以保持主體的一致性;而InstructP2P通過為模型添加不同數(shù)量的輸入通道來實(shí)現(xiàn)編輯一致性。這些結(jié)構(gòu)是針對(duì)特定任務(wù)量身定制的,缺乏通用性。因此,如下圖2 (a) 所示,將VLM特征與噪聲隱空間變量進(jìn)行拼接,并將其輸入到DIT塊進(jìn)行聯(lián)合多頭自注意力操作。

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

之后,VLM特征和噪聲隱空間變量會(huì)通過FeedForward模塊進(jìn)行處理。這使得模型能夠自主學(xué)習(xí)任何層次的特征(從整體一致性到主體一致性)進(jìn)行編輯和生成。值得注意的是,對(duì)于FeedForward模塊,將VLM特征和噪聲隱空間變量分開,通過兩個(gè)不同的FeedForward模塊進(jìn)行處理,且網(wǎng)絡(luò)結(jié)構(gòu)相同。此外,并沒有使用CLIP或 T5作為文本編碼器,而是引入了一個(gè)視覺-語言模型(VLM),使得圖像和文本提示可以共同理解與編碼。


在當(dāng)前的框架設(shè)計(jì)中,一些工作,如DIT,是在標(biāo)簽條件生成下進(jìn)行比較的,而不是T2I。然而,T2I本質(zhì)上比基于標(biāo)簽的生成更為復(fù)雜,因?yàn)樗枰珊屠斫鈴?fù)雜的提示。此外,許多T2I模型,例如SDXL,使用了不同的模型大小、數(shù)據(jù)集和訓(xùn)練設(shè)置。這種差異使得評(píng)估不同模型組件對(duì)整體性能的影響變得具有挑戰(zhàn)性。此外,SDXL在其UNet結(jié)構(gòu)中融合了許多Transformer塊。


那么,為什么DIT能夠超越SDXL呢? 為了解決這個(gè)問題,進(jìn)行了大量的實(shí)驗(yàn),如圖3所示。觀察到DIT優(yōu)于Unet,因?yàn)镈IT將大部分計(jì)算分配到2×下采樣的隱空間變量,而Unet將更多計(jì)算分配到4×下采樣的隱空間變量。由于在1×隱空間變量上的注意力操作會(huì)帶來內(nèi)存負(fù)擔(dān),進(jìn)一步采用殘差卷積塊來細(xì)化1×隱空間變量的生成細(xì)節(jié)。此外,還觀察到,在UNet框架中使用長連接可以顯著加速模型的訓(xùn)練收斂速度,而不會(huì)影響性能。如圖2 (a)所示,將早期和后期的特征沿通道維度進(jìn)行拼接,并應(yīng)用線性層將這兩個(gè)特征合并。值得注意的是,VLM特征和噪聲隱空間變量使用的線性層是不同的。

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

合成數(shù)據(jù)

除了統(tǒng)一框架外,還需要大量數(shù)據(jù)來支持聯(lián)合訓(xùn)練。雖然T2I數(shù)據(jù)比較容易獲取,但為像基于指令的編輯任務(wù)創(chuàng)建和篩選準(zhǔn)確、高質(zhì)量的數(shù)據(jù)要復(fù)雜得多。為了解決這一問題,引入了一個(gè)合成拼貼數(shù)據(jù)流程,能夠高效且準(zhǔn)確地生成所需的編輯數(shù)據(jù)。如圖2 (b) 所示,流程涵蓋了六個(gè)任務(wù)。值得注意的是,這并不是合成流程的全部能力;它還能夠處理更復(fù)雜的任務(wù)組合。

  • T2I生成:如圖2 (b)所示,除了常規(guī)的T2I數(shù)據(jù)外,通過結(jié)合合成數(shù)據(jù)進(jìn)一步增強(qiáng)模型在T2I任務(wù)中的表現(xiàn),特別是在文本、形狀、位置、數(shù)量和顏色生成方面。具體來說,對(duì)于文本,在空白畫布上隨機(jī)生成單詞或短語,使用各種字體、顏色、厚度和大小。對(duì)于形狀和數(shù)量,隨機(jī)創(chuàng)建具有不同數(shù)量、顏色和大小的幾何形狀,并將它們排列在畫布上。基于這些屬性及其位置,我們生成準(zhǔn)確的提示,并通過LLM進(jìn)一步優(yōu)化。此外,使用多種貼紙和分割數(shù)據(jù)進(jìn)行合成,將它們放置在畫布上并計(jì)算它們的精確空間關(guān)系。這些提示隨后會(huì)由LLM生成并進(jìn)一步優(yōu)化,以產(chǎn)生更自然的描述。
  • 修復(fù)與擴(kuò)展:隨機(jī)生成用于涂抹、塊狀物和圖像邊緣的mask。值得注意的是,在訓(xùn)練過程中,除了將被遮罩的圖像及其相應(yīng)的mask輸入到VLM進(jìn)行編碼外,還以50%的概率包含圖像描述。
  • 基于指令的編輯:將任務(wù)分為三種操作:添加、刪除和替換。對(duì)于刪除和替換操作,隨機(jī)選擇一個(gè)背景圖像和一個(gè)物體圖像來創(chuàng)建源圖像。在刪除情況下,目標(biāo)圖像僅為背景圖像;對(duì)于替換,目標(biāo)圖像通過將物體替換為不同的物體來生成。值得注意的是,對(duì)于添加,由于需要將添加的物體放置在與背景相對(duì)的合適位置,在本論文中使用了空白背景。
  • 拖動(dòng)編輯:將數(shù)據(jù)分為三種類型:平移、縮放和旋轉(zhuǎn)。值得注意的是,Instadrag 將每一對(duì)拖動(dòng)點(diǎn)視為一張獨(dú)立的圖像,這種方法較為稀疏且由于固定的拖動(dòng)點(diǎn)數(shù)量要求,實(shí)用性較差。因此,使用格式  表示每個(gè)拖動(dòng)點(diǎn),作為提示輸入,其中 和 表示源圖像中拖動(dòng)點(diǎn)的坐標(biāo),dx 和 dy 表示平移向量。此外,我們通過將這些坐標(biāo)除以圖像的寬度或高度來對(duì)其進(jìn)行歸一化。
  • 參考圖像生成:將數(shù)據(jù)分為兩種類型:基于圖像的生成,類似于ControlNet,和基于主體的生成。對(duì)于基于圖像的生成,首先選擇高質(zhì)量的圖像,并創(chuàng)建相應(yīng)的Canny圖、深度圖和分割mask作為訓(xùn)練的源圖像。對(duì)于基于主體的生成,合成源圖像,并隨機(jī)選擇這些圖像中的物體來創(chuàng)建目標(biāo)圖像。模型通過參考源圖像中的特定屬性生成新的內(nèi)容,從而能夠靈活地生成多樣的場(chǎng)景和主體。
  • 分割與檢測(cè):隨機(jī)選擇一個(gè)背景圖像和一個(gè)物體圖像,將它們合成成源圖像。隨后,應(yīng)用顏色操作或在物體區(qū)域畫一個(gè)邊框,基于物體圖像的Alpha通道來獲得目標(biāo)圖像。


總體來說,合成拼貼數(shù)據(jù)流程既高效又精確,能夠輕松生成數(shù)十億種多樣化的編輯圖像。它非常適合用于DreamOmni的大規(guī)模預(yù)訓(xùn)練和微調(diào)。

模型訓(xùn)練

經(jīng)過仔細(xì)考慮,為DreamOmni的DIT模型選擇了2.5B參數(shù)的模型大小。這一大小在確保強(qiáng)大性能的同時(shí),也能保證用戶友好性。對(duì)于VLM編碼器,直接采用了Qwen2-VL 7B模型,基于以下三個(gè)原因:

  • 它支持任意分辨率的圖像輸入;
  • 它提供強(qiáng)大的模型性能;
  • 它是以寬松的開源許可證發(fā)布的。


VLM特征來源于Qwen2-VL的倒數(shù)第二層。此外,使用FLUX-schnell的VAE作為DreamOmni的VAE,它保留了更多的隱空間通道,使模型能夠捕捉更細(xì)致的圖像細(xì)節(jié)。此外,我們使用Rectified Flow優(yōu)化DreamOmni,該方法通過在噪聲和數(shù)據(jù)之間沿直線插值執(zhí)行前向過程。使用損失L對(duì)DreamOmni進(jìn)行訓(xùn)練:

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

其中, 表示在時(shí)間步t的噪聲特征圖。真實(shí)圖像通過VAE編碼到隱空間空間以得到z。這里,表示高斯噪聲,表示DIT模型,是條件信息。

T2I訓(xùn)練數(shù)據(jù)集包括1.25億張圖像,涵蓋了LAION數(shù)據(jù)集(1.03億)和收集的數(shù)據(jù)(2200萬)。這些圖像已通過InternVL2 進(jìn)行了標(biāo)注。對(duì)于合成數(shù)據(jù),如T2I、指令編輯、修復(fù)與擴(kuò)展、拖動(dòng)編輯和參考圖像生成,分別生成了1200萬張圖像,總數(shù)大約為6000萬張。此外,對(duì)于分割與檢測(cè),生成了800萬張圖像。在訓(xùn)練之前,為了提高訓(xùn)練速度,首先將提示編碼為VLM特征。


訓(xùn)練過程分為三個(gè)階段。在第一階段,使用256×256大小的圖像,批次大小為2048,學(xué)習(xí)率為1×10??,進(jìn)行377K次迭代;在第二階段,使用512×512大小的圖像,批次大小為1024,學(xué)習(xí)率為5×10??,進(jìn)行189K次迭代;在最后階段,從12M高質(zhì)量T2I數(shù)據(jù)中隨機(jī)抽取1M張高質(zhì)量圖像,并結(jié)合每種合成數(shù)據(jù)類型,訓(xùn)練1024×1024大小的圖像,批次大小為256,學(xué)習(xí)率為2×10??,進(jìn)行140K次迭代。


所有實(shí)驗(yàn)均在64個(gè)A100 GPU上進(jìn)行。此外,為了使模型能夠生成不同分辨率的圖像,在訓(xùn)練時(shí),類似于SDXL的方法,依據(jù)圖像的縱橫比將圖像分成31個(gè)buckets,縱橫比從4:1到1:4不等。

實(shí)驗(yàn)

框架評(píng)估

在相似的設(shè)置下比較了幾種T2I模型框架,以識(shí)別有效的組成部分。使用相同的VAE、CLIP文本編碼器、參數(shù)、運(yùn)行時(shí)間以及LAION訓(xùn)練/測(cè)試數(shù)據(jù)集,評(píng)估了基于Unet的SDXL、基于DIT的Pixart、SD3-Medium和DreamOmni變體。值得注意的是,如圖3所示,為了便于比較,并沒有使用DreamOmni的全部2.5B參數(shù),而是將所有模型的參數(shù)調(diào)整為0.85B。DreamOmni-V1具有與SDXL相同的兩個(gè)下采樣層(2×和4×),但缺少Unet連接。

DreamOmni-V2在DreamOmni-V1的基礎(chǔ)上增加了Unet連接,而DreamOmni-V3進(jìn)一步集中所有DIT操作于2×下采樣的隱空間空間。

  1. 有Unet連接的模型(如SDXL、DreamOmni-V2、DreamOmni-V3)顯示出比沒有Unet連接的模型(如SD3-Medium、DreamOmni-V1)更快的收斂速度。尤其是,DreamOmni-V3的收斂速度比SD3-Medium快四倍,顯著提升了訓(xùn)練和微調(diào)效率。
  2. 比較DreamOmni-V3和DreamOmni-V2時(shí),發(fā)現(xiàn)將DIT模塊的計(jì)算集中在更高分辨率的隱空間空間(2×)上,更具成本效益。

T2I生成評(píng)估

如表1所示,我們的合成數(shù)據(jù)顯著提升了DreamOmni在T2I生成方面的能力,特別是在數(shù)量、顏色和位置方面,使得我們的模型在GenEval上取得了SOTA結(jié)果。值得注意的是,SD3-Medium 是一個(gè)2B的開源SOTA T2I模型,參數(shù)與我們的DreamOmni相似。此外,圖4展示了定性結(jié)果。可以看到,DreamOmni的輸出不僅視覺上更具吸引力,而且與給定的提示更為一致。

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

修復(fù)評(píng)估

將DreamOmni與ControlNet-Inpainting和SD-Inpainting 在我們的高質(zhì)量評(píng)估數(shù)據(jù)集上進(jìn)行了比較,以評(píng)估其性能。定量結(jié)果如表2所示,表明DreamOmni在生成質(zhì)量和一致性方面顯著優(yōu)于ControlNet-Inpainting和SD-Inpainting。視覺結(jié)果(圖5)進(jìn)一步強(qiáng)調(diào)了DreamOmni在生成細(xì)節(jié)方面的優(yōu)勢(shì),超越了ControlNet-Inpainting和SD-Inpainting。此外,DreamOmni在處理大面積掩碼時(shí)非常有效,能夠生成逼真的內(nèi)容,而不是模糊和不一致的輸出。

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

參考圖像生成評(píng)估

對(duì)于基于圖像的生成,與ControlNet 在Canny圖、深度圖和分割圖像條件下進(jìn)行了比較。圖6展示了視覺結(jié)果。這些結(jié)果表明,在所有測(cè)試條件下,DreamOmni明顯優(yōu)于ControlNet。方法不僅能更忠實(shí)地遵循圖像條件和提示,還表現(xiàn)出更好的視覺質(zhì)量,具有更好的構(gòu)圖和更豐富的細(xì)節(jié)。

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

對(duì)于基于主體的圖像生成,將我們的方法與競(jìng)爭(zhēng)方法(如BLIP-Diffusion和IP-Adapter)進(jìn)行了比較。為了展示DreamOmni強(qiáng)大的泛化能力,在動(dòng)漫和攝影圖像上驗(yàn)證了其性能。圖7展示了視覺結(jié)果。與其他方法相比,我們的DreamOmni不僅能有效保留指定的主體,而且能較好地遵循提示。

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

指令編輯評(píng)估

將DreamOmni與MGIE 和InstructP2P 等競(jìng)爭(zhēng)方法進(jìn)行了比較。圖8展示了視覺結(jié)果。可以看到,DreamOmni在添加、刪除和替換操作上表現(xiàn)出更精確的編輯。具體來說,編輯結(jié)果展現(xiàn)出較高的一致性,對(duì)未編輯區(qū)域的變化最小,并且生成的編輯內(nèi)容質(zhì)量較高。這進(jìn)一步驗(yàn)證了我們的合成數(shù)據(jù)pipeline是一種高效且有效的創(chuàng)建基于指令編輯數(shù)據(jù)集的方法,能夠使模型學(xué)習(xí)精準(zhǔn)的指令編輯。此外,合成數(shù)據(jù)pipeline的高效性使得模型能夠輕松擴(kuò)展多樣化的訓(xùn)練數(shù)據(jù)。

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

拖動(dòng)編輯評(píng)估

在合成評(píng)估數(shù)據(jù)集上對(duì)DreamOmni進(jìn)行了評(píng)估。下圖9展示了視覺結(jié)果。

  • 與目標(biāo)圖像相比,DreamOmni能夠準(zhǔn)確執(zhí)行平移、旋轉(zhuǎn)和縮放的拖動(dòng)編輯。
  • 對(duì)于平移和縮放,DreamOmni能夠保持拖動(dòng)物體的完整性。然而,大范圍的旋轉(zhuǎn)操作對(duì)DreamOmni來說更具挑戰(zhàn)性,因?yàn)樗婕拔矬w自身的復(fù)雜變換,這可能導(dǎo)致編輯物體的變形。
  • 這些結(jié)果展示了我們的合成數(shù)據(jù)pipeline在拖動(dòng)編輯方面的有效性,通過將拖動(dòng)點(diǎn)位置和位移信息編碼為指令輸入,使得模型能夠?qū)W習(xí)精確的拖動(dòng)編輯(如前面圖2所示)。

圖像生成與各種編輯任務(wù)大一統(tǒng)!賈佳亞團(tuán)隊(duì)提出DreamOmni:訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

結(jié)論

當(dāng)前的T2I基礎(chǔ)模型缺乏統(tǒng)一的框架和下游任務(wù)訓(xùn)練,如圖像編輯。為了解決這個(gè)問題,介紹了DreamOmni,一種用于T2I生成和編輯的統(tǒng)一模型。在公平設(shè)置下評(píng)估了現(xiàn)有模型的框架,并考慮了不同編輯任務(wù)的具體需求。通過分析,開發(fā)了一個(gè)將T2I與各種編輯任務(wù)集成的框架。此外,訓(xùn)練編輯模型的挑戰(zhàn)之一是創(chuàng)建高質(zhì)量、大規(guī)模的編輯數(shù)據(jù),這通常是低效的。為了解決這個(gè)問題,設(shè)計(jì)了一種合成拼貼數(shù)據(jù)pipeline,能夠高效生成大量精準(zhǔn)、高質(zhì)量的編輯數(shù)據(jù)。此外,該pipeline增強(qiáng)了模型在文本、位置、數(shù)量、顏色和幾何方面的生成準(zhǔn)確性。通過聯(lián)合訓(xùn)練T2I和多任務(wù)合成數(shù)據(jù),開發(fā)了一個(gè)原生的、統(tǒng)一的圖像生成與編輯模型。T2I訓(xùn)練強(qiáng)化了模型對(duì)特定概念的掌握,并提高了生成質(zhì)量,而編輯訓(xùn)練使其能夠處理編輯任務(wù)的需求。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/sLknSiSY1iZ9v7AsO2nFfw??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
日韩视频国产视频| 亚洲品质自拍视频网站| 日韩av色综合| 四虎影院中文字幕| 免费看久久久| 欧美日韩国产区一| 99久久国产综合精品五月天喷水| 狠狠狠综合7777久夜色撩人| 激情综合亚洲精品| 欧美在线xxx| 黄色香蕉视频在线观看| 亚瑟一区二区三区四区| 91精品国产色综合久久不卡电影 | 99中文视频在线| 国产高清中文字幕| 你懂的国产精品永久在线| 亚洲免费福利视频| 色哟哟网站在线观看| 欧美国产日韩电影| 精品国产91久久久| 欧洲美女和动交zoz0z| 巨骚激情综合| 成人av免费观看| 51国偷自产一区二区三区的来源| 波多野结衣视频网址| av成人毛片| 久久国产精品首页| 国产探花视频在线播放| 亚洲警察之高压线| 精品国产乱码久久久久久老虎 | 国产午夜精品一区二区三区| 中国一级特黄录像播放| 日韩精品中文字幕一区二区 | 欧美性受xxxx狂喷水| 精东粉嫩av免费一区二区三区| 日本精品久久久| 日本少妇吞精囗交| 欧美精品一卡| 久久国产精品网站| 国产盗摄一区二区三区在线| 日韩伦理视频| 视频直播国产精品| 欧美亚洲色综久久精品国产| 伊人成综合网yiren22| 精品国产99国产精品| 免费看三级黄色片| 18国产精品| 精品国产一区二区三区av性色| 999热精品视频| 伊人久久大香伊蕉在人线观看热v| 91国偷自产一区二区开放时间| av黄色在线网站| 久久久男人天堂| 婷婷久久综合九色综合绿巨人| 久久av综合网| 欧美gv在线| 福利视频第一区| 亚洲自偷自拍熟女另类| 三妻四妾完整版在线观看电视剧| 婷婷综合久久一区二区三区| 日韩a在线播放| 成人欧美magnet| 欧美亚洲综合一区| 午夜宅男在线视频| 国产午夜精品一区在线观看| 日韩欧美在线不卡| 一级少妇精品久久久久久久| 成人中文字幕视频| 亚洲另类激情图| 成人免费视频入口| 欧美在线网址| 欧美一区第一页| 蜜臀尤物一区二区三区直播| 久久精品久久99精品久久| 91精品视频免费| 日本黄色三级视频| 国产亚洲精品久| 尤物一区二区三区| 黄色羞羞视频在线观看| 一本到不卡免费一区二区| 高清一区在线观看| 蜜桃精品视频| 亚洲欧美国产视频| 九九精品视频免费| 一本色道久久综合一区| 国产精品久久视频| 亚洲伦理在线观看| 久久蜜臀精品av| 国产又黄又爽免费视频| 98色花堂精品视频在线观看| 欧洲一区二区三区免费视频| 国产乱码一区二区三区四区| 免费福利视频一区| 久久精品久久久久久| 日韩毛片在线视频| 久久国产精品72免费观看| 成人在线观看网址| 成年网站在线| 亚洲成av人片在线| 一道本视频在线观看| 91综合精品国产丝袜长腿久久| 亚洲欧美制服另类日韩| 黄视频网站免费看| 麻豆成人在线| 国产福利一区二区三区在线观看| av每日在线更新| 亚洲成人av在线电影| 日韩欧美国产片| 久久av资源| 午夜精品久久久久久99热| 中文字幕日日夜夜| 91美女片黄在线| 成年丰满熟妇午夜免费视频 | 亚洲一区二区自偷自拍| 欧美日韩99| 91精品中文在线| 久久久久久久久亚洲精品| 一区二区三区国产豹纹内裤在线| 欧美伦理片在线看| 丝袜av一区| 欧美激情图片区| 国产欧美一级片| 国产精品理论在线观看| 日本在线观看a| 国产毛片久久久| 欧美精品一区二区免费| 97精品久久人人爽人人爽| 久久婷婷国产综合国色天香| 欧美一级片免费播放| 日韩第一区第二区| 久久影院在线观看| 国产麻豆91视频| 中文字幕一区二| 91制片厂毛片| 日韩成人免费| 国产精品久久久久久久久久久久| 视频一区二区在线播放| 黄色精品在线看| 中文在线永久免费观看| 99av国产精品欲麻豆| 国产成人精品免费视频大全最热| 99视频免费在线观看| 这里是久久伊人| 国产中文av在线| 精品亚洲成a人| 国产四区在线观看| 蜜桃精品一区二区三区| 久久国产精品视频| 丰满熟妇乱又伦| 亚洲一区二区三区四区在线免费观看| 亚洲制服在线观看| 亚洲欧美伊人| 国产麻豆一区二区三区在线观看| caoporn-草棚在线视频最| 亚洲第一精品夜夜躁人人爽| 可以免费看的av毛片| 久久精品视频在线免费观看| 91看片在线免费观看| 久久福利综合| 91亚洲精品久久久| 欧美日韩经典丝袜| 亚洲精品videossex少妇| 800av免费在线观看| 久久久三级国产网站| 天天综合网日韩| 欧美激情综合| 麻豆视频成人| 成人午夜在线| 美日韩丰满少妇在线观看| 黄色福利在线观看| 日本二三区不卡| 成人做爰视频网站| 成人在线视频一区| 久久久久久久久久久免费视频| 欧美一区2区| 亚洲伊人久久综合| 僵尸再翻生在线观看免费国语| 亚洲欧洲自拍偷拍| 国产又粗又猛又色又| 亚洲图片欧美一区| 天天躁夜夜躁狠狠是什么心态| 极品尤物av久久免费看| 波多野结衣乳巨码无在线| 精品国产精品| www.久久久| 欧美magnet| 欧美另类老女人| 欧美在线观看在线观看| 91超碰这里只有精品国产| 久久久久成人精品无码| 久久精品在线免费观看| 亚洲欧美日韩中文字幕在线观看| 欧美亚洲三区| 欧美在线观看黄| 大片网站久久| 超碰国产精品久久国产精品99| 午夜欧美巨大性欧美巨大 | 亚洲精品一区二区三| 日韩区一区二| 国产精品成人一区| 国模雨婷捆绑高清在线| 中文字幕一精品亚洲无线一区| 欧美 日韩 国产 成人 在线 91| 欧美特级限制片免费在线观看| 美女视频黄免费| 国产精品伦一区二区三级视频| 在线免费播放av| 国产成人精品一区二区三区四区 | 日本一欧美一欧美一亚洲视频| 久久国产免费| 亚洲精品成人久久电影| 自拍偷拍色综合| 亚洲国产精品尤物yw在线观看| 色欲狠狠躁天天躁无码中文字幕| 国产sm精品调教视频网站| 五月婷婷狠狠操| 夜夜嗨网站十八久久| 国产精品88久久久久久妇女 | 欧美精彩一区二区三区| 97久久精品| 亚洲一区二区少妇| 国外成人福利视频| 国产精品精品视频一区二区三区| 久草在线视频网站| 久热精品视频在线观看一区| 中文字幕在线免费| 亚洲图片在区色| 色视频精品视频在线观看| 欧美v亚洲v综合ⅴ国产v| 97人妻精品一区二区三区| 欧美影院一区二区| 一级片在线观看免费| 天天综合色天天综合| 激情小说中文字幕| 夜色激情一区二区| 久久av高潮av无码av喷吹| 成人免费一区二区三区在线观看| 国产真人真事毛片视频| 国产欧美一区二区精品性色超碰 | 一区二区高清在线| 激情五月少妇a| 亚洲永久精品大片| 久久婷婷综合国产| 亚洲资源在线观看| 日本一区二区三区四区五区| 午夜私人影院久久久久| 日本在线观看视频网站| 天天影视涩香欲综合网 | 欧美草逼视频| 久久久噜久噜久久综合| heyzo中文字幕在线| 97**国产露脸精品国产| 黄视频网站在线观看| 91精品国产91久久久久久吃药| 天堂√中文最新版在线| 992tv成人免费影院| 亚洲男人av| 国产精品白嫩美女在线观看| 成人国产综合| 成人高h视频在线| 日韩精品视频中文字幕| 国产一区国产精品| 久久成人av| 在线观看一区二区三区三州| 91成人网在线观看| av网站大全免费| 久久只有精品| 久热精品在线观看视频| 国产成人啪午夜精品网站男同| 亚洲色偷偷色噜噜狠狠99网| xnxx国产精品| 蜜桃av.com| 亚洲午夜在线电影| 亚洲 欧美 中文字幕| 欧美日韩精品是欧美日韩精品| av中文字幕观看| 亚洲国产精品中文| av免费观看一区二区| 欧美精品在线观看| 性欧美18一19sex性欧美| 成人a在线观看| 国产精品调教| 亚洲欧美99| 国内视频精品| 天天干天天爽天天射| 成人免费毛片a| 久久视频一区二区三区| 亚洲午夜私人影院| 久草热在线观看| 精品福利在线导航| jyzzz在线观看视频| 欧美激情亚洲精品| 国产精品第一| 精品九九九九| 888久久久| 久久久久免费精品| 成人污污视频在线观看| 貂蝉被到爽流白浆在线观看| 午夜视频一区在线观看| ,一级淫片a看免费| 亚洲精品日韩在线| 欧美理论电影| 国产精品三级在线| 美女毛片一区二区三区四区| 久久视频免费在线| 蜜桃av一区二区三区电影| 91精品又粗又猛又爽| 亚洲天堂av一区| 亚洲中文一区二区| 日韩h在线观看| 在线h片观看| 国产一区二区丝袜高跟鞋图片| 久久99性xxx老妇胖精品| 国产精品久久久久久久乖乖| 久久精品国产亚洲高清剧情介绍 | 欧美成人milf| aa免费在线观看| 成人激情校园春色| 在线免费日韩av| 欧美性大战xxxxx久久久| 九色视频在线播放| …久久精品99久久香蕉国产| 国产精品chinese在线观看| 在线观看av的网址| 国产一区二区在线看| 老司机精品免费视频| 欧美婷婷六月丁香综合色| 蜜桃视频在线观看网站| 欧美在线视频免费| 国产亚洲精品美女久久| 国产美女作爱全过程免费视频| 国产在线播放一区三区四| 国精品人伦一区二区三区蜜桃| 欧美亚洲图片小说| 精品久久av| 国产精品久久久| 精品午夜久久| 成人免费视频久久| 欧美国产1区2区| 国产精品午夜一区二区| 国产一区二区三区日韩欧美| av在线一区不卡| 亚洲国产精品123| 麻豆中文一区二区| 99热在线观看精品| 91麻豆精品国产| 成人高清免费在线| 亚洲自拍偷拍色图| 合欧美一区二区三区| 97精品人妻一区二区三区蜜桃| 亚洲成精国产精品女| 天堂在线资源库| 欧美一级高清免费| 欧美日韩一二三四| 午夜免费福利视频在线观看| 日韩美女啊v在线免费观看| 国产av一区二区三区精品| 欧美高清在线观看| 欧美日韩直播| 日韩在线第三页| 国产精品国产三级国产aⅴ无密码| 国产乱子伦精品无码码专区| 欧美成人自拍视频| 国产欧美三级电影| 日韩网址在线观看| 国产精品亲子伦对白| av免费在线不卡| 2019精品视频| 成人亚洲一区| 亚洲精品无码一区二区| 好吊成人免视频| 黄网站视频在线观看| 国产精品乱码视频| 久久一区二区三区超碰国产精品| www..com.cn蕾丝视频在线观看免费版| 欧美日韩亚洲综合在线 欧美亚洲特黄一级 | 国产成人亚洲综合a∨婷婷| 日本一区二区欧美| 色哟哟入口国产精品| 波多野结衣在线一区二区| 久久国产乱子伦免费精品| 综合久久给合久久狠狠狠97色| 欧美一区二区三区激情| 国产精品福利无圣光在线一区| 欧美日韩调教| 变态另类ts人妖一区二区| 日韩欧美亚洲国产精品字幕久久久| 福利在线免费视频| 亚洲欧美丝袜| 97精品久久久久中文字幕| 亚洲熟女乱色一区二区三区久久久| 国产+人+亚洲| 久久久久亚洲| 成人片黄网站色大片免费毛片| 欧美一区二区精品在线| 国产亚洲一区二区手机在线观看| 国产一级黄色录像片| 国产日韩成人精品| 少妇精品高潮欲妇又嫩中文字幕 | 亚洲三级电影全部在线观看高清|