圖像生成與各種編輯任務(wù)大一統(tǒng)！賈佳亞團(tuán)隊(duì)提出DreamOmni：訓(xùn)練收斂速度快且性能強(qiáng)大

angel

發(fā)布于 2024-12-25 09:21

瀏覽

0收藏

圖像生成與各種編輯任務(wù)大一統(tǒng)！賈佳亞團(tuán)隊(duì)提出DreamOmni：訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2412.17098
Github鏈接：https://zj-binxia.github.io/DreamOmni-ProjectPage/

圖像生成與各種編輯任務(wù)大一統(tǒng)！賈佳亞團(tuán)隊(duì)提出DreamOmni：訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

亮點(diǎn)直擊

對(duì)現(xiàn)有的模型框架進(jìn)行了分析，并基于不同任務(wù)的特點(diǎn)，提出了一種高效且強(qiáng)大的統(tǒng)一圖像生成與編輯框架——DreamOmni。
引入了一種合成拼貼數(shù)據(jù)pipeline，用以解決當(dāng)前創(chuàng)建和篩選高質(zhì)量編輯數(shù)據(jù)的低效性和困難。此外，還利用該合成拼貼數(shù)據(jù)pipeline來提高T2I模型輸出的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明，合成數(shù)據(jù)是一種高效、優(yōu)質(zhì)且具有成本效益的方法，能夠擴(kuò)展數(shù)據(jù)規(guī)模，進(jìn)而實(shí)現(xiàn)統(tǒng)一的圖像生成與編輯訓(xùn)練。
經(jīng)過統(tǒng)一訓(xùn)練后，結(jié)合T2I數(shù)據(jù)和多種合成數(shù)據(jù)集，DreamOmni展示了具有競(jìng)爭(zhēng)力的T2I生成能力，并在一系列編輯任務(wù)中表現(xiàn)出色。

總結(jié)速覽

解決的問題

文生圖遇到了一些挑戰(zhàn)：

將這些模型適應(yīng)到下游應(yīng)用通常需要以不同的方式集成各種插件（如ControlNet和IP-adapter），或擴(kuò)展輸入通道（例如，SD-inpainting 、InstructP2P）。這種對(duì)專門化框架的依賴限制了多任務(wù)泛化能力，并增加了部署的復(fù)雜性。
高質(zhì)量和準(zhǔn)確的編輯數(shù)據(jù)難以獲得，包括基于指令的編輯、拖拽編輯和主題驅(qū)動(dòng)的生成數(shù)據(jù)。

提出的方案

提出將T2I模型與多種編輯任務(wù)（如基于指令的編輯、圖像修復(fù)與擴(kuò)展、拖拽編輯以及參考圖像生成）統(tǒng)一到一個(gè)框架中。
引入了一個(gè)高效的合成數(shù)據(jù)pipeline，用于高效且準(zhǔn)確地構(gòu)建編輯數(shù)據(jù)，促進(jìn)原生統(tǒng)一生成與編輯模型的訓(xùn)練。

應(yīng)用的技術(shù)

DreamOmni：DreamOmni框架支持統(tǒng)一的圖像生成與編輯，具有快速的訓(xùn)練收斂速度和強(qiáng)大的性能。
一種基于拼貼的合成數(shù)據(jù)生成流程。該流程可以高效地生成用于各種編輯任務(wù)的數(shù)據(jù)，例如在基于指令的編輯中進(jìn)行添加、刪除和替換操作，在拖拽編輯中進(jìn)行平移、縮放和旋轉(zhuǎn)操作。此外，它還支持參考圖像生成以及分割與檢測(cè)任務(wù)。此外，合成數(shù)據(jù)生成流程提高了T2I（文本到圖像）生成的準(zhǔn)確性，特別是對(duì)于與文本、幾何形狀、顏色、位置和數(shù)量相關(guān)的屬性。

達(dá)到的效果

T2I視覺比較

圖像生成與各種編輯任務(wù)大一統(tǒng)！賈佳亞團(tuán)隊(duì)提出DreamOmni：訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

圖像修復(fù)比較

圖像生成與各種編輯任務(wù)大一統(tǒng)！賈佳亞團(tuán)隊(duì)提出DreamOmni：訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

圖像條件生成比較

圖像生成與各種編輯任務(wù)大一統(tǒng)！賈佳亞團(tuán)隊(duì)提出DreamOmni：訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

主題驅(qū)動(dòng)生成的視覺比較

圖像生成與各種編輯任務(wù)大一統(tǒng)！賈佳亞團(tuán)隊(duì)提出DreamOmni：訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

基于指令的編輯的視覺比較

圖像生成與各種編輯任務(wù)大一統(tǒng)！賈佳亞團(tuán)隊(duì)提出DreamOmni：訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

拖動(dòng)編輯的視覺比較

圖像生成與各種編輯任務(wù)大一統(tǒng)！賈佳亞團(tuán)隊(duì)提出DreamOmni：訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

方法論

多任務(wù)統(tǒng)一化是計(jì)算機(jī)視覺和人工智能領(lǐng)域的一個(gè)趨勢(shì)和追求，它不僅增強(qiáng)了模型的可用性，減少了部署的復(fù)雜性，還能實(shí)現(xiàn)協(xié)同訓(xùn)練，從而促進(jìn)任務(wù)之間的協(xié)同效應(yīng)。然而，目前的T2I基礎(chǔ)模型主要是專門為T2I設(shè)計(jì)的，通常忽視了與其他任務(wù)（如各種圖像編輯任務(wù)）整合的潛力。為此，提出了DreamOmni，一個(gè)統(tǒng)一的圖像生成與編輯模型。從三個(gè)方面設(shè)計(jì)并訓(xùn)練了DreamOmni：

在公平的環(huán)境下比較了各種框架，并基于不同任務(wù)的特性設(shè)計(jì)了一個(gè)強(qiáng)大且訓(xùn)練收斂速度快的框架，支持統(tǒng)一的多任務(wù)處理。
提出了一個(gè)便捷、高效且準(zhǔn)確的合成數(shù)據(jù)流程，用于擴(kuò)展數(shù)據(jù)規(guī)模，以促進(jìn)多任務(wù)的統(tǒng)一訓(xùn)練并增強(qiáng)模型的指令跟隨能力。
介紹DreamOmni的訓(xùn)練方案。

T2I和各種編輯任務(wù)的本地統(tǒng)一訓(xùn)練可以防止概念遺忘和生成質(zhì)量下降，同時(shí)增強(qiáng)模型的編輯和提示跟隨能力。

框架

旨在設(shè)計(jì)一個(gè)統(tǒng)一且強(qiáng)大的圖像生成與編輯框架。目前，不同的編輯模型通常有不同的結(jié)構(gòu)設(shè)計(jì)。例如，IP-adapter和 BLIP-Diffusion通過跨注意力注入信息以保持主體的一致性；而InstructP2P通過為模型添加不同數(shù)量的輸入通道來實(shí)現(xiàn)編輯一致性。這些結(jié)構(gòu)是針對(duì)特定任務(wù)量身定制的，缺乏通用性。因此，如下圖2 (a) 所示，將VLM特征與噪聲隱空間變量進(jìn)行拼接，并將其輸入到DIT塊進(jìn)行聯(lián)合多頭自注意力操作。

圖像生成與各種編輯任務(wù)大一統(tǒng)！賈佳亞團(tuán)隊(duì)提出DreamOmni：訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

之后，VLM特征和噪聲隱空間變量會(huì)通過FeedForward模塊進(jìn)行處理。這使得模型能夠自主學(xué)習(xí)任何層次的特征（從整體一致性到主體一致性）進(jìn)行編輯和生成。值得注意的是，對(duì)于FeedForward模塊，將VLM特征和噪聲隱空間變量分開，通過兩個(gè)不同的FeedForward模塊進(jìn)行處理，且網(wǎng)絡(luò)結(jié)構(gòu)相同。此外，并沒有使用CLIP或 T5作為文本編碼器，而是引入了一個(gè)視覺-語言模型（VLM），使得圖像和文本提示可以共同理解與編碼。

在當(dāng)前的框架設(shè)計(jì)中，一些工作，如DIT，是在標(biāo)簽條件生成下進(jìn)行比較的，而不是T2I。然而，T2I本質(zhì)上比基于標(biāo)簽的生成更為復(fù)雜，因?yàn)樗枰珊屠斫鈴?fù)雜的提示。此外，許多T2I模型，例如SDXL，使用了不同的模型大小、數(shù)據(jù)集和訓(xùn)練設(shè)置。這種差異使得評(píng)估不同模型組件對(duì)整體性能的影響變得具有挑戰(zhàn)性。此外，SDXL在其UNet結(jié)構(gòu)中融合了許多Transformer塊。

那么，為什么DIT能夠超越SDXL呢？ 為了解決這個(gè)問題，進(jìn)行了大量的實(shí)驗(yàn)，如圖3所示。觀察到DIT優(yōu)于Unet，因?yàn)镈IT將大部分計(jì)算分配到2×下采樣的隱空間變量，而Unet將更多計(jì)算分配到4×下采樣的隱空間變量。由于在1×隱空間變量上的注意力操作會(huì)帶來內(nèi)存負(fù)擔(dān)，進(jìn)一步采用殘差卷積塊來細(xì)化1×隱空間變量的生成細(xì)節(jié)。此外，還觀察到，在UNet框架中使用長連接可以顯著加速模型的訓(xùn)練收斂速度，而不會(huì)影響性能。如圖2 (a)所示，將早期和后期的特征沿通道維度進(jìn)行拼接，并應(yīng)用線性層將這兩個(gè)特征合并。值得注意的是，VLM特征和噪聲隱空間變量使用的線性層是不同的。

圖像生成與各種編輯任務(wù)大一統(tǒng)！賈佳亞團(tuán)隊(duì)提出DreamOmni：訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

合成數(shù)據(jù)

除了統(tǒng)一框架外，還需要大量數(shù)據(jù)來支持聯(lián)合訓(xùn)練。雖然T2I數(shù)據(jù)比較容易獲取，但為像基于指令的編輯任務(wù)創(chuàng)建和篩選準(zhǔn)確、高質(zhì)量的數(shù)據(jù)要復(fù)雜得多。為了解決這一問題，引入了一個(gè)合成拼貼數(shù)據(jù)流程，能夠高效且準(zhǔn)確地生成所需的編輯數(shù)據(jù)。如圖2 (b) 所示，流程涵蓋了六個(gè)任務(wù)。值得注意的是，這并不是合成流程的全部能力；它還能夠處理更復(fù)雜的任務(wù)組合。

T2I生成：如圖2 (b)所示，除了常規(guī)的T2I數(shù)據(jù)外，通過結(jié)合合成數(shù)據(jù)進(jìn)一步增強(qiáng)模型在T2I任務(wù)中的表現(xiàn)，特別是在文本、形狀、位置、數(shù)量和顏色生成方面。具體來說，對(duì)于文本，在空白畫布上隨機(jī)生成單詞或短語，使用各種字體、顏色、厚度和大小。對(duì)于形狀和數(shù)量，隨機(jī)創(chuàng)建具有不同數(shù)量、顏色和大小的幾何形狀，并將它們排列在畫布上。基于這些屬性及其位置，我們生成準(zhǔn)確的提示，并通過LLM進(jìn)一步優(yōu)化。此外，使用多種貼紙和分割數(shù)據(jù)進(jìn)行合成，將它們放置在畫布上并計(jì)算它們的精確空間關(guān)系。這些提示隨后會(huì)由LLM生成并進(jìn)一步優(yōu)化，以產(chǎn)生更自然的描述。
修復(fù)與擴(kuò)展：隨機(jī)生成用于涂抹、塊狀物和圖像邊緣的mask。值得注意的是，在訓(xùn)練過程中，除了將被遮罩的圖像及其相應(yīng)的mask輸入到VLM進(jìn)行編碼外，還以50%的概率包含圖像描述。
基于指令的編輯：將任務(wù)分為三種操作：添加、刪除和替換。對(duì)于刪除和替換操作，隨機(jī)選擇一個(gè)背景圖像和一個(gè)物體圖像來創(chuàng)建源圖像。在刪除情況下，目標(biāo)圖像僅為背景圖像；對(duì)于替換，目標(biāo)圖像通過將物體替換為不同的物體來生成。值得注意的是，對(duì)于添加，由于需要將添加的物體放置在與背景相對(duì)的合適位置，在本論文中使用了空白背景。
拖動(dòng)編輯：將數(shù)據(jù)分為三種類型：平移、縮放和旋轉(zhuǎn)。值得注意的是，Instadrag 將每一對(duì)拖動(dòng)點(diǎn)視為一張獨(dú)立的圖像，這種方法較為稀疏且由于固定的拖動(dòng)點(diǎn)數(shù)量要求，實(shí)用性較差。因此，使用格式表示每個(gè)拖動(dòng)點(diǎn)，作為提示輸入，其中和表示源圖像中拖動(dòng)點(diǎn)的坐標(biāo)，dx 和 dy 表示平移向量。此外，我們通過將這些坐標(biāo)除以圖像的寬度或高度來對(duì)其進(jìn)行歸一化。
參考圖像生成：將數(shù)據(jù)分為兩種類型：基于圖像的生成，類似于ControlNet，和基于主體的生成。對(duì)于基于圖像的生成，首先選擇高質(zhì)量的圖像，并創(chuàng)建相應(yīng)的Canny圖、深度圖和分割mask作為訓(xùn)練的源圖像。對(duì)于基于主體的生成，合成源圖像，并隨機(jī)選擇這些圖像中的物體來創(chuàng)建目標(biāo)圖像。模型通過參考源圖像中的特定屬性生成新的內(nèi)容，從而能夠靈活地生成多樣的場(chǎng)景和主體。
分割與檢測(cè)：隨機(jī)選擇一個(gè)背景圖像和一個(gè)物體圖像，將它們合成成源圖像。隨后，應(yīng)用顏色操作或在物體區(qū)域畫一個(gè)邊框，基于物體圖像的Alpha通道來獲得目標(biāo)圖像。

總體來說，合成拼貼數(shù)據(jù)流程既高效又精確，能夠輕松生成數(shù)十億種多樣化的編輯圖像。它非常適合用于DreamOmni的大規(guī)模預(yù)訓(xùn)練和微調(diào)。

模型訓(xùn)練

經(jīng)過仔細(xì)考慮，為DreamOmni的DIT模型選擇了2.5B參數(shù)的模型大小。這一大小在確保強(qiáng)大性能的同時(shí)，也能保證用戶友好性。對(duì)于VLM編碼器，直接采用了Qwen2-VL 7B模型，基于以下三個(gè)原因:

它支持任意分辨率的圖像輸入；
它提供強(qiáng)大的模型性能；
它是以寬松的開源許可證發(fā)布的。

VLM特征來源于Qwen2-VL的倒數(shù)第二層。此外，使用FLUX-schnell的VAE作為DreamOmni的VAE，它保留了更多的隱空間通道，使模型能夠捕捉更細(xì)致的圖像細(xì)節(jié)。此外，我們使用Rectified Flow優(yōu)化DreamOmni，該方法通過在噪聲和數(shù)據(jù)之間沿直線插值執(zhí)行前向過程。使用損失L對(duì)DreamOmni進(jìn)行訓(xùn)練：

圖像生成與各種編輯任務(wù)大一統(tǒng)！賈佳亞團(tuán)隊(duì)提出DreamOmni：訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

其中，表示在時(shí)間步t的噪聲特征圖。真實(shí)圖像通過VAE編碼到隱空間空間以得到z。這里，表示高斯噪聲，表示DIT模型，是條件信息。

T2I訓(xùn)練數(shù)據(jù)集包括1.25億張圖像，涵蓋了LAION數(shù)據(jù)集（1.03億）和收集的數(shù)據(jù)（2200萬）。這些圖像已通過InternVL2 進(jìn)行了標(biāo)注。對(duì)于合成數(shù)據(jù)，如T2I、指令編輯、修復(fù)與擴(kuò)展、拖動(dòng)編輯和參考圖像生成，分別生成了1200萬張圖像，總數(shù)大約為6000萬張。此外，對(duì)于分割與檢測(cè)，生成了800萬張圖像。在訓(xùn)練之前，為了提高訓(xùn)練速度，首先將提示編碼為VLM特征。

訓(xùn)練過程分為三個(gè)階段。在第一階段，使用256×256大小的圖像，批次大小為2048，學(xué)習(xí)率為1×10??，進(jìn)行377K次迭代；在第二階段，使用512×512大小的圖像，批次大小為1024，學(xué)習(xí)率為5×10??，進(jìn)行189K次迭代；在最后階段，從12M高質(zhì)量T2I數(shù)據(jù)中隨機(jī)抽取1M張高質(zhì)量圖像，并結(jié)合每種合成數(shù)據(jù)類型，訓(xùn)練1024×1024大小的圖像，批次大小為256，學(xué)習(xí)率為2×10??，進(jìn)行140K次迭代。

所有實(shí)驗(yàn)均在64個(gè)A100 GPU上進(jìn)行。此外，為了使模型能夠生成不同分辨率的圖像，在訓(xùn)練時(shí)，類似于SDXL的方法，依據(jù)圖像的縱橫比將圖像分成31個(gè)buckets，縱橫比從4:1到1:4不等。

實(shí)驗(yàn)

框架評(píng)估

在相似的設(shè)置下比較了幾種T2I模型框架，以識(shí)別有效的組成部分。使用相同的VAE、CLIP文本編碼器、參數(shù)、運(yùn)行時(shí)間以及LAION訓(xùn)練/測(cè)試數(shù)據(jù)集，評(píng)估了基于Unet的SDXL、基于DIT的Pixart、SD3-Medium和DreamOmni變體。值得注意的是，如圖3所示，為了便于比較，并沒有使用DreamOmni的全部2.5B參數(shù)，而是將所有模型的參數(shù)調(diào)整為0.85B。DreamOmni-V1具有與SDXL相同的兩個(gè)下采樣層（2×和4×），但缺少Unet連接。

DreamOmni-V2在DreamOmni-V1的基礎(chǔ)上增加了Unet連接，而DreamOmni-V3進(jìn)一步集中所有DIT操作于2×下采樣的隱空間空間。

有Unet連接的模型（如SDXL、DreamOmni-V2、DreamOmni-V3）顯示出比沒有Unet連接的模型（如SD3-Medium、DreamOmni-V1）更快的收斂速度。尤其是，DreamOmni-V3的收斂速度比SD3-Medium快四倍，顯著提升了訓(xùn)練和微調(diào)效率。
比較DreamOmni-V3和DreamOmni-V2時(shí)，發(fā)現(xiàn)將DIT模塊的計(jì)算集中在更高分辨率的隱空間空間（2×）上，更具成本效益。

T2I生成評(píng)估

如表1所示，我們的合成數(shù)據(jù)顯著提升了DreamOmni在T2I生成方面的能力，特別是在數(shù)量、顏色和位置方面，使得我們的模型在GenEval上取得了SOTA結(jié)果。值得注意的是，SD3-Medium 是一個(gè)2B的開源SOTA T2I模型，參數(shù)與我們的DreamOmni相似。此外，圖4展示了定性結(jié)果。可以看到，DreamOmni的輸出不僅視覺上更具吸引力，而且與給定的提示更為一致。

圖像生成與各種編輯任務(wù)大一統(tǒng)！賈佳亞團(tuán)隊(duì)提出DreamOmni：訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

修復(fù)評(píng)估

將DreamOmni與ControlNet-Inpainting和SD-Inpainting 在我們的高質(zhì)量評(píng)估數(shù)據(jù)集上進(jìn)行了比較，以評(píng)估其性能。定量結(jié)果如表2所示，表明DreamOmni在生成質(zhì)量和一致性方面顯著優(yōu)于ControlNet-Inpainting和SD-Inpainting。視覺結(jié)果（圖5）進(jìn)一步強(qiáng)調(diào)了DreamOmni在生成細(xì)節(jié)方面的優(yōu)勢(shì)，超越了ControlNet-Inpainting和SD-Inpainting。此外，DreamOmni在處理大面積掩碼時(shí)非常有效，能夠生成逼真的內(nèi)容，而不是模糊和不一致的輸出。

圖像生成與各種編輯任務(wù)大一統(tǒng)！賈佳亞團(tuán)隊(duì)提出DreamOmni：訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

參考圖像生成評(píng)估

對(duì)于基于圖像的生成，與ControlNet 在Canny圖、深度圖和分割圖像條件下進(jìn)行了比較。圖6展示了視覺結(jié)果。這些結(jié)果表明，在所有測(cè)試條件下，DreamOmni明顯優(yōu)于ControlNet。方法不僅能更忠實(shí)地遵循圖像條件和提示，還表現(xiàn)出更好的視覺質(zhì)量，具有更好的構(gòu)圖和更豐富的細(xì)節(jié)。

圖像生成與各種編輯任務(wù)大一統(tǒng)！賈佳亞團(tuán)隊(duì)提出DreamOmni：訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

對(duì)于基于主體的圖像生成，將我們的方法與競(jìng)爭(zhēng)方法（如BLIP-Diffusion和IP-Adapter）進(jìn)行了比較。為了展示DreamOmni強(qiáng)大的泛化能力，在動(dòng)漫和攝影圖像上驗(yàn)證了其性能。圖7展示了視覺結(jié)果。與其他方法相比，我們的DreamOmni不僅能有效保留指定的主體，而且能較好地遵循提示。

圖像生成與各種編輯任務(wù)大一統(tǒng)！賈佳亞團(tuán)隊(duì)提出DreamOmni：訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

指令編輯評(píng)估

將DreamOmni與MGIE 和InstructP2P 等競(jìng)爭(zhēng)方法進(jìn)行了比較。圖8展示了視覺結(jié)果。可以看到，DreamOmni在添加、刪除和替換操作上表現(xiàn)出更精確的編輯。具體來說，編輯結(jié)果展現(xiàn)出較高的一致性，對(duì)未編輯區(qū)域的變化最小，并且生成的編輯內(nèi)容質(zhì)量較高。這進(jìn)一步驗(yàn)證了我們的合成數(shù)據(jù)pipeline是一種高效且有效的創(chuàng)建基于指令編輯數(shù)據(jù)集的方法，能夠使模型學(xué)習(xí)精準(zhǔn)的指令編輯。此外，合成數(shù)據(jù)pipeline的高效性使得模型能夠輕松擴(kuò)展多樣化的訓(xùn)練數(shù)據(jù)。

圖像生成與各種編輯任務(wù)大一統(tǒng)！賈佳亞團(tuán)隊(duì)提出DreamOmni：訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

拖動(dòng)編輯評(píng)估

在合成評(píng)估數(shù)據(jù)集上對(duì)DreamOmni進(jìn)行了評(píng)估。下圖9展示了視覺結(jié)果。

與目標(biāo)圖像相比，DreamOmni能夠準(zhǔn)確執(zhí)行平移、旋轉(zhuǎn)和縮放的拖動(dòng)編輯。
對(duì)于平移和縮放，DreamOmni能夠保持拖動(dòng)物體的完整性。然而，大范圍的旋轉(zhuǎn)操作對(duì)DreamOmni來說更具挑戰(zhàn)性，因?yàn)樗婕拔矬w自身的復(fù)雜變換，這可能導(dǎo)致編輯物體的變形。
這些結(jié)果展示了我們的合成數(shù)據(jù)pipeline在拖動(dòng)編輯方面的有效性，通過將拖動(dòng)點(diǎn)位置和位移信息編碼為指令輸入，使得模型能夠?qū)W習(xí)精確的拖動(dòng)編輯（如前面圖2所示）。

圖像生成與各種編輯任務(wù)大一統(tǒng)！賈佳亞團(tuán)隊(duì)提出DreamOmni：訓(xùn)練收斂速度快且性能強(qiáng)大-AI.x社區(qū)

結(jié)論

當(dāng)前的T2I基礎(chǔ)模型缺乏統(tǒng)一的框架和下游任務(wù)訓(xùn)練，如圖像編輯。為了解決這個(gè)問題，介紹了DreamOmni，一種用于T2I生成和編輯的統(tǒng)一模型。在公平設(shè)置下評(píng)估了現(xiàn)有模型的框架，并考慮了不同編輯任務(wù)的具體需求。通過分析，開發(fā)了一個(gè)將T2I與各種編輯任務(wù)集成的框架。此外，訓(xùn)練編輯模型的挑戰(zhàn)之一是創(chuàng)建高質(zhì)量、大規(guī)模的編輯數(shù)據(jù)，這通常是低效的。為了解決這個(gè)問題，設(shè)計(jì)了一種合成拼貼數(shù)據(jù)pipeline，能夠高效生成大量精準(zhǔn)、高質(zhì)量的編輯數(shù)據(jù)。此外，該pipeline增強(qiáng)了模型在文本、位置、數(shù)量、顏色和幾何方面的生成準(zhǔn)確性。通過聯(lián)合訓(xùn)練T2I和多任務(wù)合成數(shù)據(jù)，開發(fā)了一個(gè)原生的、統(tǒng)一的圖像生成與編輯模型。T2I訓(xùn)練強(qiáng)化了模型對(duì)特定概念的掌握，并提高了生成質(zhì)量，而編輯訓(xùn)練使其能夠處理編輯任務(wù)的需求。

本文轉(zhuǎn)自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/sLknSiSY1iZ9v7AsO2nFfw??

標(biāo)簽

訓(xùn)練

生成

贊

回復(fù)