精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型

發(fā)布于 2024-5-23 11:36
瀏覽
0收藏

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2405.04312
github 鏈接:https://github.com/THUDM/Inf-DiT


擴(kuò)散模型在近年來的圖像生成中表現(xiàn)出了顯著的性能。然而,由于生成超高分辨率圖像(如 4096 × 4096)時(shí)內(nèi)存需求呈二次方增加,生成圖像的分辨率通常限制在 1024 × 1024。


本文提出了一種單向塊注意力機(jī)制,可以在推理過程中自適應(yīng)地調(diào)整內(nèi)存開銷并處理全局依賴關(guān)系。基于這個(gè)模塊,本文采用 DiT 結(jié)構(gòu)進(jìn)行上采樣,并開發(fā)了一種能夠?qū)Ω鞣N形狀和分辨率的圖像進(jìn)行上采樣的無限超分辨率模型。綜合實(shí)驗(yàn)表明,本文的模型在機(jī)器和人類評(píng)估中都達(dá)到了生成超高分辨率圖像的最新技術(shù)水平。與常用的 UNet 結(jié)構(gòu)相比,本文的模型在生成 4096 × 4096 圖像時(shí)可以節(jié)省超過 5 倍的內(nèi)存。

介紹

近年來,擴(kuò)散模型取得了迅速進(jìn)展,顯著推動(dòng)了圖像生成和編輯領(lǐng)域的發(fā)展。盡管有這些進(jìn)展,但仍然存在一個(gè)關(guān)鍵限制:現(xiàn)有圖像擴(kuò)散模型生成的圖像分辨率通常限制在 1024×1024 像素或更低,這在生成超高分辨率圖像時(shí)構(gòu)成了重大挑戰(zhàn)。而超高分辨率圖像在各種實(shí)際應(yīng)用中是不可或缺的,包括復(fù)雜的設(shè)計(jì)項(xiàng)目、廣告、海報(bào)和壁紙的制作等。


一種常用的生成高分辨率圖像的方法是級(jí)聯(lián)生成,即首先生成低分辨率圖像,然后應(yīng)用多個(gè)上采樣模型逐步提高圖像的分辨率。這種方法將高分辨率圖像的生成分解為多個(gè)任務(wù)。基于前一階段生成的結(jié)果,后一階段的模型只需進(jìn)行局部生成。在級(jí)聯(lián)結(jié)構(gòu)的基礎(chǔ)上,DALL-E2 和 Imagen 都能有效生成分辨率為 1024 的圖像。


對于上采樣到更高分辨率圖像的最大挑戰(zhàn)是顯著的 GPU 內(nèi)存需求。例如,如果在圖像推理中使用廣泛采用的 U-Net 架構(gòu)(如 SDXL,見下圖 2),觀察到隨著分辨率的增加,內(nèi)存消耗急劇上升。具體而言,生成一個(gè) 4096×4096 分辨率的圖像(包含超過 1600 萬個(gè)像素)需要超過 80GB 的內(nèi)存,這超出了標(biāo)準(zhǔn)的 RTX 4090 或 A100 顯卡的容量。此外,高分辨率圖像生成模型的訓(xùn)練過程加劇了這些需求,因?yàn)樗枰~外的內(nèi)存來存儲(chǔ)梯度、優(yōu)化器狀態(tài)等。

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

LDM 通過利用變分自編碼器(VAE)來壓縮圖像并在較小的潛在空間中生成圖像,從而減少了內(nèi)存消耗。然而,文中也強(qiáng)調(diào),過高的壓縮比會(huì)顯著降低生成質(zhì)量,嚴(yán)重限制了內(nèi)存消耗的減少。


4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)


基于這一算法,本文優(yōu)化了擴(kuò)散 Transformer(DiT),并訓(xùn)練了一個(gè)名為 Inf-DiT 的模型,該模型能夠?qū)Σ煌直媛屎托螤畹膱D像進(jìn)行上采樣。此外,設(shè)計(jì)了幾種技術(shù),包括提供全局圖像 embedding 以增強(qiáng)全局語義一致性,并提供 zero-shot 文本控制能力,以及通過交叉注意力機(jī)制提供所有相鄰的低分辨率(LR)塊以進(jìn)一步增強(qiáng)局部一致性。評(píng)估結(jié)果表明,Inf-DiT 在機(jī)器和人類評(píng)估中均顯著優(yōu)于其他高分辨率生成模型。

主要貢獻(xiàn)如下:

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)


  • 基于這些方法,訓(xùn)練了一個(gè)圖像上采樣擴(kuò)散模型 Inf-DiT,這是一種 700M 的模型,能夠?qū)Σ煌直媛屎托螤畹膱D像進(jìn)行上采樣。Inf-DiT 在機(jī)器評(píng)估(HPDv2 和 DIV2K 數(shù)據(jù)集)和人類評(píng)估中均達(dá)到了最新技術(shù)水平。
  • 設(shè)計(jì)了多種技術(shù)來進(jìn)一步增強(qiáng)局部和全局一致性,并提供靈活的文本控制的 zero-shot 能力。

方法

單向塊注意力 (UniBA)

生成超高分辨率圖像的關(guān)鍵障礙是內(nèi)存限制

隨著圖像分辨率的增加,網(wǎng)絡(luò)中對應(yīng)的隱藏狀態(tài)的大小呈二次方增長。例如,僅一層中形狀為 2048 × 2048 × 1280 的單個(gè)隱藏狀態(tài)就需要 20GB 的內(nèi)存,使得生成非常大的圖像變得異常艱難。如何避免在內(nèi)存中存儲(chǔ)整個(gè)圖像的隱藏狀態(tài)成為關(guān)鍵問題。


4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)


  • 塊之間的生成依賴關(guān)系是單向的,并且可以形成一個(gè)有向無環(huán)圖(DAG)。
  • 每個(gè)塊對其他塊只有少量的直接(一級(jí))依賴關(guān)系,因?yàn)閴K及其直接依賴塊的隱藏狀態(tài)需要同時(shí)保存在內(nèi)存中。


此外,為了確保整個(gè)圖像的一致性,還需要確保每個(gè)塊具有足夠大的感受野,以處理長程依賴關(guān)系。


根據(jù)上述條件和分析,本文選擇了一種高效的實(shí)現(xiàn)方式,即下圖 3 所示的單向塊注意力(UniBA)。對于每一層,每個(gè)塊直接依賴于三個(gè)一階相鄰塊:頂部的塊、左側(cè)的塊和左上角的塊。例如,如果本文采用了 Inf-DiT 的基礎(chǔ)架構(gòu) Diffusion Transformer(DiT)架構(gòu),則塊之間的依賴關(guān)系是注意力操作,其中每個(gè)塊的查詢向量與其左上角和本身的四個(gè)塊的鍵值向量進(jìn)行交互,如下圖 3 所示。

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

形式上,Transformer 中的 UniBA 過程可以表示為:

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)


需要注意的是,盡管每個(gè)塊在每層中只關(guān)注少量相鄰塊,但隨著特征層層傳播,塊可以間接與遠(yuǎn)處的塊交互,從而捕捉長短距離關(guān)系。本文的設(shè)計(jì)與自然語言模型 Transformer-XL 具有相似的精神,可以看作是本文的一維情況的特例。

使用 O(N)內(nèi)存消耗的推理過程

盡管本文的方法可以順序生成每個(gè)塊,但它不同于自回歸生成模型,在自回歸生成模型中,下一個(gè)塊依賴于前一個(gè)塊的最終輸出。在本文的模型中,只要它們的依賴塊的集合已經(jīng)生成,就可以并行生成任意數(shù)量的塊?;谶@一特性,本文實(shí)現(xiàn)了一個(gè)簡單但有效的推理過程。如上面圖 3 所示,本文一次生成 n×n 個(gè)塊,從左上到右下。生成一組塊后,本文丟棄不再使用的隱藏狀態(tài)(即 KV 緩存),并將新生成的 KV 緩存附加到內(nèi)存中。


4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)


在實(shí)際操作中,盡管對于不同的 n,圖像生成的總 FLOPs 保持不變,但由于操作初始化時(shí)間和內(nèi)存分配時(shí)間等開銷,當(dāng) n 增加時(shí),生成時(shí)間會(huì)減少。因此,在內(nèi)存限制允許的情況下,選擇最大的 n 是最優(yōu)的。

基本模型架構(gòu)

下圖 4 概述了本文模型 Inf-DiT 的架構(gòu)。該模型使用了類似 DiT 的主干結(jié)構(gòu),DiT 將視覺 Transformer(ViT)應(yīng)用于擴(kuò)散模型,并證明了其有效性和可擴(kuò)展性。與基于卷積的架構(gòu)(如 UNet)相比,DiT 僅使用注意力作為塊之間的交互機(jī)制,這使得單向塊注意力的實(shí)現(xiàn)變得方便。為了適應(yīng)單向塊注意力并增強(qiáng)上采樣性能,本文進(jìn)行了如下的幾項(xiàng)修改和優(yōu)化。

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

模型輸入

Inf-DiT 首先將輸入圖像劃分為多個(gè)不重疊的塊,然后將這些塊進(jìn)一步劃分為邊長等于 patch 大小的 patch。與 DiT 不同,考慮到壓縮損失(如顏色偏移和細(xì)節(jié)損失),Inf-DiT 在 RGB 像素空間中進(jìn)行 patch 劃分,而不是在潛在空間中。在超分辨率因子為 f 的情況下,Inf-DiT 首先將低分辨率 RGB 圖像條件上采樣 f 倍,然后在特征維度上將其與擴(kuò)散的噪聲輸入連接起來,再輸入到模型中。

位置編碼

與可以通過卷積操作感知位置關(guān)系的基于 UNet 的擴(kuò)散模型不同,Transformer 中的所有操作(包括自注意力和前饋神經(jīng)網(wǎng)絡(luò))都是置換不變函數(shù)。因此,基于 Transformer 的模型需要輔助輸入顯式位置信息以學(xué)習(xí) patch 之間的關(guān)系。正如最近在大型語言模型中的研究所示,相對位置編碼在捕捉單詞位置相關(guān)性方面比絕對位置編碼更有效,本文參考了旋轉(zhuǎn)位置編碼(RoPE)的設(shè)計(jì),該設(shè)計(jì)在長上下文生成中表現(xiàn)良好,并將其適配為二維形式用于圖像生成。具體來說,本文將隱藏狀態(tài)的通道分成兩半,一半用于編碼 x 坐標(biāo),另一半用于編碼 y 坐標(biāo),并在這兩個(gè)部分中應(yīng)用 RoPE。


本文創(chuàng)建了一個(gè)足夠大的 RoPE 位置編碼表,以確保在生成過程中滿足需求。為了確保模型在訓(xùn)練期間能看到位置編碼表的所有部分,本文采用了隨機(jī)起始點(diǎn):對于每個(gè)訓(xùn)練圖像,本文隨機(jī)分配一個(gè)位置(x,y)作為圖像的左上角,而不是默認(rèn)的(0,0)。


4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

全局和局部一致性

使用 CLIP 圖像 embedding 實(shí)現(xiàn)全局一致性
低分辨率(LR)圖像中的全局語義信息(如藝術(shù)風(fēng)格和物體材質(zhì))在上采樣過程中起著至關(guān)重要的作用。然而,與文本生成圖像模型相比,上采樣模型有一個(gè)額外的任務(wù):理解和分析低分辨率圖像的語義信息,這大大增加了模型的負(fù)擔(dān)。這在沒有文本數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)尤其具有挑戰(zhàn)性,因?yàn)楦叻直媛蕡D像很少有高質(zhì)量的配對文本,使得這些方面對模型來說很難處理。


4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

使用鄰近 LR 交叉注意力實(shí)現(xiàn)局部一致性盡管將 LR 圖像與噪聲輸入連接起來已經(jīng)為模型學(xué)習(xí) LR 和 HR 圖像之間的局部對應(yīng)關(guān)系提供了良好的歸納偏置,但仍然可能存在連續(xù)性問題。原因在于,對于給定的 LR 塊,有多種上采樣的可能性,這需要結(jié)合多個(gè)鄰近 LR 塊進(jìn)行分析以選擇一個(gè)解決方案。假設(shè)上采樣僅基于其左側(cè)和上方的 LR 塊進(jìn)行,它可能會(huì)選擇一個(gè)與右側(cè)和下方的 LR 塊沖突的 HR 生成方案。那么,當(dāng)上采樣右側(cè)的 LR 塊時(shí),如果模型認(rèn)為符合其對應(yīng)的 LR 塊比與左側(cè)塊連續(xù)更重要,則會(huì)生成與先前塊不連續(xù)的 HR 塊。一個(gè)簡單的解決方案是將整個(gè) LR 圖像輸入到每個(gè)塊中,但當(dāng) LR 圖像的分辨率也很高時(shí),這樣做成本太高。


為了解決這個(gè)問題,本文引入了鄰近 LR 交叉注意力。在 Transformer 的第一層,每個(gè)塊對周圍的 3×3 LR 塊進(jìn)行交叉注意力,以捕捉附近的 LR 信息。本文的實(shí)驗(yàn)表明,這種方法顯著降低了生成不連續(xù)圖像的概率。值得注意的是,這個(gè)操作不會(huì)改變本文的推理過程,因?yàn)樵谏芍罢麄€(gè) LR 圖像是已知的。


本文進(jìn)一步設(shè)計(jì)了包括無類別指導(dǎo)的連續(xù)性、基于 LR 的噪聲初始化、QK 規(guī)范化等技術(shù)。

實(shí)驗(yàn)

在本節(jié)中,本文首先介紹 Inf-DiT 的詳細(xì)訓(xùn)練過程,然后通過機(jī)器和人類評(píng)價(jià)全面評(píng)估 Inf-DiT 的性能。結(jié)果表明,Inf-DiT 在超高分辨率圖像生成和上采樣任務(wù)中均優(yōu)于所有基線模型。最后,本文進(jìn)行消融研究,以驗(yàn)證本文設(shè)計(jì)的有效性。

訓(xùn)練細(xì)節(jié)

數(shù)據(jù)集
數(shù)據(jù)集由分辨率高于 1024×1024 且美學(xué)評(píng)分高于 5 的 LAION-5B 子集和來自互聯(lián)網(wǎng)的 10 萬張高分辨率壁紙組成。與之前的工作[20,23,30]相同,本文在訓(xùn)練期間使用固定大小的 512×512 分辨率的圖像裁剪。由于上采樣可以僅使用局部信息進(jìn)行,因此在推理時(shí)可以直接在更高分辨率下進(jìn)行,這對大多數(shù)生成模型來說并不容易。

數(shù)據(jù)處理
由于擴(kuò)散模型生成的圖像通常包含殘留噪聲和各種細(xì)節(jié)不準(zhǔn)確性,因此增強(qiáng)上采樣模型的魯棒性以解決這些問題變得至關(guān)重要。本文采用類似于 Real-ESRGAN 的方法,對訓(xùn)練數(shù)據(jù)中的低分辨率輸入圖像進(jìn)行各種降質(zhì)處理。


在處理分辨率高于 512 的訓(xùn)練圖像時(shí),有兩種替代方法:直接執(zhí)行隨機(jī)裁剪,或?qū)⑤^短的一側(cè)調(diào)整為 512 后再進(jìn)行隨機(jī)裁剪。直接裁剪方法保留了高分辨率圖像中的高頻特征,而調(diào)整后裁剪方法則避免了頻繁裁剪出單色背景區(qū)域,這對模型的收斂性不利。因此,在實(shí)踐中,本文隨機(jī)選擇這兩種處理方法中的一種來裁剪訓(xùn)練圖像。

訓(xùn)練設(shè)置
在訓(xùn)練期間,本文設(shè)置塊大小為 128,patch 大小為 4,這意味著每個(gè)訓(xùn)練圖像被分成 4×4 個(gè)塊,每個(gè)塊有 32×32 個(gè) patch。本文采用 EDM 框架進(jìn)行訓(xùn)練,并將上采樣因子設(shè)置為 4 倍。由于上采樣任務(wù)更關(guān)注圖像的高頻細(xì)節(jié),本文調(diào)整了訓(xùn)練噪聲分布的均值和標(biāo)準(zhǔn)差為-1.0 和 1.4。為了解決訓(xùn)練期間的溢出問題,本文使用了具有更大數(shù)值范圍的 BF16 格式。本文的 CLIP 模型是一個(gè)在 Datacomp 數(shù)據(jù)集上預(yù)訓(xùn)練的 ViT-L/16。由于 CLIP 只能處理 224×224 分辨率的圖像,本文首先將低分辨率圖像調(diào)整為 224×224,然后將其輸入到 CLIP 中。

機(jī)器評(píng)價(jià)

在這部分中,本文對 Inf-DiT 在超高分辨率圖像生成任務(wù)上與最先進(jìn)方法進(jìn)行定量比較?;€包括兩大類高分辨率生成:1. 直接高分辨率圖像生成,包括 SDXL 的直接推理、MultiDiffusion、ScaleCrafte 等;2. 基于超分辨率技術(shù)的高分辨率圖像生成,包括 BSRGAN、DemoFusion 等。本文采用 FID(Fréchet Inception Distance)來評(píng)估超高分辨率生成的質(zhì)量,這在圖像生成任務(wù)中廣泛用于評(píng)估圖像的感知質(zhì)量。為了進(jìn)一步驗(yàn)證本文模型的超分辨率能力,本文還將其與經(jīng)典的超分辨率模型在典型超分辨率任務(wù)上進(jìn)行了基準(zhǔn)測試。

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

超高分辨率生成本文使用 HPDv2 的測試集進(jìn)行評(píng)估。它包含 3200 個(gè)提示,并分為四個(gè)類別:“動(dòng)畫”、“概念藝術(shù)”、“繪畫”和“照片”。這允許對模型在各個(gè)領(lǐng)域和風(fēng)格中的生成能力進(jìn)行全面評(píng)估。本文在兩個(gè)分辨率上進(jìn)行測試:2048x2048 和 4096x4096。對于基于超分辨率的模型,本文首先使用 SDXL 生成 1024x1024 分辨率的圖像,然后在沒有文本的情況下對其進(jìn)行上采樣。本文使用 BSRGAN 的 2× 和 4× 版本分別進(jìn)行 2048x2048 和 4096x4096 的生成。盡管 Inf-DiT 是在 4× 上采樣的設(shè)置下進(jìn)行訓(xùn)練的,但本文發(fā)現(xiàn)它在較低的上采樣倍數(shù)下也能很好地泛化。因此,對于 2048x2048 的生成,本文直接將 LR 圖像從 1024x1024 調(diào)整為 2048x2048,并與噪聲輸入連接起來。本文從 LAION-5B 中隨機(jī)選擇了 3200 張 2048x2048 和 4096x4096 的圖像作為真實(shí)圖像的分布。


4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)


如下表 2 所示,本文的模型在所有指標(biāo)上均達(dá)到了最先進(jìn)水平。這表明,作為一個(gè)超分辨率模型,本文的模型不僅在任意尺度上表現(xiàn)出色,而且在最大限度地保留全局和詳細(xì)信息的同時(shí),還能恢復(fù)與原始圖像非常接近的結(jié)果。

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

人類評(píng)價(jià)

為了進(jìn)一步評(píng)估 Inf-DiT 并更準(zhǔn)確地從人類視角反映其生成質(zhì)量,本文進(jìn)行了人類評(píng)價(jià)。比較設(shè)置與上節(jié)中相同,不過本文排除了 MultiDiffusion 和 Direct Inference 因其非競爭性的結(jié)果。對于每個(gè)類別,本文隨機(jī)選擇了十組比較集,每組集合包含了四個(gè)模型的輸出,共計(jì) 40 組形成了人類評(píng)價(jià)數(shù)據(jù)集。為了保證公平性,在每個(gè)比較集中本文對模型輸出的順序進(jìn)行了隨機(jī)化。人類評(píng)估者被要求根據(jù)三個(gè)標(biāo)準(zhǔn)評(píng)估模型:細(xì)節(jié)真實(shí)性、全局連貫性和與原始低分辨率輸入的一致性。每位評(píng)估者平均收到 20 組圖像。在每個(gè)集合中,評(píng)估者需要根據(jù)三個(gè)標(biāo)準(zhǔn)對由四個(gè)模型生成的圖像進(jìn)行從高到低的排名。


本文最終收集了 3600 組比較。如下圖 7 所示,本文的模型在所有三個(gè)標(biāo)準(zhǔn)中均優(yōu)于其他三種方法。值得注意的是,其他三種模型中的每一種在至少一個(gè)評(píng)估標(biāo)準(zhǔn)上排名相對較低,而 Inf-DiT 在所有三個(gè)標(biāo)準(zhǔn)上的得分都最高:細(xì)節(jié)真實(shí)性、全局連貫性和與低分辨率輸入的一致性。這表明本文的模型是唯一能夠在高分辨率生成和超分辨率任務(wù)中同時(shí)表現(xiàn)出色的模型。

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

迭代上采樣

由于本文的模型可以對任意分辨率的圖像進(jìn)行上采樣,測試模型是否能夠迭代上采樣自身生成的圖像是一個(gè)自然的想法。在這項(xiàng)研究中,本文在一張 322 分辨率的圖像上進(jìn)行實(shí)驗(yàn),通過三次迭代上采樣,將其生成一張 2048x2048 分辨率的圖像,即 64 倍放大。下圖 8 展示了這個(gè)過程的兩個(gè)案例。在第一個(gè)案例中,模型成功地在三個(gè)階段的上采樣后生成了一張高分辨率圖像。它在不同分辨率的上采樣中生成了不同頻率的細(xì)節(jié):臉部輪廓、眼球形狀和個(gè)別睫毛。然而,模型很難糾正在早期階段生成的不準(zhǔn)確性,導(dǎo)致錯(cuò)誤的積累。第二個(gè)樣本展示了這個(gè)問題。本文將這個(gè)問題留給未來的工作。

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

消融研究

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

相關(guān)工作

擴(kuò)散圖像生成

擴(kuò)散模型已經(jīng)成為圖像生成領(lǐng)域的焦點(diǎn),近年來取得了一系列突破性進(jìn)展。最初于 2015 年引入,并通過諸如 DDPM 和 DDIM 等工作進(jìn)一步發(fā)展,這些模型利用隨機(jī)擴(kuò)散過程,概念化為馬爾可夫鏈,將簡單的先驗(yàn)分布(如高斯噪聲)轉(zhuǎn)化為復(fù)雜的數(shù)據(jù)分布。這一方法在生成的圖像質(zhì)量和多樣性方面取得了令人印象深刻的成果。


近期的增強(qiáng)顯著提升了擴(kuò)散模型的生成能力。CDM 創(chuàng)建了一個(gè)級(jí)聯(lián)生成 pipeline,其中包括多階段的超分辨率模型,可應(yīng)用于大型預(yù)訓(xùn)練模型。引入潛在擴(kuò)散模型(LDMs)代表了一個(gè)重要的擴(kuò)展,它結(jié)合了潛在空間,提升了效率和可擴(kuò)展性。除此之外,網(wǎng)絡(luò)架構(gòu)的優(yōu)化也取得了顯著進(jìn)展。擴(kuò)散 Transformer(DiT)的出現(xiàn)取代了 U-Net,使用 ViT 進(jìn)行噪聲預(yù)測。

圖像超分辨率

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

這里 D 和 F 分別表示退化過程和超分辨率模型。δ和θ 代表參數(shù)。


近年來,盲目 SR 一直是主要關(guān)注的焦點(diǎn):其中退化過程是未知的且可學(xué)習(xí)的。這一視角導(dǎo)致了有效的建模技術(shù)的發(fā)展,例如 BSRGAN 和 Real-ESRGAN。最近,基于擴(kuò)散的 SR 方法取得了令人興奮的結(jié)果。這些工作專注于對預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型進(jìn)行微調(diào),以利用其優(yōu)秀的生成能力。具體來說,DiffBir 在預(yù)訓(xùn)練的穩(wěn)定擴(kuò)散模型上使用了 ControlNet,而 PASD 通過執(zhí)行像素感知的交叉注意力來增強(qiáng)它。這兩種方法在固定分辨率超分辨率方面取得了相當(dāng)大的成功,但不能直接用于更高的分辨率。

超高分辨率圖像上采樣器

目前,圖像生成方法在生成超高分辨率圖像方面存在著內(nèi)存限制和訓(xùn)練效率問題。在這種情況下,MultiDiffusion 和 Mixture of Diffusers 將多個(gè)擴(kuò)散生成過程綁定在一起,通過將圖像劃分為重疊的塊,分別處理每個(gè)塊,然后將它們拼接在一起,旨在保持塊之間的連續(xù)性。然而,由于它們僅使用局部加權(quán)平均進(jìn)行聚合,導(dǎo)致了交互效率低下,使得很難確保圖像的全局一致性。


鑒于這一問題,DemoFusion 和 ScaleCrafter 采用了擴(kuò)張策略,包括擴(kuò)張采樣和擴(kuò)張卷積核,旨在獲取更多的全局信息。這些方法確實(shí)在全局語義水平上取得了改進(jìn),而無需額外的訓(xùn)練。然而,訓(xùn)練和生成之間的巨大差異導(dǎo)致這些方法很容易產(chǎn)生不合邏輯的圖像。

Inf-DiT 能夠?qū)θ魏紊赡P蜕傻膱D像執(zhí)行上采樣,在這里展示了更多的情況。

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

結(jié)論

在這項(xiàng)工作中,本文觀察到生成超高分辨率圖像的主要障礙是模型隱藏狀態(tài)占用了大量內(nèi)存。基于此,本文提出了一種單向塊注意力機(jī)制(UniBA),它可以通過在塊之間進(jìn)行批量生成來降低空間復(fù)雜度。利用 UniBA,本文訓(xùn)練了 Inf-DiT,這是一種 4 倍內(nèi)存效率的圖像上采樣器,在生成和超分辨率任務(wù)中均取得了最先進(jìn)的性能。


本文轉(zhuǎn)自  AI生成未來 ,作者:Zhuoyi Yang等


原文鏈接:??https://mp.weixin.qq.com/s/UbQSxFHDXowQmwAx1PSJ9w??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
久久久成人精品视频| 99综合电影在线视频| 色久欧美在线视频观看| 国内av免费观看| xxx性欧美| 中文字幕精品一区二区精品绿巨人| 国产免费一区视频观看免费 | 要久久爱电视剧全集完整观看| 在线免费观看日本欧美| 久久久久久久久久久久久国产| 国产 欧美 精品| 日韩在线一区二区| 色综合久久久888| 一色道久久88加勒比一| 精品一区91| 在线精品视频免费播放| 日韩 欧美 视频| 亚乱亚乱亚洲乱妇| 久久人人超碰精品| 国产精品免费观看高清| 中文字幕精品在线观看| 一区二区三区精品视频在线观看 | 中文字幕求饶的少妇| 青青草原在线亚洲| 91精品免费在线| 欧美日韩亚洲自拍| 中文字幕在线中文字幕在线中三区| 最新高清无码专区| 欧美午夜精品理论片a级大开眼界| 国产三级小视频| 青草av.久久免费一区| 97人人爽人人喊人人模波多| 日本黄色免费片| 国产亚洲精品美女久久久久久久久久| 欧美成人三级在线| 亚洲视频在线不卡| 祥仔av免费一区二区三区四区| 欧美网站在线观看| 国产免费黄色一级片| 国产二区三区在线| 国产精品灌醉下药二区| 五月婷婷一区| 国产精品视频二区三区| 久久综合色之久久综合| 久久riav| 日韩av视屏| 91美女福利视频| 精品亚洲第一| 色综合免费视频| 成人深夜福利app| 官网99热精品| 成人爽a毛片一区二区| 国产精品亚洲午夜一区二区三区 | 亚洲男同性视频| 人人妻人人澡人人爽精品欧美一区 | 久久精品国产亚洲高清剧情介绍 | 国产a∨精品一区二区三区不卡| 日韩乱码在线观看| 亚洲黄页一区| 欧美有码在线视频| 91video| 丝袜脚交一区二区| 国产精品小说在线| 国产欧美一级片| 国产成都精品91一区二区三| 北条麻妃高清一区| 日本高清视频在线| 午夜视频网站在线观看| 综合久久国产| 精品欧美一区免费观看α√| 91电影在线播放| 中文字幕日韩一区二区| 亚洲伊人久久综合| 欧美色爱综合网| 91色在线观看| 亚洲AV无码国产精品午夜字幕| 久草热8精品视频在线观看| 色88久久久久高潮综合影院| 精品久久久一区二区| 草草久久久无码国产专区| 欧美另类老肥妇| 色天天综合色天天久久| 一女二男3p波多野结衣| www一区二区三区| 亚洲第一福利网站| 国产三级av在线播放| 国产精品毛片久久| 97热精品视频官网| 中文字幕人成人乱码亚洲电影| 国产在线视视频有精品| 国产精品香蕉视屏| 国产三级在线免费观看| 日韩毛片一二三区| 波多野结衣家庭教师在线| 在线成人视屏 | 久久久久久久综合狠狠综合| 亚洲黄色成人久久久| 在线观看三级视频| 欧美日韩一区二区三区| 亚洲午夜精品一区| 欧美成a人免费观看久久| 日韩在线精品视频| 国产一区二区三区影院| 九九热在线视频观看这里只有精品| 成人在线观看av| 成人免费高清在线播放| 亚洲一区二区黄色| 亚洲精品第三页| 欧美精品密入口播放| 久久伊人精品一区二区三区| 亚洲天堂av片| 成人在线综合网站| 中文字幕在线观看一区二区三区| 亚洲人体视频| 精品国产伦理网| 国产综合视频在线观看| 99精品久久久久| 久久裸体视频| 国产麻豆日韩| 亚洲电影视频在线| 欧美视频一区二区三区四区 | 国产精品丝袜在线播放| 日韩中文av在线| 免费污污视频在线观看| 成人永久免费视频| 黄色录像特级片| 欧美男男gaygay1069| 亚洲男人天堂九九视频| 日本系列第一页| 国产乱码字幕精品高清av| 西游记1978| 欧美成人精品三级网站| 亚洲精品久久久一区二区三区 | 精品乱人伦一区二区三区| 美国一级片在线观看| 天堂va蜜桃一区二区三区 | 国产精品成人a在线观看| 国产91在线播放九色快色| 日韩在线视频第一页| 亚洲午夜一区二区| 四虎国产精品免费| 欧美日一区二区在线观看 | 中文字幕视频三区| 第四色成人网| 国产日韩精品一区二区| 91官网在线| 欧美日韩一区不卡| 91ts人妖另类精品系列| 蜜臀av性久久久久蜜臀aⅴ四虎| 手机成人在线| 99riav视频一区二区| 亚洲香蕉av在线一区二区三区| 日韩在线 中文字幕| 久久精品欧美一区二区三区不卡| 茄子视频成人免费观看| 国内亚洲精品| 国产精品视频一区二区三区四| 91在线视频免费看| 欧美裸体一区二区三区| 男女性高潮免费网站| 国产精品自拍一区| 妞干网在线播放| 全球av集中精品导航福利| 久久久久久久久网站| 青青草免费在线视频| 91久久久免费一区二区| 色www亚洲国产阿娇yao| 国产一区在线观看麻豆| 日本黄大片在线观看| 久久精品色播| 国产精品久久久久一区二区| 麻豆传媒视频在线观看| 精品久久久久久综合日本欧美| 日韩av在线电影| 久久精品一级爱片| www.cao超碰| 亚洲经典在线| 日本一区二区三区免费看| 91成人短视频在线观看| 久久久久久免费精品| 可以免费看污视频的网站在线| 欧美人与z0zoxxxx视频| 欧美日韩免费一区二区| 91蜜桃在线观看| 亚洲精品中文字幕乱码无线| 91久久亚洲| 亚洲资源视频| 好吊妞视频这里有精品| 国产成人精品最新| 天天色天天射天天综合网| 亚洲情综合五月天| www.好吊色| 91黄色免费网站| 国产亚洲自拍av| 国产精品美日韩| 免费a v网站| 麻豆成人综合网| 国产91xxx| **女人18毛片一区二区| 欧美日韩国产精品一区二区| 精品视频一二| 国产精品福利在线观看网址| av老司机免费在线| 色悠悠久久久久| 亚洲三区在线播放| 日韩一级二级三级| 中文字幕 人妻熟女| 午夜一区二区三区在线观看| 亚洲一二三四五六区| 91女神在线视频| 丰满少妇中文字幕| 日韩va欧美va亚洲va久久| 亚洲精品无码国产| 久久久久久久久丰满| 神马影院午夜我不卡影院| 林ゆな中文字幕一区二区| 成人有码在线视频| 精品视频一区二区三区四区五区| 97久久久久久| 欧美黑人猛交| 久久视频国产精品免费视频在线| 精品推荐蜜桃传媒| 亚洲精品大尺度| 超碰免费在线97| 91精品国产乱| 91tv国产成人福利| 欧美亚洲综合色| 99久久久无码国产精品免费蜜柚| 午夜日韩在线电影| 久久精品www| 一区二区三区四区不卡在线| 黑人操日本美女| 中文字幕中文字幕一区| 免费看的黄色网| 国产三级精品在线| 加勒比综合在线| 久久日韩精品一区二区五区| 欧美做受喷浆在线观看| 99精品一区二区三区| 亚洲第一黄色网址| 不卡的av在线| 人妻丰满熟妇av无码久久洗澡| www.成人在线| xxxx黄色片| 91丨porny丨国产入口| 欧美无人区码suv| 91丝袜呻吟高潮美腿白嫩在线观看| 国产白袜脚足j棉袜在线观看 | 欧美一区二区二区| 国产99久一区二区三区a片| 欧美一级一级性生活免费录像| 国产免费无遮挡| 日韩一区二区在线播放| 精品人妻av一区二区三区| 欧美变态tickle挠乳网站| 性猛交xxxx乱大交孕妇印度| 欧美电影免费观看完整版| 亚洲AV无码国产精品午夜字幕 | 91伦理视频在线观看| 色妞在线综合亚洲欧美| av网站大全在线| 久久久久久成人| 永久免费毛片在线播放| 国产国语videosex另类| 久久麻豆视频| caoporn国产精品免费公开| 国产+成+人+亚洲欧洲在线| 狠狠色综合网站久久久久久久| 亚洲人成伊人成综合图片| 日韩欧美一区二区三区四区五区| 日本一区二区三区视频| 女女同性女同一区二区三区按摩| 国产一区日韩欧美| 日本熟妇人妻xxxxx| 毛片av中文字幕一区二区| 超碰成人在线播放| 成人亚洲一区二区一| 日韩av在线看免费观看| 最新高清无码专区| 日本熟妇色xxxxx日本免费看| 在线精品观看国产| 精品人妻无码一区二区| 亚洲精品资源在线| 国产网站在线免费观看| 97在线日本国产| 久久91视频| 久久久精品国产一区二区三区| 日本久久精品| 成品人视频ww入口| 日本欧美韩国一区三区| 精品国产免费久久久久久婷婷| 久久久久国产精品麻豆| 欧美成人精品激情在线视频| 色妹子一区二区| 精品人妻伦一区二区三区久久| 亚洲精品视频播放| h片在线免费观看| 国产91色在线免费| 成人台湾亚洲精品一区二区| 日韩精品一区二区三区丰满| 国内视频精品| 日韩va在线观看| 久久久久国产精品麻豆ai换脸| 久久久精品人妻一区二区三区四| 色乱码一区二区三区88| 蜜臀久久99精品久久久| 色哟哟入口国产精品| 国模私拍一区二区国模曼安| 91在线中文字幕| 成人精品中文字幕| 免费av观看网址| 国产精品 日产精品 欧美精品| 欧美熟妇激情一区二区三区| 亚洲福利一区二区三区| 国产露脸国语对白在线| 亚洲图中文字幕| 色戒汤唯在线观看| 福利视频久久| 欧美精品91| theporn国产精品| 欧美国产日韩在线观看| 国产黄色免费观看| 亚洲国产小视频在线观看| 在线三级电影| 91久久久久久久久| 色狮一区二区三区四区视频| 97在线播放视频| 91女人视频在线观看| 日韩精品久久久久久久酒店| 精品区一区二区| 青青青草视频在线| 91亚洲精品在线| 婷婷激情综合| www.午夜av| 亚洲精品大片www| a在线观看视频| 九九热r在线视频精品| 亚瑟国产精品| 精品国产三级a∨在线| 久久99国产精品久久| 国产极品美女在线| 欧美久久久一区| 蜜桃视频在线观看免费视频网站www | 欧美色图亚洲天堂| 日韩欧美国产综合| 日本不卡影院| 国产精品日韩欧美一区二区| 精品成人一区| 波多野结衣一本| 色婷婷久久久久swag精品| 国产在线播放av| 国产欧美日韩免费| 天天综合一区| 国产又粗又猛又爽又黄| 亚洲一区二区三区不卡国产欧美| 熟妇高潮一区二区三区| 欧美一级大片视频| 欧美中文一区二区| 中文字幕22页| 一个色在线综合| 先锋av资源站| 国产精品777| 2023国产精品久久久精品双| 中文字幕99页| 欧美午夜片欧美片在线观看| 国产乱子伦三级在线播放| 国产久一一精品| 欧美高清一区| 久久久久亚洲av无码专区桃色| 在线观看日韩一区| 国产网站在线免费观看| 国产精品视频免费观看| 日韩伦理一区二区| 亚洲图片自拍偷拍| 亚洲丰满在线| 神马午夜一区二区| 国产一区二区精品久久99| 国产成人精品在线观看| 日本在线看片免费人成视1000| 国产精品香蕉av| 国产一区日韩欧美| 成人性生交大免费看| 欧美美女直播网站| av福利在线导航| 神马影院我不卡| 国产成人日日夜夜| www毛片com| 欧美成在线观看| 国产一区二区三区四区五区| 黄色三级视频在线播放| 欧美特黄级在线| 91精选在线| 欧美一区二区视频在线| 国产乱人伦偷精品视频不卡 | 亚洲精品老司机| 国产高清免费av在线| 99久久精品久久久久久ai换脸| 石原莉奈在线亚洲三区| 久久久综合久久| 日韩网站免费观看高清|