AI2驚艷發(fā)布OneDiffusion：突破性大規(guī)模擴(kuò)散模型，支持多任務(wù)生成與理解，重塑視覺AI應(yīng)用精華

angel

發(fā)布于 2024-11-27 10:05

瀏覽

0收藏

AI2驚艷發(fā)布OneDiffusion：突破性大規(guī)模擴(kuò)散模型，支持多任務(wù)生成與理解，重塑視覺AI應(yīng)用-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2411.16318
項(xiàng)目鏈接：https://github.com/lehduong/OneDiffusion

AI2驚艷發(fā)布OneDiffusion：突破性大規(guī)模擴(kuò)散模型，支持多任務(wù)生成與理解，重塑視覺AI應(yīng)用-AI.x社區(qū)

亮點(diǎn)直擊

統(tǒng)一的多任務(wù)能力：OneDiffusion 提出了一個(gè)統(tǒng)一的擴(kuò)散模型，能夠無(wú)縫支持圖像合成和理解的雙向任務(wù)。它通過簡(jiǎn)單靈活的框架，實(shí)現(xiàn)了多種任務(wù)（如文本到圖像生成、深度估計(jì)、多視角生成等）的處理，而無(wú)需依賴外部模塊或額外損失函數(shù)。
創(chuàng)新的訓(xùn)練方法：OneDiffusion 采用了基于序列數(shù)據(jù)的訓(xùn)練方法，將所有任務(wù)視為不同噪聲級(jí)別的幀序列進(jìn)行訓(xùn)練，使得模型能夠在推理時(shí)使用任意幀作為條件輸入。這種方法增強(qiáng)了模型的通用性和可擴(kuò)展性。
高效的數(shù)據(jù)集與訓(xùn)練：為了支持多任務(wù)的聯(lián)合訓(xùn)練，OneDiffusion 使用了 One-Gen 數(shù)據(jù)集，集成了來自多個(gè)來源的高質(zhì)量數(shù)據(jù)，包括文本到圖像生成、深度估計(jì)、分割等任務(wù)的數(shù)據(jù)。該數(shù)據(jù)集為模型提供了多樣化的條件設(shè)置，提高了模型的泛化能力。
強(qiáng)大的性能與通用性：OneDiffusion 在多項(xiàng)生成和預(yù)測(cè)任務(wù)上展示了優(yōu)異的性能。在文本到圖像生成、多視角生成、深度估計(jì)等任務(wù)中，OneDiffusion 的表現(xiàn)與專門設(shè)計(jì)的最新方法相媲美，且模型能夠處理不同分辨率的任務(wù)，具備強(qiáng)大的零-shot生成能力。

總結(jié)速覽

解決的問題
OneDiffusion 解決了跨任務(wù)的雙向圖像合成與理解問題，能夠處理多種圖像生成與理解任務(wù)，如文本到圖像生成、圖像去模糊、圖像超分辨率、深度估計(jì)、語(yǔ)義分割等。此外，它還支持多視角生成、相機(jī)姿勢(shì)估計(jì)和通過連續(xù)圖像輸入進(jìn)行即時(shí)個(gè)性化。

提出的方案
OneDiffusion 采用了一種統(tǒng)一的訓(xùn)練框架，將所有任務(wù)視為具有不同噪聲尺度的幀序列，這使得每個(gè)幀都可以在推理時(shí)作為條件圖像。通過這種方式，該模型可以無(wú)縫支持多任務(wù)訓(xùn)練并適應(yīng)不同的分辨率，而無(wú)需專門的架構(gòu)。

應(yīng)用的技術(shù)

多任務(wù)訓(xùn)練框架：將任務(wù)視為幀序列處理，支持不同的任務(wù)條件，如文本、深度、姿態(tài)、布局和語(yǔ)義圖等。
圖像生成與理解：通過圖像去模糊、超分辨率、深度估計(jì)等技術(shù)實(shí)現(xiàn)圖像生成與理解。
多視角生成與相機(jī)姿勢(shì)估計(jì)：支持基于多個(gè)視角生成圖像，進(jìn)行相機(jī)姿勢(shì)估計(jì)，并允許即時(shí)個(gè)性化。

達(dá)到的效果
實(shí)驗(yàn)結(jié)果表明，OneDiffusion 在生成和預(yù)測(cè)任務(wù)中具有競(jìng)爭(zhēng)力的表現(xiàn)，尤其在文本到圖像生成、多視角生成、ID 保持、深度估計(jì)和相機(jī)姿勢(shì)估計(jì)等任務(wù)中，盡管訓(xùn)練數(shù)據(jù)集相對(duì)較小，仍能展現(xiàn)出良好的泛化能力和可擴(kuò)展性。

方法論

生成建模中的流匹配

AI2驚艷發(fā)布OneDiffusion：突破性大規(guī)模擴(kuò)散模型，支持多任務(wù)生成與理解，重塑視覺AI應(yīng)用-AI.x社區(qū)

該目標(biāo)等同于原始的流匹配目標(biāo)，只需要目標(biāo)分布的樣本和適當(dāng)?shù)臈l件概率路徑。

提出的方案

AI2驚艷發(fā)布OneDiffusion：突破性大規(guī)模擴(kuò)散模型，支持多任務(wù)生成與理解，重塑視覺AI應(yīng)用-AI.x社區(qū)

訓(xùn)練

AI2驚艷發(fā)布OneDiffusion：突破性大規(guī)模擴(kuò)散模型，支持多任務(wù)生成與理解，重塑視覺AI應(yīng)用-AI.x社區(qū)

實(shí)現(xiàn)細(xì)節(jié)

模型架構(gòu)

AI2驚艷發(fā)布OneDiffusion：突破性大規(guī)模擴(kuò)散模型，支持多任務(wù)生成與理解，重塑視覺AI應(yīng)用-AI.x社區(qū)

按照 [72]，還使用了 3D RoPE 進(jìn)行位置編碼，從而實(shí)現(xiàn)對(duì)不同分辨率和長(zhǎng)寬比的泛化。

文生圖（單視圖）
在只有一個(gè)“視圖”的情況下，訓(xùn)練和推理過程與標(biāo)準(zhǔn)的文本到圖像擴(kuò)散模型相同。我們?cè)跇?biāo)題前添加任務(wù)標(biāo)簽 ???[[text2image]]?? 來指定任務(wù)。

圖生圖（雙視圖）
將第一個(gè)視圖設(shè)置為目標(biāo)圖像，第二個(gè)視圖作為條件輸入。在推理過程中，可以使用一個(gè)或兩個(gè)視圖進(jìn)行生成，模型被訓(xùn)練以生成目標(biāo)圖像。對(duì)于生成邊界框或語(yǔ)義圖等任務(wù)，在提示中添加十六進(jìn)制顏色代碼和類別標(biāo)簽。例如，要分割一只帶有黃色遮罩的鼠標(biāo)，提示為：
???[[semantic2image]] <#FFFF00 yellow mask: mouse> photo of a ...??進(jìn)一步的細(xì)節(jié)見附錄。

身份定制（2-4 視圖）
從同一人的多個(gè)視圖中采樣圖像，將每張輸入圖像的標(biāo)題拼接在一起，并用標(biāo)記 ???[[imgX]]??? 表示每張圖像。還在標(biāo)題前添加任務(wù)標(biāo)簽 ??[[faceid]]??。在推理時(shí)，可以基于任意數(shù)量的圖像進(jìn)行條件生成，從而生成多個(gè)輸出，提升一致性。

多視圖生成（4-12 視圖）

AI2驚艷發(fā)布OneDiffusion：突破性大規(guī)模擴(kuò)散模型，支持多任務(wù)生成與理解，重塑視覺AI應(yīng)用-AI.x社區(qū)

訓(xùn)練細(xì)節(jié)

AI2驚艷發(fā)布OneDiffusion：突破性大規(guī)模擴(kuò)散模型，支持多任務(wù)生成與理解，重塑視覺AI應(yīng)用-AI.x社區(qū)

訓(xùn)練期間的策略

AI2驚艷發(fā)布OneDiffusion：突破性大規(guī)模擴(kuò)散模型，支持多任務(wù)生成與理解，重塑視覺AI應(yīng)用-AI.x社區(qū)

One-Gen 數(shù)據(jù)集

文生圖

公共數(shù)據(jù)集：PixelProse、Unsplash、Coyo 和 JourneyDB。
內(nèi)部數(shù)據(jù)集：包含 1000 萬(wàn)張圖片，使用 LLaVA-NeXT 和 Molmo 對(duì)圖像重新生成的描述。每張圖像的文本描述長(zhǎng)度為 100-150 個(gè)單詞。如果存在原始提示詞，我們會(huì)同時(shí)使用生成的描述和原始描述。

圖生圖

簡(jiǎn)單任務(wù)：如去模糊、修復(fù)、基于 Canny 邊緣生成圖像或超分辨率，使用 100 萬(wàn)條合成數(shù)據(jù)子集，并為每張圖像應(yīng)用相關(guān)預(yù)處理器生成輸入條件。
復(fù)雜任務(wù)：根據(jù)以下流程使用 Midjourney、Stable Diffusion 和 Flux-dev 生成的輸出創(chuàng)建合成數(shù)據(jù)集：

收集包含 5 萬(wàn)張主要以人體為主的圖片子集，用于姿態(tài)條件生成。
使用 YOLOv5 檢測(cè)感興趣區(qū)域的邊界框，并使用 ViTPose 進(jìn)行姿態(tài)估計(jì)。
使用 DepthAnything-v2 對(duì)來自多個(gè)數(shù)據(jù)集（包括真實(shí)和合成圖像）的 50 萬(wàn)張圖片生成深度圖。
此外，我們對(duì)來自 Hypersim 數(shù)據(jù)集的 4 萬(wàn)張圖片進(jìn)行標(biāo)注，使用 LLaVA-NeXT 生成描述，將其整合到訓(xùn)練集中。
對(duì)每張圖像，使用 LLaVA-NeXT識(shí)別實(shí)體或主體（如人、襯衫、狗、建筑物），每張圖像最多識(shí)別 10 個(gè)實(shí)體。
基于 LLaVA-Next 提供的主體名稱，使用 SAM 進(jìn)行語(yǔ)義分割并提取邊界框。
每個(gè)類別從預(yù)定義列表中隨機(jī)分配一種顏色。
數(shù)據(jù)集包含 35 萬(wàn)組三元組（語(yǔ)義地圖、邊界框和原始圖像）。
語(yǔ)義圖和檢測(cè)：
深度圖(Depth Map)：
人體姿態(tài) (Human Poses)：

身份定制 (ID Customization)
收集了來自游戲、電影和公共可用圖像的名人和角色數(shù)據(jù)集。

數(shù)據(jù)過濾：確保每個(gè)主體至少有 4 張圖像，并去除 NSFW 內(nèi)容。
數(shù)據(jù)規(guī)模：包含大約 6 萬(wàn)名主體和 130 萬(wàn)張圖像。
標(biāo)注：通過 LLaVA-NeXT 生成圖像的描述。

多視圖生成 (Multiview Generation)

數(shù)據(jù)集：DL3DV-10K、Objaverse 和 CO3D。

Objaverse 數(shù)據(jù)集：使用 LGM 提供的過濾后 8 萬(wàn)樣本分割及 Cap3D 提供的描述。
DL3DV 數(shù)據(jù)集：從每個(gè)場(chǎng)景中隨機(jī)采樣一張圖像，并使用 LLaVA-Next 生成描述。
CO3D 數(shù)據(jù)集：排除描述，僅在文本輸入中包含任務(wù)標(biāo)簽。

實(shí)驗(yàn)

本節(jié)評(píng)估 OneDiffusion 模型在廣泛的圖像生成和理解任務(wù)上的性能。所有結(jié)果均未進(jìn)行任務(wù)特定的微調(diào)。

文本到圖像 (Text-to-Image)

下圖 3 展示了 OneDiffusion 在文本到圖像任務(wù)中的定性結(jié)果。得益于 One-Gen 數(shù)據(jù)集的多樣性，模型能夠處理各種藝術(shù)風(fēng)格，包括藝術(shù)化設(shè)計(jì)和逼真的視覺效果。

AI2驚艷發(fā)布OneDiffusion：突破性大規(guī)模擴(kuò)散模型，支持多任務(wù)生成與理解，重塑視覺AI應(yīng)用-AI.x社區(qū)

遵循前期研究的方法，在 GenEval 基準(zhǔn)測(cè)試上評(píng)估模型的文本到圖像能力。

對(duì)于每個(gè)提示詞，使用Euler 求解器生成 4 張圖像，采樣步數(shù)為 100，指導(dǎo)因子為 5。
結(jié)果：OneDiffusion 的性能與基線模型對(duì)比見下表 1。
分析：盡管訓(xùn)練數(shù)據(jù)量相對(duì)較小，模型表現(xiàn)出較強(qiáng)的性能，尤其在多任務(wù)能力上表現(xiàn)優(yōu)異。這主要?dú)w功于數(shù)據(jù)集的多樣性以及為每個(gè)樣本提供的全面描述。

AI2驚艷發(fā)布OneDiffusion：突破性大規(guī)模擴(kuò)散模型，支持多任務(wù)生成與理解，重塑視覺AI應(yīng)用-AI.x社區(qū)

可控圖像生成 (Controllable Image Generation)

使用多個(gè)源域（如 HED 邊緣圖、深度圖、人類姿態(tài)、語(yǔ)義地圖、邊界框）進(jìn)行圖像到圖像轉(zhuǎn)換實(shí)驗(yàn)。

定性結(jié)果見下圖 4 和下圖 19。
結(jié)果：OneDiffusion 在生成過程中能夠有效對(duì)齊輸入條件圖像，適應(yīng)各種輸入條件。這得益于模型的純注意力機(jī)制以及描述信息的輔助作用。

AI2驚艷發(fā)布OneDiffusion：突破性大規(guī)模擴(kuò)散模型，支持多任務(wù)生成與理解，重塑視覺AI應(yīng)用-AI.x社區(qū)

多視圖生成 (Multiview Generation)

使用 Google Scanned Object 數(shù)據(jù)集 評(píng)估多視圖生成能力。

下表 2 展示了 OneDiffusion 與當(dāng)前最先進(jìn)方法（包括 Zero123 、Zero123-XL 和 EscherNet）的對(duì)比結(jié)果。
對(duì)比特點(diǎn)：

這些基線模型專為多視圖生成任務(wù)設(shè)計(jì)并經(jīng)過專門訓(xùn)練。
OneDiffusion 的優(yōu)勢(shì)：支持可變數(shù)量的條件輸入，并且其靈活的去噪框架能夠在相機(jī)位姿未知的情況下，整合額外的條件視圖。

AI2驚艷發(fā)布OneDiffusion：突破性大規(guī)模擴(kuò)散模型，支持多任務(wù)生成與理解，重塑視覺AI應(yīng)用-AI.x社區(qū)

多視圖生成 (Multiview Generation)

如上面表 2 所示，OneDiffusion 在單視圖條件下（1-view）性能顯著優(yōu)于 Zero123 和 Zero123-XL。此外，即使在相機(jī)位姿未知的情況下，OneDiffusion 依然表現(xiàn)出較強(qiáng)的生成能力。例如：

在2-view條件下：

未知相機(jī)位姿時(shí)，PSNR 為 19.83。
已知相機(jī)位姿時(shí)，PSNR 為 20.22，僅略有下降。

在3-view條件下：
未知相機(jī)位姿時(shí)，PSNR 為 20.64。
已知相機(jī)位姿時(shí)，PSNR 為 21.79。

總結(jié)：這些結(jié)果表明，OneDiffusion 對(duì)多種輸入條件具有高度適應(yīng)性和生成效果的穩(wěn)定性，突顯了其在多視圖生成中的實(shí)際應(yīng)用潛力。

下圖 5 提供了從單個(gè)前視圖圖像生成多視圖的兩個(gè)定性示例，顯示模型能夠在不同方位角和仰角之間生成一致的視圖。更多可視化結(jié)果見下圖 10 和圖 11。

AI2驚艷發(fā)布OneDiffusion：突破性大規(guī)模擴(kuò)散模型，支持多任務(wù)生成與理解，重塑視覺AI應(yīng)用-AI.x社區(qū)

靈活性優(yōu)勢(shì)：通過對(duì)所有圖像進(jìn)行“mask”并僅輸入相機(jī)位姿，我們還可以直接執(zhí)行文本到多視圖生成（見下圖 12）。

AI2驚艷發(fā)布OneDiffusion：突破性大規(guī)模擴(kuò)散模型，支持多任務(wù)生成與理解，重塑視覺AI應(yīng)用-AI.x社區(qū)

身份定制 (ID Customization)

進(jìn)一步評(píng)估了 OneDiffusion 在身份定制任務(wù)中的表現(xiàn)，該任務(wù)使用一個(gè)或多個(gè)身份圖像作為輸入進(jìn)行個(gè)性化生成。

對(duì)比方法：InstantID、PuLID 和 PhotoMaker。
評(píng)估維度：包括定性和定量分析，測(cè)試范圍超越標(biāo)準(zhǔn)基準(zhǔn)（unsplash-50），涵蓋了表情變化、視角變化甚至非人類圖像的生成能力。

下圖 6 展示了以下示例：

表情和視線方向變化（第一行）。
視角變化（第二行）。
非人類身份定制（第三行）。

AI2驚艷發(fā)布OneDiffusion：突破性大規(guī)模擴(kuò)散模型，支持多任務(wù)生成與理解，重塑視覺AI應(yīng)用-AI.x社區(qū)

結(jié)果：

優(yōu)勢(shì)：OneDiffusion 成功完成這些任務(wù)，而其他方法均未能達(dá)到類似效果。
創(chuàng)新點(diǎn)：

與基于面部嵌入的傳統(tǒng)方法相比（這些方法主要“復(fù)制”原始面部），OneDiffusion 通過圖像與文本條件之間的注意力機(jī)制實(shí)現(xiàn)了靈活的端到端訓(xùn)練。
生成的輸出更具表現(xiàn)力，適用于更廣泛的應(yīng)用場(chǎng)景。

此外，確保一致多視圖生成的機(jī)制在身份定制中也能有效調(diào)整相機(jī)角度，這進(jìn)一步展示了模型在相關(guān)應(yīng)用中的適應(yīng)性。更多可視化結(jié)果見下圖 13 和圖 14。

AI2驚艷發(fā)布OneDiffusion：突破性大規(guī)模擴(kuò)散模型，支持多任務(wù)生成與理解，重塑視覺AI應(yīng)用-AI.x社區(qū)

定量結(jié)果：在 Unsplash-50 基準(zhǔn)上呈現(xiàn)了定量結(jié)果（見下表 3）。

對(duì)比分析：

PuLID 通過從 ID 編碼器網(wǎng)絡(luò)（訓(xùn)練于人臉辨識(shí)任務(wù)）中提取嵌入，有效保留了輸入圖像的身份特征。
然而，該方法在處理復(fù)雜的面部操控任務(wù)時(shí)面臨顯著局限性。
OneDiffusion 優(yōu)勢(shì)：在保留身份特征的同時(shí)，支持更復(fù)雜的生成任務(wù)，表現(xiàn)出更強(qiáng)的靈活性和生成能力。

AI2驚艷發(fā)布OneDiffusion：突破性大規(guī)模擴(kuò)散模型，支持多任務(wù)生成與理解，重塑視覺AI應(yīng)用-AI.x社區(qū)

深度估計(jì) (Depth Estimation)

在圖像理解任務(wù)中評(píng)估了 OneDiffusion 模型在單目深度估計(jì)上的表現(xiàn)，使用了標(biāo)準(zhǔn)基準(zhǔn)：NYUv2和 DIODE。定量結(jié)果見下表 4。

AI2驚艷發(fā)布OneDiffusion：突破性大規(guī)模擴(kuò)散模型，支持多任務(wù)生成與理解，重塑視覺AI應(yīng)用-AI.x社區(qū)

定量結(jié)果：本文的模型與基于預(yù)訓(xùn)練文本到圖像擴(kuò)散模型（如 Marigold）的基線相比，展現(xiàn)了具有競(jìng)爭(zhēng)力的性能。
模型優(yōu)勢(shì)：如下圖 7 所示，OneDiffusion 在處理基于擴(kuò)散的深度估計(jì)模型（例如 Marigold）時(shí)表現(xiàn)得更為穩(wěn)健。特別地，OneDiffusion 在處理開放世界圖像時(shí)表現(xiàn)優(yōu)異，包括繪畫作品、霧霾天氣和非常規(guī)紋理。
更多比較：有關(guān)進(jìn)一步的定性比較，請(qǐng)見下圖 15 和圖 16。

AI2驚艷發(fā)布OneDiffusion：突破性大規(guī)模擴(kuò)散模型，支持多任務(wù)生成與理解，重塑視覺AI應(yīng)用-AI.x社區(qū)

相機(jī)位姿估計(jì) (Camera Pose Estimation)

使用 Google Scanned Object 數(shù)據(jù)集對(duì)模型進(jìn)行了相機(jī)位姿估計(jì)任務(wù)評(píng)估。

任務(wù)描述：對(duì)于此任務(wù)，我們使用每個(gè)合成物體的六張渲染圖像，并通過去噪相應(yīng)的光線嵌入來估計(jì)相機(jī)位姿。
優(yōu)化方法：采用 RayDiffusion 中的最小二乘優(yōu)化方法來估計(jì)相機(jī)中心和旋轉(zhuǎn)。
準(zhǔn)確度評(píng)估：以 0.3 的閾值衡量相機(jī)中心的準(zhǔn)確度，定量結(jié)果見表 5。

結(jié)果對(duì)比：

下圖 8 提供了本文模型與 RayDiffusion 的定性比較。
RayDiffusion 局限性：RayDiffusion 始終預(yù)測(cè)上半球的相機(jī)位姿，這是由于其訓(xùn)練數(shù)據(jù)（如 CO3D）偏向上半球視角。
OneDiffusion 優(yōu)勢(shì)：得益于大規(guī)模多樣化的訓(xùn)練數(shù)據(jù)集，OneDiffusion 在避免這一偏差的同時(shí)，取得了更高的準(zhǔn)確度。

AI2驚艷發(fā)布OneDiffusion：突破性大規(guī)模擴(kuò)散模型，支持多任務(wù)生成與理解，重塑視覺AI應(yīng)用-AI.x社區(qū)

其他任務(wù) (Other Tasks)

由于直接從原始輸出圖像中提取mask、邊界框和關(guān)鍵點(diǎn)并不直接，提供了在 COCO 數(shù)據(jù)集上進(jìn)行人體姿態(tài)估計(jì)和語(yǔ)義分割的定性結(jié)果。

任務(wù)說明：我們?cè)诟戒浿姓故玖诉@些定性結(jié)果，分別見下圖 17 和圖 18。
模型特點(diǎn)：由于本文的模型在訓(xùn)練時(shí)不區(qū)分條件和圖像任務(wù)，它在理解任務(wù)中的表現(xiàn)也為模型的額外評(píng)估提供了有價(jià)值的信息。
未來方向：計(jì)劃在未來的工作中進(jìn)一步探索這一方面的研究。

AI2驚艷發(fā)布OneDiffusion：突破性大規(guī)模擴(kuò)散模型，支持多任務(wù)生成與理解，重塑視覺AI應(yīng)用-AI.x社區(qū)

結(jié)論

OneDiffusion 在多個(gè)任務(wù)中取得了令人印象深刻的結(jié)果，包括條件化文本到圖像生成（T2I）、深度估計(jì)、開放詞匯語(yǔ)義分割、姿態(tài)估計(jì)、多視圖生成、身份定制和相機(jī)位姿估計(jì)。

貢獻(xiàn)與影響：這項(xiàng)工作推進(jìn)了擴(kuò)散模型的能力，提供了一種多功能且可擴(kuò)展的解決方案，與大語(yǔ)言模型所提供的靈活性相媲美。
展望：這標(biāo)志著向開發(fā)通用視覺模型邁出了重要一步，這種模型能夠作為多種應(yīng)用的基礎(chǔ)設(shè)施。

本文轉(zhuǎn)自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/8wcbx4GJyyV8zvm35-Th5g??

標(biāo)簽

圖像生成

模型

贊

回復(fù)