TransDiff--最簡(jiǎn)潔的AR Transformer + Diffusion圖像生成方法
大家好,今天給大家分享一個(gè)圖像生成的新工作—-Marrying Autoregressive Transformer and Diffusion with Multi-Reference Autoregression,后面我們簡(jiǎn)稱TransDiff。

首先,TransDiff是目前最簡(jiǎn)潔的、將AR Transformer與Diffusion結(jié)合用于圖像生成方法。TransDiff將離散輸入(如類別、文本等)、連續(xù)輸入(圖像等)經(jīng)過(guò)AR Transformer 編碼 為圖像語(yǔ)義表征,而后將表征通過(guò)一個(gè)較小的Diffusion Deocder 解碼 為圖片。
其次,我們提出了一種新的自回歸范式-- MRAR(Multi-Reference Autoregression)。此范式類似NLP領(lǐng)域的In-context Learning(ICL):通過(guò)學(xué)習(xí)上文同類別圖片生成質(zhì)量更好、更多樣的圖片,唯一的區(qū)別是上文的圖片是模型自己生成的。

Paper: https://arxiv.org/pdf/2506.09482
Code:https://github.com/TransDiff/TransDiff
Model: https://huggingface.co/zhendch/Transdiff具體介紹
為了節(jié)省讀者的時(shí)間,拋棄論文的結(jié)構(gòu),用Q&A這種更簡(jiǎn)介的方式介紹TransDiff。
問(wèn):為什么使用Transformer?我們工作中AR Transformer編碼出了什么信息?
答:早期的CLIP工作以及后來(lái)大模型時(shí)代層出不窮的VL模型已經(jīng)證明Transformer在圖像理解領(lǐng)域的優(yōu)勢(shì)。尤其是在CLIP工作中,ViT模型可以將圖片的表征對(duì)齊到語(yǔ)義空間(文字bert表征與圖片的ViT表征cosine相似度)。
相似的,實(shí)驗(yàn)證明:TransDiff中AR Transformer也是將類別和圖片編碼至圖片的高級(jí)(對(duì)比像素)語(yǔ)義空間。以下將不同類別的256維特征隨機(jī)進(jìn)行拼接后生成得到圖片,不同于其他模型(VAR、LlamaGen等)的像素編輯,定性實(shí)驗(yàn)展現(xiàn)出了模型的語(yǔ)義編輯能力。

問(wèn):TransDiff使用較小Diffusion Deocder是否有制約? 是否優(yōu)于單純Diffusion和AR Transformer方法?
答:TransDiff的deocder使用DiT結(jié)構(gòu),使用Flow Matching范式。diffusion占總體參數(shù)的1/3,參數(shù)量顯著低于主流diffusion模型。但是對(duì)比能夠搜集到的所有單純Diffusion和AR Transformer方法,TransDiff在Benchmark上還是有一定優(yōu)勢(shì),至少是“打的有來(lái)有回”。

問(wèn):TransDiff很像MAR,是否只是MAR的簡(jiǎn)單模仿?
答:TransDiff與MAR雖然結(jié)構(gòu)上很像,但是模型展現(xiàn)的特點(diǎn)截然不同。首先,MAR是在像素(或patch)上生成,沒有顯性的語(yǔ)義表征,其次由于MAR使用的Diffusion Deocder過(guò)于簡(jiǎn)單(n層MLP Layer)導(dǎo)致decoder表現(xiàn)力有制約。 因此,從下圖可以看出:MAR無(wú)法 “一步生圖”,且圖像patch是在自回歸過(guò)程中逐步迭代“完善”。

問(wèn):MRAR好在哪里? 對(duì)比AR Transformer中常用的Token-Level AR 和 Scale-Level AR優(yōu)勢(shì)嗎?
答:首先對(duì)比Token-Level AR和Scale-Level AR,TransDiff with MRAR在在Benchmark上有著較大的優(yōu)勢(shì)。其次,我們發(fā)現(xiàn) 語(yǔ)義表征多樣性越高,圖像質(zhì)量越高。而MRAR相較于Scale-Level AR可以顯著提升語(yǔ)義表征多樣性。

最后放一些demo

One More Thing
TransDiff with MRAR在未經(jīng)視頻數(shù)據(jù)訓(xùn)練的情況下,展現(xiàn)出了連續(xù)幀生成的潛力。 所以后續(xù)也會(huì)將TransDiff應(yīng)用在視頻生成領(lǐng)域,大家敬請(qǐng)期待。

本文轉(zhuǎn)載自????NLP工作站????,作者:NLP工作站

















