精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))

發(fā)布于 2024-4-9 11:29
瀏覽
0收藏

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

論文:https://arxiv.org/pdf/2404.02905.pdf

代碼:https://github.com/FoundationVision/VAR

demo:https://var.vision/

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

視覺自回歸建模(VAR),這是一種重新定義圖像上的自回歸學(xué)習(xí)的新一代范式。VAR將自回歸學(xué)習(xí)視為粗到細(xì)的“下一尺度預(yù)測”或“下一分辨率預(yù)測”,與標(biāo)準(zhǔn)的光柵掃描“下一個token預(yù)測”有所不同。這種簡單直觀的方法使得自回歸(AR)transformers能夠快速學(xué)習(xí)視覺分布,并且具有良好的泛化能力:VAR首次使得類似GPT風(fēng)格的自回歸模型在圖像生成方面超越了diffusion transformers。在ImageNet 256×256基準(zhǔn)測試中,VAR顯著改善了AR基線,將Fréchet inception distance(FID)從18.65降低到1.80,將inception score(IS)從80.4提高到356.4,同時推理速度提高了20倍。


經(jīng)驗驗證還表明,VAR在多個維度上優(yōu)于Diffusion Transformer(DiT),包括圖像質(zhì)量、推理速度、數(shù)據(jù)效率和可擴展性。擴大VAR模型規(guī)模表現(xiàn)出明顯的冪律尺度定律,類似于LLMs中觀察到的情況,相關(guān)系數(shù)接近-0.998,是堅實的證據(jù)。VAR還展示了在圖像修復(fù)、修補和編輯等下游任務(wù)中的zero-shot泛化能力。這些結(jié)果表明,VAR已經(jīng)初步模擬了LLMs的兩個重要屬性:scaling laws和zero-shot泛化。已經(jīng)發(fā)布了所有模型和代碼,以鼓勵探索自回歸/VAR模型用于視覺生成和統(tǒng)一學(xué)習(xí)。

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

介紹

GPT系列和其他自回歸(AR)大語言模型(LLMs)的出現(xiàn)標(biāo)志著人工智能領(lǐng)域的新紀(jì)元。這些模型在泛化性和多功能性方面表現(xiàn)出有前途的智能,盡管存在幻覺等問題,但仍被認(rèn)為是邁向通用人工智能(AGI)的堅實一步。這些大型模型的核心是一種自監(jiān)督學(xué)習(xí)策略——預(yù)測序列中的下一個token,這是一種簡單而深刻的方法。對這些大型AR模型成功的研究強調(diào)了它們的可擴展性和泛化能力:前者通過scaling laws的例證允許從較小的模型預(yù)測大型模型的性能,從而指導(dǎo)更好地資源分配;而后者,正如zero-shot和few-shot學(xué)習(xí)所證實的那樣,強調(diào)了無監(jiān)督訓(xùn)練模型適應(yīng)不同、未見任務(wù)的能力。這些特性顯示了AR模型在從大量未標(biāo)注數(shù)據(jù)中學(xué)習(xí)的潛力,概括了“AGI”的本質(zhì)。


與此同時,計算機視覺領(lǐng)域一直在努力發(fā)展大型的自回歸模型或世界模型,旨在模擬它們令人印象深刻的可擴展性和泛化能力。像VQGAN和DALL-E這樣的開創(chuàng)性工作以及它們的后繼模型展示了自回歸模型在圖像生成中的潛力。這些模型利用視覺tokenizer將連續(xù)圖像離散化為2D token網(wǎng)格,然后將其展平為1D序列進行自回歸學(xué)習(xí)(如圖2 b所示),類似于順序語言建模的過程(如圖2 a所示)。然而,這些模型的scaling laws仍然未被充分探索,更令人沮喪的是,它們的性能明顯落后于擴散模型,如圖3所示。與大語言模型的顯著成就形成鮮明對比,自回歸模型在計算機視覺領(lǐng)域的潛力似乎有些受限。

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

自回歸建模需要定義數(shù)據(jù)的順序。本文的工作重新考慮了如何“order”圖像。人類通常以分層方式感知或創(chuàng)建圖像,先捕捉全局結(jié)構(gòu),然后是局部細(xì)節(jié)。這種多尺度、由粗到細(xì)的方法自然地為圖像提供了一種“order”。受到廣泛使用的多尺度設(shè)計的啟發(fā),本文將圖像的自回歸學(xué)習(xí)定義為圖2(c)中的“下一尺度預(yù)測”,與圖2(b)中的傳統(tǒng)“下一個token預(yù)測”有所不同。本文的方法從將圖像編碼成多尺度token 圖開始。然后,自回歸過程從1×1 token 圖開始,并逐漸擴展分辨率:在每一步,transformer根據(jù)所有先前的token 圖預(yù)測下一個更高分辨率的token 圖。這種方法稱為Visual AutoRegressive(VAR)建模。


VAR直接利用了類似于GPT-2的transformer架構(gòu)進行視覺自回歸學(xué)習(xí)。在ImageNet 256×256基準(zhǔn)測試中,VAR顯著改善了其自回歸基線,實現(xiàn)了1.80的Fréchet inception距離(FID)和356.4的inception分?jǐn)?shù)(IS),推理速度提高了20倍。值得注意的是,VAR在FID/IS、數(shù)據(jù)效率、推理速度和可擴展性等方面超過了diffusion transformer(DiT)—— 諸如Stable Diffusion 3.0和SORA等領(lǐng)先的擴散系統(tǒng)的基礎(chǔ)。VAR模型還展示了與LLM中觀察到的相似的scaling laws。最后,展示了VAR在諸如圖像修復(fù)、生成和編輯等任務(wù)中的zero-shot泛化能力。總而言之,本文對社區(qū)的貢獻包括:


  • 使用多尺度自回歸范式和下一尺度預(yù)測的新視覺生成框架,為計算機視覺中的自回歸算法設(shè)計提供新的見解。
  • 對VAR模型的scaling laws和zero-shot泛化潛力進行了實證驗證,這些潛力最初模擬了大語言模型(LLMs)的吸引人特性。
  • 在視覺自回歸模型性能方面取得突破,使得類似于GPT的自回歸方法首次超越了強大的擴散模型在圖像合成方面的性能。
  • 提供了全面的開源代碼套件,包括VQ tokenizer和自回歸模型訓(xùn)練pipelines,以推動視覺自回歸學(xué)習(xí)的進展。

相關(guān)工作

大型自回歸語言模型的屬性

Scaling laws。 冪律scaling laws在數(shù)學(xué)上描述了模型參數(shù)、數(shù)據(jù)集大小、計算資源的增長與機器學(xué)習(xí)模型性能改進之間的關(guān)系,具有幾個明顯的優(yōu)點。首先,它們通過擴大模型規(guī)模、數(shù)據(jù)規(guī)模和計算成本的縮放來便于推斷出更大模型的性能。這有助于節(jié)省不必要的成本,并提供了分配訓(xùn)練預(yù)算的原則。其次,scaling laws證明了性能的持續(xù)且非飽和增長,證實了它們在增強模型能力方面的持續(xù)優(yōu)勢。


受神經(jīng)語言模型中scaling laws原理的啟發(fā),提出了幾種大語言模型[9, 76, 70, 27, 63, 64],體現(xiàn)了增加模型規(guī)模通常會產(chǎn)生更好性能結(jié)果的原則。基于transformer解碼器架構(gòu)的GPT經(jīng)歷了生成式預(yù)訓(xùn)練,并將模型規(guī)模擴展到前所未有的1750億參數(shù)。LLama發(fā)布了一系列規(guī)模從70億到700億參數(shù)的預(yù)訓(xùn)練和微調(diào)的大語言模型(LLMs)。將scaling laws應(yīng)用于語言模型的明顯有效性展示了對視覺模型進行升級的有前途潛力。


Zero-shot 泛化。 zero-shot泛化指的是模型,特別是大語言模型,能夠執(zhí)行未經(jīng)明確訓(xùn)練的任務(wù)的能力。在視覺領(lǐng)域,人們對基礎(chǔ)模型(如CLIP、SAM、Dinov2)的 zero-shot和上下文學(xué)習(xí)能力越來越感興趣。像Painter和LVM這樣的創(chuàng)新利用視覺提示設(shè)計上下文學(xué)習(xí)范式,從而促進了對下游未見任務(wù)的泛化。

視覺生成

圖像分詞器和自回歸模型。 語言模型依賴于字節(jié)對編碼(BPE)或WordPiece算法進行文本分詞。基于語言模型的視覺生成模型也需要將2D圖像編碼為1D token 序列。早期的嘗試VQVAE已經(jīng)證明了將圖像表示為離散token的能力,盡管重建質(zhì)量相對較低。VQGAN通過引入對抗損失和感知損失來提高圖像保真度,并采用僅解碼器的transformer以標(biāo)準(zhǔn)掃描方式生成圖像token。VQVAE-2和RQTransformer也遵循VQGAN的掃描方式,但通過額外的比例或堆疊代碼進一步改進了VQVAE。Parti利用ViT-VQGAN的基礎(chǔ)架構(gòu)將transformer模型大小擴展到200億參數(shù),取得了在文本到圖像合成方面的顯著成果。


Masked-prediction模型。MaskGIT采用了一個帶有VQ自編碼器的masked預(yù)測框架,通過“貪心”算法生成基于圖像tokens的圖像。MagViT將這種方法應(yīng)用到視頻數(shù)據(jù)中,而MagViT-2通過引入改進的VQVAE改進了MaskGIT。MUSE將MaskGIT的架構(gòu)擴展到30億參數(shù),并將其與T5語言模型合并,在文本到圖像合成方面設(shè)定了新的基準(zhǔn)。


擴散模型 被認(rèn)為是視覺合成的前沿,因為它們具有出色的生成質(zhì)量和多樣性。擴散模型的進展集中在改進的采樣技術(shù)、更快的采樣和架構(gòu)增強。Imagen將T5語言模型用于文本條件,并通過多個獨立的擴散模型進行級聯(lián)生成和超分辨率來構(gòu)建圖像生成系統(tǒng)。潛在擴散模型(LDM)在latent space中應(yīng)用擴散,提高了訓(xùn)練和推理的效率。DiT用基于transformer的架構(gòu)替換了傳統(tǒng)的U-Net,被用于最近的圖像或視頻合成系統(tǒng),如Stable Diffusion 3.0和SORA。

方法

初步:通過下一個token預(yù)測進行自回歸建模

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)


討論。 上述的tokenization和展平使得可以在圖像上進行下一個token自回歸學(xué)習(xí),但它們引入了幾個問題:

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

空間局部性的破壞(問題2)是顯而易見的。關(guān)于問題1,本文在附錄中提供了實證證據(jù),分析了流行的量化自編碼器中的token依賴關(guān)系,并揭示了顯著的雙向相關(guān)性。關(guān)于問題3的計算復(fù)雜性證明在附錄中有詳細(xì)說明。這些理論和實際限制要求重新思考圖像生成中的自回歸模型。

通過下一尺度預(yù)測的視覺自回歸建模

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

實現(xiàn)細(xì)節(jié)

VAR tokenizer。 如前所述,使用基本的VQVAE架構(gòu),采用多尺度量化方案,并增加了個K額外的卷積層(0.03M額外參數(shù))。對所有尺度使用共享的codebook,其中V=4096,潛在維度為32。與基準(zhǔn)方法[19]一樣,分詞器也在OpenImages上使用復(fù)合損失(5)進行訓(xùn)練。更多細(xì)節(jié)請參閱附錄。


VAR transformer。 本文的主要重點是VAR算法,因此保持了簡單的模型架構(gòu)設(shè)計。本文采用了類似于GPT-2和VQGAN的標(biāo)準(zhǔn)解碼器transformer的架構(gòu),唯一的修改是用自適應(yīng)歸一化(AdaLN)替代傳統(tǒng)的層歸一化——這個選擇受到了其在視覺生成模型中被廣泛采用和被證明有效的啟發(fā)。對于類別條件的合成,使用類別embedding作為起始token[s],也作為AdaLN的條件。本文沒有使用現(xiàn)代大語言模型中的高級技術(shù),比如旋轉(zhuǎn)位置嵌入(RoPE)、SwiGLU MLP或RMS Norm。本文的模型形狀超參數(shù)遵循一個簡單的規(guī)則,即寬度W、頭部數(shù)量h和丟失率dr隨著深度d線性縮放,如下所示:

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

因此,深度d為的VAR transformer的主要參數(shù)數(shù)量由以下公式給出:

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

實驗結(jié)果

這一部分首先比較了VAR與其他圖像生成模型家族在性能和效率方面的表現(xiàn)。并進行了評估。然后對VAR模型的可擴展性和泛化能力進行了評估。最后進行了一些消融實驗和可視化。

最先進的圖像生成

設(shè)置。 在ImageNet 256×256和512×512的條件生成基準(zhǔn)上測試了深度為16、20、24和30的VAR模型,并將它們與最先進的圖像生成模型進行了比較。在所有基于VQVAE的AR或VAR模型中,VQGAN和本文的模型使用相同的架構(gòu)(CNN)和訓(xùn)練數(shù)據(jù)(OpenImages)進行VQVAE訓(xùn)練,而ViT-VQGAN使用ViT自編碼器,并且它和RQTransformer直接在ImageNet上訓(xùn)練VQVAE。結(jié)果總結(jié)如下表所示。

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

整體比較。 

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

效率比較。 傳統(tǒng)的自回歸(AR)模型在計算成本上存在很大問題,因為圖像token的數(shù)量與圖像分辨率的平方成正比。完整的自回歸生成個token需要的解碼迭代和的總計算量。相比之下,VAR只需要的迭代和的總計算量。表1中報告的墻鐘時間也提供了實證證據(jù),即使具有更多的模型參數(shù),VAR的速度也比VQGAN和ViT-VQGAN快約20倍,達到了高效GAN模型的速度,后者只需要1步即可生成一幅圖像。


與流行的 diffusion transformer相比。 VAR模型在多個方面都超過了最近流行的擴散模型Diffusion Transformer(DiT),它是最新的Stable Diffusion 3和SORA的前身:

  • 在圖像生成的多樣性和質(zhì)量(FID和IS)方面,具有20億參數(shù)的VAR始終優(yōu)于DiT-XL/2,L-DiT-3B和L-DiT-7B。VAR還保持了可比的精度和召回率。
  • 對于推理速度,DiT-XL/2需要比VAR多45倍的墻鐘時間,而3B和7B模型則需要更多。
  • VAR被認(rèn)為更具數(shù)據(jù)效率,因為它只需要350個訓(xùn)練周期,而DiT-XL/2需要1400個。
  • 就可擴展性而言,圖3和表1顯示,DiT在超過6.75億參數(shù)時只能獲得微小甚至負(fù)面的增益。相比之下,VAR的FID和IS不斷提高,與scaling laws研究相一致。這些結(jié)果表明,與DiT等模型相比,VAR是一個更高效、可擴展的圖像生成模型。

冪律 scaling laws

背景。 先前的研究[30, 22, 27, 1]已經(jīng)確定,擴展自回歸(AR)大語言模型(LLMs)會導(dǎo)致測試損失的可預(yù)測下降。這一趨勢與參數(shù)數(shù)量、訓(xùn)練token 和最佳訓(xùn)練計算呈現(xiàn)出一種冪律關(guān)系:

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

這些觀察到的scaling laws不僅驗證了LLM的可擴展性,而且作為AR建模的預(yù)測工具,有助于根據(jù)較小的對應(yīng)物估計更大的AR模型的性能,從而通過大型模型性能預(yù)測節(jié)省資源使用。鑒于由LLM帶來的這些吸引人的規(guī)模律性質(zhì),它們在計算機視覺中的復(fù)制因此具有重要意義。


設(shè)置scalingVAR模型。 遵循[30, 22, 27, 1]的協(xié)議,檢查本文的VAR模型是否符合類似的scaling laws。在12種不同大小的模型上進行了訓(xùn)練,參數(shù)從18M到2B不等,使用包含1.28M張圖片(或根據(jù)VQVAE為870B的圖像token)的ImageNet訓(xùn)練集進行每輪訓(xùn)練。對于不同大小的模型,訓(xùn)練持續(xù)了200到350個epoch,最大的token數(shù)量達到3050億。以下將重點放在模型參數(shù)和給定足夠token數(shù)的最優(yōu)訓(xùn)練計算上的scaling laws。


使用模型參數(shù)N的scaling laws。 本文首先調(diào)查了隨著VAR模型大小增加而變化的測試損失趨勢。對于深度為的VAR transformer,參數(shù)數(shù)量,如公式(8)所示。將從6變化到30,得到了12個模型,參數(shù)數(shù)量從18.5M到2.0B不等。本文評估了在ImageNet驗證集上的最終測試交叉熵?fù)p失和token預(yù)測錯誤率,該驗證集包含50,000張圖片。本文計算了最后一個尺度(在最后一個下一個尺度的自回歸步驟中)以及全局平均的和。結(jié)果如圖5所示,觀察到作為函數(shù)的清晰的冪律scaling趨勢,與[30, 22, 27, 1]一致。冪律scaling laws可以表示為:

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

盡管規(guī)模律主要研究了測試損失,本文也在token錯誤率上觀察到類似的冪律趨勢:

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

這些結(jié)果驗證了VAR的強大可擴展性,通過擴大VAR transformer的規(guī)模可以持續(xù)提高模型的測試性能。


以最優(yōu)訓(xùn)練計算量  為尺度的scaling laws。 接著,本文研究了在增加訓(xùn)練計算量  時,VAR transformer 的scaling行為。對于這 12 個模型中的每一個,追蹤了測試損失  和token誤差率  隨著訓(xùn)練計算量  的變化情況,訓(xùn)練計算量以 PFlops(每秒  浮點運算)為單位報告。結(jié)果繪制在圖 6 中。在這里,繪制了  和  的帕累托前沿,以突出達到一定損失或誤差值所需的最優(yōu)訓(xùn)練計算量 。



圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

對于作為  函數(shù)的  和 Err 的擬合冪律為scaling laws:

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

這些關(guān)系(13、14)在  的 6 個數(shù)量級范圍內(nèi)保持一致,本文的發(fā)現(xiàn)與[30, 22]中的結(jié)果一致:在有足夠數(shù)據(jù)的情況下,更大的 VAR transformer 更具計算效率,因為它們可以用更少的計算達到相同的性能水平。


可視化。 為了更好地了解當(dāng)VAR模型擴展時它們是如何學(xué)習(xí)的,在圖7中比較了來自4種不同尺寸的VAR模型(深度為6、16、26、30)和3個不同訓(xùn)練階段(總訓(xùn)練token的20%、60%、100%)生成的一些256×256樣本。為了保持內(nèi)容一致,使用了相同的隨機種子和teacher-forced初始token。觀察到的視覺保真度和完整性的改進與scaling laws一致,因為更大的transformer被認(rèn)為能夠?qū)W習(xí)更復(fù)雜、更精細(xì)的圖像分布。

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

zero-shot任務(wù)泛化

圖像修復(fù)和摳圖。 對VAR-d30進行了測試。對于圖像修復(fù)和摳圖,使用真實圖像中mask之外的真實token強制網(wǎng)絡(luò)進行訓(xùn)練,使網(wǎng)絡(luò)只生成mask內(nèi)的token。沒有向網(wǎng)絡(luò)注入類別標(biāo)簽信息。結(jié)果見圖8。在不修改網(wǎng)絡(luò)架構(gòu)或調(diào)整參數(shù)的情況下,VAR在這些下游任務(wù)上取得了不錯的結(jié)果,證實了VAR的泛化能力。

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

類別條件圖像編輯。 本文也在類別條件圖像編輯任務(wù)上對VAR進行了測試,這與修復(fù)圖像的情況類似。模型被強制只在邊界框內(nèi)生成token,條件是某個類別標(biāo)簽。圖8顯示,模型可以生成與周圍環(huán)境融合良好的內(nèi)容,再次驗證了VAR的通用性。

消融研究

在這項研究中,旨在驗證本文提出的VAR框架的有效性和效率。結(jié)果報告在表3中。

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

VAR的有效性和效率。 從由[11]實施的基準(zhǔn)vanilla AR transformer開始,本文將其方法替換為VAR,并保持其他設(shè)置不變以獲得第2行。VAR的FID要好得多(18.65比5.22),而推理掛鐘成本僅為AR模型的0.013倍,這顯示了視覺AR模型在性能和效率上的飛躍。


各組件分離實驗。 本文進一步測試了VAR中的一些關(guān)鍵組件。通過將標(biāo)準(zhǔn)層歸一化(LN)替換為自適應(yīng)層歸一化(AdaLN),VAR開始產(chǎn)生比基準(zhǔn)更好的FID。通過使用類似于基準(zhǔn)的top-k抽樣,VAR的FID進一步提高。通過使用比例為2.0的無分類器指導(dǎo)(CFG),達到了3.60的FID,比基準(zhǔn)低了15.05,其推斷速度仍然快45倍。由于觀察到的有效性,將最終的VAR模型配備了AdaLN、top-k抽樣和無分類器指導(dǎo)。最后,將VAR大小擴展到2.0B,并實現(xiàn)了1.80的FID。這比基準(zhǔn)FID高出16.85。

未來工作

在這項工作中,主要關(guān)注學(xué)習(xí)范式的設(shè)計,并保持VQVAE架構(gòu)和訓(xùn)練與基準(zhǔn)[19]保持不變,以更好地證明VAR框架的有效性。本文期望推進VQVAE分詞器作為增強自回歸生成模型的另一種有前途的方式,這與本文的工作無關(guān)。相信在這些最新工作中通過先進的tokenizer或抽樣技術(shù)迭代VAR可以進一步提高VAR的性能或速度。


文本提示生成 是研究的一個持續(xù)方向。考慮到本文模型在基本上與現(xiàn)代LLMs類似,它可以很容易地與它們集成,通過編碼器-解碼器或上下文方式執(zhí)行文本到圖像的生成。這是作者目前重點探索的方向。

結(jié)論

本文引入了一種名為Visual AutoRegressive modeling(VAR)的新視覺生成框架,該框架在理論上解決了標(biāo)準(zhǔn)圖像自回歸(AR)模型中存在的一些問題,并使基于語言模型的AR模型首次在圖像質(zhì)量、多樣性、數(shù)據(jù)效率和推理速度方面超越了強大的擴散模型。將VAR擴展到20億參數(shù)后,觀察到測試性能與模型參數(shù)或訓(xùn)練計算之間存在明顯的冪律關(guān)系,皮爾遜系數(shù)接近-0.998,表明該框架對性能預(yù)測具有強大的魯棒性。這些scaling laws以及zero-shot任務(wù)泛化的可能性,作為LLM的標(biāo)志,在VAR transformer模型中已初步驗證。希望本發(fā)現(xiàn)和開放源代碼能夠促進自然語言處理領(lǐng)域取得的巨大成功更無縫地整合到計算機視覺中,最終推動強大的多模態(tài)智能的發(fā)展。


圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)

圖像生成里程碑!VAR:自回歸模型首超Diffusion Transformer!(北大&字節(jié))-AI.x社區(qū)


本文轉(zhuǎn)自 AI生成未來 ,作者:Keyu Tian等


原文鏈接:??https://mp.weixin.qq.com/s/l9_XDpIi2-MtWClJBgtkBg??

標(biāo)簽
已于2024-4-9 11:41:17修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
吞精囗交69激情欧美| 欧美熟妇另类久久久久久不卡 | 91久久国产自产拍夜夜嗨| 久久久久久久极品内射| 要久久电视剧全集免费| 91精品国产综合久久蜜臀| 日韩中文字幕在线免费| 尤物视频在线免费观看| 成人高清视频在线观看| 国产精品久久久久久久7电影| 青青草手机视频在线观看| 免费精品国产的网站免费观看| 女人十八岁毛片| 亚洲澳门在线| 亚洲全黄一级网站| 好吊操视频这里只有精品| 欧美精品高清| 亚洲成人一区在线| 伊人色综合久久天天五月婷| 五月天激情婷婷| 韩国精品在线观看| 国产精品草莓在线免费观看| 久久免费视频精品| 国产精品毛片久久| 国产亚洲精品久久久| 日本性生活一级片| 精品视频在线播放一区二区三区| 色综合久久九月婷婷色综合| 中国女人做爰视频| 爱爱爱免费视频在线观看| thepron国产精品| 99re视频| 国产青青草视频| 蜜桃视频一区二区三区在线观看 | 日韩欧美激情视频| 牛牛国产精品| 另类视频在线观看| 美女三级黄色片| 精品国产一区二区三区久久久蜜臀 | 中文字幕亚洲区| 欧美中日韩一区二区三区| 成人小说亚洲一区二区三区| 激情五月婷婷综合| 国产欧美在线播放| 中文字幕日韩国产| 日韩vs国产vs欧美| 日本中文字幕成人| 日本午夜视频在线观看| 亚洲免费高清| 欧美一级大片视频| 国产成人亚洲欧洲在线| 亚洲美女视频在线免费观看 | 一区二区三区在线视频看| 国产中文字幕在线看| 久久精品亚洲乱码伦伦中文| 蜜桃传媒视频麻豆一区| 视频福利在线| 久久久国产一区二区三区四区小说| 国产综合精品一区二区三区| 国产刺激高潮av| av电影一区二区| 精品在线视频一区二区| 欧美成人免费| 久久精品亚洲乱码伦伦中文| 午夜精品视频在线观看一区二区| 超碰免费在线观看| 18涩涩午夜精品.www| 欧美三级午夜理伦三级老人| 99热国产在线中文| 亚洲永久精品大片| 欧美一区二区中文字幕| 欧美xx视频| 精品1区2区3区| 潘金莲激情呻吟欲求不满视频| 韩国理伦片久久电影网| 欧美一级日韩一级| 妖精视频一区二区| 神马影视一区二区| xxx一区二区| 精品无码人妻一区二区三| 亚洲激情二区| 国产精品免费久久久久影院| 99久久久久成人国产免费| 成人综合在线网站| 日韩高清在线播放| 操你啦在线视频| 香蕉成人伊视频在线观看| 777米奇影视第四色| 成人全视频在线观看在线播放高清 | 不卡av在线播放| 日韩免费不卡视频| 日本成人在线一区| 99久久久精品免费观看国产| 欧美精品久久久久久久久久丰满| 亚洲国产精品ⅴa在线观看| a级网站在线观看| 中文在线а√在线8| 欧美精品久久一区二区三区| 亚洲香蕉中文网| 成人3d动漫在线观看| 欧美激情极品视频| 久久久久久久久久一级| 国产99久久久精品| 亚洲va韩国va欧美va精四季| 天堂va在线| 欧美伊人精品成人久久综合97| 色姑娘综合天天| 欧美禁忌电影| 高清视频欧美一级| 91国产精品一区| 久久亚洲一级片| 欧美极品少妇无套实战| 久久91视频| 亚洲另类xxxx| 日本一二三区不卡| 精品亚洲成av人在线观看| 蜜桃999成人看片在线观看| gogogogo高清视频在线| 精品视频在线看| 成年人网站免费在线观看| 欧美久久九九| 成人高清视频观看www| 国产在线你懂得| 精品久久久久久久久中文字幕| 三级黄色片播放| 99精品在线免费在线观看| 欧美中文在线观看国产| 欧美熟女一区二区| 一卡二卡三卡日韩欧美| 国产欧美精品一二三| 日韩av自拍| 国产精品成av人在线视午夜片| 亚洲人妻一区二区| 香蕉久久一区二区不卡无毒影院| 韩国三级在线播放| 91精品二区| 国产在线观看不卡| 日韩黄色影院| 欧美麻豆精品久久久久久| 亚洲精品国产一区黑色丝袜| 国产午夜精品一区二区三区欧美 | 国产精品私拍pans大尺度在线| 深夜福利视频在线免费观看| 午夜精品一区在线观看| 免费看毛片的网站| 中日韩男男gay无套| 国产欧美韩日| 爱看av在线入口| 亚洲第一区在线| 成人免费视频毛片| 91视频一区二区| 欧美日韩亚洲第一| 影视先锋久久| 国产精品久久一区主播| 日本www在线观看| 欧美精选一区二区| 欧美日韩在线观看成人| 国产v综合v亚洲欧| 日韩五码在线观看| 久草成人资源| 国产精品久久久久久久久久 | 亚洲天堂网一区| 久久一区91| 5g国产欧美日韩视频| 91黄页在线观看| 亚洲精品一区二区在线| 波多野结衣在线电影| 亚洲国产岛国毛片在线| 在线播放免费视频| 欧美日韩国产欧| 精品在线观看一区二区| 成人影院在线免费观看| 久久人体大胆视频| 黄色av中文字幕| 欧美最猛黑人xxxxx猛交| 91禁男男在线观看| 国产成人精品影院| 日韩精品视频一区二区在线观看| 欧美丝袜一区| 91日韩久久| 手机看片久久| 色综合久综合久久综合久鬼88 | 国产精品亚洲欧美在线播放| 亚洲最新视频在线播放| 国产夫妻性爱视频| 精品一区二区三区av| 成人精品视频在线播放| 国产精品一区二区av交换| 91久久国产精品91久久性色| a国产在线视频| 在线观看精品自拍私拍| 全国男人的天堂网| 欧美美女黄视频| 中文字幕激情小说| 亚洲欧美国产高清| 国产成人av一区二区三区不卡| 蜜桃视频一区二区三区| 玩弄中年熟妇正在播放| 欧美好骚综合网| 九色91在线视频| 看亚洲a级一级毛片| 日韩美女视频在线观看| 麻豆福利在线观看| 在线一区二区日韩| 五月婷婷六月激情| 欧美一级在线观看| 这里只有久久精品视频| 亚洲国产综合视频在线观看| 99精品欧美一区二区| 成人免费的视频| 成人性生交视频免费观看| 三级不卡在线观看| 国产伦精品一区二区三区四区视频_| 日韩精品四区| 欧美区高清在线| 国产精品乱战久久久| 91久热免费在线视频| 色天使综合视频| 欧美重口另类videos人妖| 密臀av在线| 欧美大片在线影院| 黄色成人在线观看| 中文字幕日韩综合av| 欧美精品少妇| 日韩精品丝袜在线| 欧美性猛交 xxxx| 欧美一级在线免费| 国产精品一二三四五区| 欧美日韩欧美一区二区| 人妻 日韩精品 中文字幕| 偷拍日韩校园综合在线| 黄色一级视频在线观看| 亚洲精选免费视频| 久久爱一区二区| 亚洲欧洲www| 日韩在线一卡二卡| 中文字幕在线观看不卡视频| 91麻豆制片厂| 欧美国产视频在线| 你懂得视频在线观看| 欧美经典一区二区三区| av网站免费在线看| 欧美极品xxx| 91精品久久久久久久久久久久| 国产视频不卡一区| 国产破处视频在线观看| 日本一区二区在线不卡| 国产第一页精品| 国产精品黄色在线观看 | 午夜欧美一区二区三区在线播放| 青娱乐在线视频免费观看| 一区二区三区精品| 国产在线精品观看| 精品美女久久久久久免费| 欧美福利视频一区二区| 欧美性猛交99久久久久99按摩| 久久久久久久黄色片| 欧美性精品220| 嫩草影院一区二区三区| 欧美日韩午夜影院| 99精品免费观看| 精品美女在线播放| 男男激情在线| 日韩在线视频国产| 色呦呦网站在线观看| 国内伊人久久久久久网站视频| h片在线观看下载| 日本欧美一级片| 日韩城人网站| 国产一区二区三区无遮挡| 伊人春色精品| 自拍偷拍99| 最新国产拍偷乱拍精品| 国产一区视频免费观看| 激情欧美一区二区三区在线观看| 韩国三级hd中文字幕有哪些| 91最新地址在线播放| 亚洲精品国产精品国自| 一区二区三区四区不卡在线| 日韩精品在线免费视频| 欧美日韩中文字幕一区| 亚洲精品国偷拍自产在线观看蜜桃| 日韩av在线免费观看一区| 岛国在线视频免费看| 色综合久久久久久中文网| 成人福利av| 91精品黄色| 国产精品亚洲二区| 久久人妻无码一区二区| 久久一日本道色综合久久| 九九热视频免费| 久久精品水蜜桃av综合天堂| 亚洲一级生活片| 色呦呦网站一区| 成人免费观看在线视频| 在线精品91av| 天堂网在线最新版www中文网| 国产美女精品视频免费观看| 盗摄牛牛av影视一区二区| 一区二区免费在线视频| 亚洲福利免费| 91欧美一区二区三区| 久久久久国产精品麻豆| 久草成人在线视频| 欧美年轻男男videosbes| 网站黄在线观看| 精品中文字幕在线2019| 日本h片久久| 欧美区高清在线| 亚洲福利电影| 性折磨bdsm欧美激情另类| 欧美国产精品中文字幕| 成人午夜视频在线播放| 精品久久国产字幕高潮| 欧美jizz18hd性欧美| 日本久久久久久久| 欧美一区 二区| 日韩网站在线免费观看| 激情图区综合网| 国产在线免费av| 日本高清免费不卡视频| 亚洲欧美综合一区二区| 高清亚洲成在人网站天堂| 中文字幕亚洲在线观看| 韩国黄色一级大片| 久久99在线观看| 免费在线观看a视频| 日本韩国欧美一区| 色av男人的天堂免费在线| 性视频1819p久久| 成人h动漫精品一区二区器材| 人妻激情另类乱人伦人妻| 国产精品主播直播| 日本一级二级视频| 91.com在线观看| 高清免费电影在线观看| 91日本视频在线| 天天做天天爱天天综合网2021| 手机看片一级片| 中文字幕在线一区| 国产免费久久久| 九九久久精品一区| 911精品国产| 六月婷婷在线视频| kk眼镜猥琐国模调教系列一区二区| 国产精品 欧美 日韩| 亚洲成人av资源网| 中文一区一区三区高中清不卡免费| 久久国产精品99久久久久久丝袜 | 天天综合网久久| 综合激情成人伊人| 精品人妻午夜一区二区三区四区| 九九精品在线视频| 欧美电影在线观看完整版| 国产精品久久中文字幕| 91丝袜美腿高跟国产极品老师 | 国产一区二区三区直播精品电影| 久久精品女人天堂av免费观看| 日韩欧美在线电影| 韩国午夜理伦三级不卡影院| 黑人巨大精品一区二区在线| 精品日产卡一卡二卡麻豆| 黑森林国产精品av| 台湾成人av| 国产精品一区2区| 日韩三级免费看| 中文国产亚洲喷潮| 日本一区二区三区播放| 国产综合av在线| 国产欧美一二三区| 国内老熟妇对白hdxxxx| 97在线视频免费看| 欧美限制电影| 深夜视频在线观看| 欧美日韩亚洲网| 欧美精品videos另类| 国产精品免费视频一区二区| 久久国产免费| 免费在线观看一级片| 日韩av最新在线观看| 精品69视频一区二区三区| av无码久久久久久不卡网站| 久久久一区二区| 99久久久国产精品无码网爆| 欧洲成人免费aa| 91精品国产视频| 久久久久久国产精品无码| 91精品国产福利在线观看| 午夜av不卡| 一区二区视频国产| 91视频一区二区| 性网爆门事件集合av| 国产成人精品一区| 欧美私人啪啪vps| 超碰人人干人人| 亚洲精品www| 日本一区二区乱| 日韩精品视频一二三| 精品久久久久久久大神国产| 爆操欧美美女|