精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

填補(bǔ)領(lǐng)域空白!TerDiT:首次探索大規(guī)模DiT模型量化問題

發(fā)布于 2024-5-29 10:00
瀏覽
0收藏

填補(bǔ)領(lǐng)域空白!TerDiT:首次探索大規(guī)模DiT模型量化問題-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2405.14854

項(xiàng)目鏈接:https://github.com/Lucky-Lance/TerDiT

填補(bǔ)領(lǐng)域空白!TerDiT:首次探索大規(guī)模DiT模型量化問題-AI.x社區(qū)

最近在大規(guī)模預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型方面的發(fā)展顯著提高了高保真圖像的生成能力,特別是基于transformer架構(gòu)的擴(kuò)散模型(DiTs)的出現(xiàn)。在這些擴(kuò)散模型中,擴(kuò)散transformer展示了卓越的圖像生成能力,降低了FID分?jǐn)?shù)并提高了可擴(kuò)展性。然而,由于其龐大的參數(shù)數(shù)量,部署大規(guī)模的DiT模型可能會非常昂貴。盡管現(xiàn)有研究已經(jīng)探索了擴(kuò)散模型的高效部署技術(shù),如模型量化,但關(guān)于基于DiT模型的研究仍然很少。為了解決這一研究空白,本文提出了TerDiT,一種面向量化感知訓(xùn)練(QAT)和高效部署的基于

transformer的三值化擴(kuò)散模型方案。本文專注于DiT網(wǎng)絡(luò)的三值化化,并將模型規(guī)模從600M擴(kuò)展到4.2B。本文的工作為大規(guī)模DiT模型的高效部署策略探索做出了貢獻(xiàn),證明了從頭訓(xùn)練極低比特的擴(kuò)散transformer模型的可行性,同時在圖像生成能力上保持與全精度模型相當(dāng)?shù)母偁幜Α?/strong>

介紹

大規(guī)模預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型的進(jìn)步已經(jīng)成功生成了復(fù)雜且高度保真于輸入條件的圖像。值得注意的是,基于transformer架構(gòu)的擴(kuò)散模型(DiTs)的出現(xiàn)代表了該研究領(lǐng)域的一個重要進(jìn)展。與其他擴(kuò)散模型相比,擴(kuò)散transformer展示了在更高計(jì)算量下實(shí)現(xiàn)更低FID分?jǐn)?shù)的能力。最新的研究突出了擴(kuò)散transformer架構(gòu)在圖像生成方面的顯著能力,例如在Stable Diffusion 3方法中展示的成果,以及在視頻生成方面的出色表現(xiàn),如Sora所展示的工作。


鑒于擴(kuò)散transformer模型的出色表現(xiàn),研究人員現(xiàn)在越來越多地深入研究這些視覺模型的擴(kuò)展規(guī)律,這與大語言模型相似。例如,Stable Diffusion 3提供了一系列參數(shù)規(guī)模的訓(xùn)練DiT模型,從8億到80億。此外,有研究人員推測Sora可能擁有大約30億個參數(shù)。由于這些模型擁有龐大的參數(shù)數(shù)量,部署這些DiT模型往往成本高昂,尤其是在某些終端設(shè)備上。

為了應(yīng)對部署難題,最近已經(jīng)有一些關(guān)于高效部署擴(kuò)散模型的研究工作,其中大多數(shù)集中在模型量化方面。然而,據(jù)本文所知,目前的研究仍然存在兩個主要缺陷。首先,雖然量化基于 U-Net 的擴(kuò)散模型已經(jīng)受到了很多關(guān)注,但對于基于transformer的擴(kuò)散模型的量化方法探索仍然非常有限。其次,目前文獻(xiàn)中的大多數(shù)主流方法主要依賴于后訓(xùn)練量化 (PTQ) 技術(shù)來進(jìn)行模型量化,這會導(dǎo)致不可接受的性能下降,特別是在極低比特寬度(例如2比特和1比特)下。然而,神經(jīng)網(wǎng)絡(luò)的極低比特量化非常重要,因?yàn)樗梢燥@著減少部署所需的計(jì)算資源,尤其對于具有巨大參數(shù)規(guī)模的模型。在本文的研究過程中,本文發(fā)現(xiàn)目前還沒有研究考慮 DiT 模型的極低比特量化。


為了解決這些缺陷,本文提出利用量化感知訓(xùn)練(QAT)技術(shù)對大規(guī)模 DiT 模型進(jìn)行極低比特量化。在大規(guī)模模型領(lǐng)域,低比特 QAT 方法已在大語言模型(LLM)領(lǐng)域進(jìn)行了討論。最近的研究表明,從頭開始訓(xùn)練具有極低比特參數(shù)(例如二進(jìn)制和三進(jìn)制)的大語言模型,也可以達(dá)到與全精度模型相當(dāng)?shù)母偁幮阅?。這表明大規(guī)模模型中仍然存在顯著的精度冗余,并且暗示了 QAT 方案對于大規(guī)模 DiT 模型的可行性。


在本文中,本文主要關(guān)注三值權(quán)重網(wǎng)絡(luò),并提供了 TerDiT,這是本文所知的首個用于 DiT 的量化方案。本文的方法實(shí)現(xiàn)了三值擴(kuò)散transformer模型的量化感知訓(xùn)練(僅限權(quán)重)和高效部署。與 LLM 和 CNN 中線性層的簡單量化不同,本文發(fā)現(xiàn)直接對 DiT 模塊中的 adaLN 模塊進(jìn)行權(quán)重三值化,會導(dǎo)致歸一化層中的大尺寸尺度和偏移值(由于權(quán)重量化和梯度近似),這與全精度模型相比,導(dǎo)致收斂速度較慢和模型性能較差。因此,本文提出了一種 adaLN 的變體,通過在 adaLN 模塊的三值線性層之后應(yīng)用 RMS Norm,有效地緩解了這一訓(xùn)練問題。


通過這種修改,本文將三值 DiT 模型的參數(shù)規(guī)模從 600M(DiT-XL/2的規(guī)模)擴(kuò)展到 4.2B(Large-DiT-4.2B的規(guī)模),發(fā)現(xiàn)具有更多參數(shù)的模型能夠收斂到更好的結(jié)果。本文進(jìn)一步采用現(xiàn)有的2-bit CUDA 內(nèi)核來部署訓(xùn)練后的三值 DiT 模型,使模型checkpoint 大小減少了十倍以上,推理內(nèi)存消耗減少了約六倍,同時實(shí)現(xiàn)了具有競爭力的生成質(zhì)量。主要貢獻(xiàn)總結(jié)如下:

  • 受低位 LLMs 量化感知訓(xùn)練方案的啟發(fā),本文研究了針對三值 DiT 模型的 QAT 方法,并引入了 DiT 特定的改進(jìn)以獲得更好的訓(xùn)練效果,這在 DiT 文獻(xiàn)中尚未被探索。
  • 本文將三值DiT模型的參數(shù)規(guī)模從600M擴(kuò)展到4.2B,并基于現(xiàn)有的2-bit CUDA內(nèi)核在GPU上部署了訓(xùn)練后的三值DiT模型,使得4.2B DiT模型的推理內(nèi)存消耗小于3GB。
  • 與全精度模型在ImageNet基準(zhǔn)測試(圖像生成)中的對比評估結(jié)果展示了本文提出的TerDiT方案的有效性。


本文的研究是首次嘗試探索DiT模型的量化問題。本文專注于量化感知訓(xùn)練和大規(guī)模三值DiT模型的高效部署,為未來研究在極低比特精度下部署DiT模型提供了寶貴的見解。

相關(guān)工作

擴(kuò)散模型。 近年來,擴(kuò)散模型因其生成高質(zhì)量圖像的能力和多種應(yīng)用潛力而受到了廣泛關(guān)注。擴(kuò)散模型的概念最早由提出,該研究提出了一種通過學(xué)習(xí)逆向擴(kuò)散過程的生成模型。這項(xiàng)工作為該領(lǐng)域的后續(xù)研究奠定了基礎(chǔ)。[1]進(jìn)一步擴(kuò)展了這一思想,提出了去噪擴(kuò)散概率模型(DDPMs),這類模型已成為圖像生成任務(wù)中的熱門選擇。DDPMs被應(yīng)用于廣泛的領(lǐng)域,包括無條件圖像生成、圖像修復(fù)和圖像超分辨率。此外,擴(kuò)散模型還被用于文本到圖像的合成,如DALL-E模型和Imagen模型所展示的那樣,這些模型展示了擴(kuò)散模型從文本描述中生成高度逼真和多樣化圖像的能力。進(jìn)一步地,擴(kuò)散模型還被擴(kuò)展到其他模態(tài),如音頻合成和視頻生成,展示了其在多模態(tài)應(yīng)用中的多樣性和潛力。


擴(kuò)散模型的量化。 近年來,為了提高擴(kuò)散模型的效率,研究人員對擴(kuò)散模型的量化進(jìn)行了研究。后訓(xùn)練量化(PTQ)方法,如[9, 11, 13, 14, 15]中提出的方法,在量化時間和數(shù)據(jù)使用方面具有優(yōu)勢。然而,當(dāng)這些方法應(yīng)用于低比特設(shè)置時,通常會導(dǎo)致性能不佳。為了解決這個問題,[31]提出了將量化感知低秩適配器(QALoRA)與PTQ方法相結(jié)合,從而提高評估結(jié)果。作為PTQ的替代方案,量化感知訓(xùn)練(QAT)方法專門用于低比特?cái)U(kuò)散模型的量化。盡管這些QAT方法有效,但目前僅限于小規(guī)模的基于U-Net的擴(kuò)散模型,這揭示了在大規(guī)模DiT模型上應(yīng)用QAT的研究空白。進(jìn)一步探索適用于大規(guī)模DiT模型的極低比特寬度QAT技術(shù),可能會帶來更大的效率提升,并在資源受限的環(huán)境中有效部署擴(kuò)散模型。


三值權(quán)重網(wǎng)絡(luò)。 三值權(quán)重網(wǎng)絡(luò)作為一種內(nèi)存高效和計(jì)算高效的網(wǎng)絡(luò)結(jié)構(gòu),已經(jīng)引起了廣泛關(guān)注,其在推理內(nèi)存使用上的顯著減少潛力尤為突出。在專用硬件的支持下,三值權(quán)重網(wǎng)絡(luò)還可以提供顯著的計(jì)算加速。在量化方法中,三值權(quán)重網(wǎng)絡(luò)備受關(guān)注,主要有兩種方法:僅權(quán)重量化和權(quán)重-激活量化。在僅權(quán)重量化中,如[35]所述,僅對權(quán)重進(jìn)行三值量化。而權(quán)重-激活量化,如[36, 37]所述,則對權(quán)重和激活值同時進(jìn)行三值量化。近期研究表明,三值權(quán)重網(wǎng)絡(luò)在訓(xùn)練大語言模型方面具有可行性,并且其結(jié)果可與全精度模型相媲美?;谶@些進(jìn)展,本文的工作首次引入了針對三值DiT模型的量化感知訓(xùn)練和高效部署方案。通過在DiT模型中利用三值量化的優(yōu)勢,本文旨在推動效率的極限,并使強(qiáng)大的擴(kuò)散模型在資源受限的環(huán)境中得以部署,從而為實(shí)際應(yīng)用開辟新的可能性。

TerDiT

TerDiT,這是一個用于進(jìn)行僅權(quán)重量化感知訓(xùn)練和高效部署大規(guī)模三值DiT模型的框架。本文首先簡要回顧擴(kuò)散transformer(DiT)模型。然后,基于之前開源的Large-DiT,闡述了量化函數(shù)和量化感知訓(xùn)練方案,并進(jìn)行特定于QAT的模型結(jié)構(gòu)改進(jìn)以優(yōu)化網(wǎng)絡(luò)訓(xùn)練,并介紹了三值部署方案。

擴(kuò)散transformer模型

擴(kuò)散transformer(Diffusion Transformer)。擴(kuò)散transformer(DiT)是一種架構(gòu),它用操作潛在patches的transformer替代了擴(kuò)散模型中常用的U-Net骨干結(jié)構(gòu)。類似于下圖2(C)中展示的視覺transformer(ViT)架構(gòu),DiT首先將空間輸入劃分為一系列tokens,然后通過一系列transformer塊(下圖2(B))進(jìn)行去噪處理。為了處理額外的條件信息(例如噪聲時間步t、類別標(biāo)簽l、自然語言輸入),DiT利用自適應(yīng)歸一化模塊(adaLNZero)將這些額外的條件輸入插入到transformer塊中。在最后一個transformer塊之后,應(yīng)用標(biāo)準(zhǔn)線性解碼器來預(yù)測最終的噪聲和協(xié)方差。DiT模型的訓(xùn)練方式與基于U-Net的擴(kuò)散模型相同。

填補(bǔ)領(lǐng)域空白!TerDiT:首次探索大規(guī)模DiT模型量化問題-AI.x社區(qū)

DiT中的AdaLN模塊。DiT與傳統(tǒng)ViT的主要區(qū)別在于需要注入條件信息以進(jìn)行圖像生成。DiT在每個transformer塊中使用零初始化的自適應(yīng)層歸一化(adaLN-Zero)模塊,如上圖2(B)紅色部分所示,該模塊根據(jù)輸入條件c計(jì)算維度級的縮放和偏移值。

填補(bǔ)領(lǐng)域空白!TerDiT:首次探索大規(guī)模DiT模型量化問題-AI.x社區(qū)

AdaLN 是 DiT 模型中的一個重要組件,其效果已被證明優(yōu)于交叉注意力和上下文條件方法。在 DiT 架構(gòu)中,AdaLN 模塊集成了一個包含大量參數(shù)的 MLP 層,占模型總參數(shù)的約 10% 到 20%。在 TerDiT 的訓(xùn)練過程中,本文觀察到直接對該模塊進(jìn)行權(quán)重三值化會導(dǎo)致不理想的訓(xùn)練結(jié)果。

模型量化

如上文所示,理解DiT模型的擴(kuò)展規(guī)律越來越受到關(guān)注,這對于開發(fā)和優(yōu)化大語言模型(LLM)至關(guān)重要。在最近的探索中,Large-DiT成功地將模型參數(shù)從600M擴(kuò)展到7B,結(jié)合了LLaMA和DiT的方法。結(jié)果表明,參數(shù)擴(kuò)展可以潛在地提升模型性能,并加快標(biāo)簽條件的ImageNet生成任務(wù)的收斂速度。受此啟發(fā),本文提出進(jìn)一步研究DiT模型的三值化,這可以緩解部署大規(guī)模DiT模型相關(guān)的挑戰(zhàn)。在本小節(jié)中,本文介紹量化函數(shù)和量化感知訓(xùn)練方案。


填補(bǔ)領(lǐng)域空白!TerDiT:首次探索大規(guī)模DiT模型量化問題-AI.x社區(qū)

填補(bǔ)領(lǐng)域空白!TerDiT:首次探索大規(guī)模DiT模型量化問題-AI.x社區(qū)

填補(bǔ)領(lǐng)域空白!TerDiT:首次探索大規(guī)模DiT模型量化問題-AI.x社區(qū)

填補(bǔ)領(lǐng)域空白!TerDiT:首次探索大規(guī)模DiT模型量化問題-AI.x社區(qū)

TerDiT 是一種僅對權(quán)重進(jìn)行量化的方案,本文不對激活值進(jìn)行量化。

量化感知訓(xùn)練方案。 基于上述設(shè)計(jì)的量化函數(shù),本文從頭開始訓(xùn)練一個 DiT 模型,利用直接傳遞估計(jì)器(STE),允許梯度通過不可微分的網(wǎng)絡(luò)組件傳播。在整個訓(xùn)練過程中,本文保留網(wǎng)絡(luò)的全精度參數(shù)。對于每一步訓(xùn)練,通過前向傳播中的三值量化函數(shù)從全精度參數(shù)計(jì)算出三值權(quán)重,并在反向傳播中將三值權(quán)重的梯度直接應(yīng)用于全精度參數(shù)進(jìn)行參數(shù)更新。


然而,本文發(fā)現(xiàn)收斂速度非常慢。即使經(jīng)過多次訓(xùn)練迭代,損失值也無法降低到合理范圍。本文認(rèn)為這個問題可能源于三值線性層通常會導(dǎo)致較大的激活值,并提出在接下來的小節(jié)中通過針對 QAT(量化感知訓(xùn)練)特定的模型結(jié)構(gòu)改進(jìn)來解決這個問題。

QAT特定模型結(jié)構(gòu)改進(jìn)

填補(bǔ)領(lǐng)域空白!TerDiT:首次探索大規(guī)模DiT模型量化問題-AI.x社區(qū)


通過對三值線性層的輸出應(yīng)用層歸一化,可以緩解由三值線性權(quán)重帶來的大激活值問題。本文在三值線性層之后添加了一個RMS歸一化層(類似于LLaMA),并獲得了激活值分布(如下圖3左側(cè)所示)。在這種情況下,激活值在通過歸一化層后被縮放到一個合理范圍,從而導(dǎo)致更穩(wěn)定的訓(xùn)練行為。這一觀察結(jié)果也與[17]中的結(jié)論一致,其中在每個量化線性層的激活量化之前應(yīng)用了層歸一化函數(shù)。

填補(bǔ)領(lǐng)域空白!TerDiT:首次探索大規(guī)模DiT模型量化問題-AI.x社區(qū)

RMS歸一化的AdaLN模塊。 基于上述見解,本文分析了DiT模型以改進(jìn)QAT特定的模型結(jié)構(gòu)。在標(biāo)準(zhǔn)的ViT Transformer塊中,層歸一化應(yīng)用于每個自注意力層和前饋層。DiT塊中的自注意力層和前饋層也是如此,這有助于適當(dāng)?shù)乜s放激活值范圍。然而,由于上文中介紹的AdaLN模塊的存在,DiT塊與傳統(tǒng)的Transformer塊有所不同。值得注意的是,這個模塊沒有應(yīng)用層歸一化。在全精度訓(xùn)練的情況下,缺乏層歸一化并不會產(chǎn)生顯著影響。然而,對于三值DiT網(wǎng)絡(luò)來說,其缺失可能會導(dǎo)致adaLN(歸一化)模塊中的維度尺度和偏移值過大,從而對模型訓(xùn)練產(chǎn)生不良影響。為了解決這個問題,本文在每個三值DiT塊的AdaLN模塊的MLP層之后引入了RMS歸一化:

填補(bǔ)領(lǐng)域空白!TerDiT:首次探索大規(guī)模DiT模型量化問題-AI.x社區(qū)

最終的TerDiT模型結(jié)構(gòu)如上圖2(A)所示。這個小的修改可以帶來更快的收斂速度和更低的訓(xùn)練損失,從而在定量和定性評估中取得更好的結(jié)果。為了更好地展示這一效果,在原文附錄中分析了模型訓(xùn)練后引入或不引入RMS Norm的實(shí)際激活分布。

部署方案

在訓(xùn)練了DiT模型之后,本文發(fā)現(xiàn)目前沒有有效的開源三值網(wǎng)絡(luò)部署解決方案。在這種情況下,本文使用2位實(shí)現(xiàn)來部署訓(xùn)練好的網(wǎng)絡(luò)。具體來說,本文使用文獻(xiàn)[44]提供的??pack_2bit_u8()???函數(shù),將三值線性權(quán)重打包成??int8???值(4個三值數(shù)打包成一個??int8???數(shù))。在DiT模型的推斷過程中,本文即時調(diào)用相應(yīng)的??unpack_2bit_u8()??函數(shù),將打包的2位數(shù)字恢復(fù)為浮點(diǎn)數(shù)值,然后進(jìn)行后續(xù)計(jì)算。添加解包操作會減慢推斷過程,但本文相信,隨著對模型三值化研究的深入,將會有更多硬件支持來加速推斷過程。

實(shí)驗(yàn)

在本節(jié)中,本文進(jìn)行了一系列實(shí)驗(yàn)來評估本文提出的TerDiT。本文展示了主要的評估結(jié)果,進(jìn)行了部署效率比較,并說明了RMS Normalized adaLN模塊的有效性。本文的DiT實(shí)現(xiàn)基于開源代碼Large-DiT-ImageNet4。本文分別對具有600M(DiT-XL/2的大?。┖?.2B(Large-DiT-4.2B的大?。﹨?shù)的三值DiT模型進(jìn)行了實(shí)驗(yàn)。

主要評價結(jié)果

本文在本小節(jié)中提供了TerDiT模型的定量和定性評估結(jié)果。據(jù)本文所知,目前尚無關(guān)于擴(kuò)散transformer模型量化的已發(fā)表工作,因此本文主要在本小節(jié)中將其與具有代表性的全精度擴(kuò)散模型進(jìn)行比較。


關(guān)于TerDiT基線的備注。 據(jù)本文所知,目前仍沒有研究DiT模型量化的工作。除了在本小節(jié)中與全精度模型進(jìn)行比較外,本文還在其他小節(jié)中建立了一些基線進(jìn)行比較。對于QAT基線,本文直接訓(xùn)練了在Sec. 4.3中的adaLN模塊中沒有RMS Norm的三值DiT模型。為了與現(xiàn)有的PTQ方法進(jìn)行比較,本文對預(yù)訓(xùn)練模型進(jìn)行了4位權(quán)重量化,使用與TerDiT相同的一組參數(shù),結(jié)果發(fā)現(xiàn)它們無法生成可視的圖像。


實(shí)驗(yàn)設(shè)置。 按照原始DiT論文的評估設(shè)置,本文在ImageNet數(shù)據(jù)集上訓(xùn)練了600M和4.2B的三值DiT模型。由于計(jì)算資源的限制,本文在256×256分辨率下訓(xùn)練和評估模型,但本文認(rèn)為評估結(jié)果已經(jīng)具有很強(qiáng)的代表性。本文將TerDiT與一系列全精度擴(kuò)散模型進(jìn)行比較,并報(bào)告FID、sFID、Inception Score、Precision和Recall(50k生成圖像),參考[48]。本文還提供了訓(xùn)練階段的總圖像數(shù)量(百萬),如[23]所示,以進(jìn)一步了解不同生成模型的收斂速度。


填補(bǔ)領(lǐng)域空白!TerDiT:首次探索大規(guī)模DiT模型量化問題-AI.x社區(qū)


定量結(jié)果分析。 評估結(jié)果列在下表1中。TerDiT是針對DiT模型的QAT方案,因此在所有全精度模型中,本文特別關(guān)注DiT-XL/2(675M)和Large-DiT-4.2B。在沒有分類器自由指導(dǎo)的情況下,TerDiT-4.2B在測試結(jié)果上與DiT-XL/2非常相似(使用的訓(xùn)練圖像數(shù)量要少得多)。在有分類器自由指導(dǎo)(cfg=1.5)的情況下,TerDiT-4.2B-G的表現(xiàn)優(yōu)于LDM-G,同時與兩個全精度DiT結(jié)構(gòu)模型相比僅帶來了非常輕微的性能下降。此外,TerDiT-4.2B-G的評估結(jié)果優(yōu)于TerDiT-600M-G,這表明參數(shù)更多的模型在量化后會帶來更小的性能下降。

填補(bǔ)領(lǐng)域空白!TerDiT:首次探索大規(guī)模DiT模型量化問題-AI.x社區(qū)

為了直觀地展示TerDiT的有效性,本文在下圖4中展示了一些定性比較結(jié)果,涉及TerDiT-4.2B、DiT-XL/2和Large-DiT4.2B。從視覺感知的角度來看,TerDiT生成的圖像與全精度模型生成的圖像之間沒有顯著差異。

填補(bǔ)領(lǐng)域空白!TerDiT:首次探索大規(guī)模DiT模型量化問題-AI.x社區(qū)

部署效率對比

部署效率的提升是本文提出TerDiT方案的動機(jī)。在本小節(jié)中,本文對TerDiT-600M/4.2B、DiT-XL/2和Large-DiT-4.2B進(jìn)行了比較,以討論TerDiT在實(shí)際部署中所能帶來的效率提升。下表2展示了四種DiT模型的checkpoint 大小。本文還記錄了在單個A100-80G GPU上,總擴(kuò)散采樣循環(huán)(步數(shù)=250)的內(nèi)存使用情況和推理時間。

填補(bǔ)領(lǐng)域空白!TerDiT:首次探索大規(guī)模DiT模型量化問題-AI.x社區(qū)

從表格中可以看出,TerDiT大大減少了checkpoint 大小和內(nèi)存使用。4.2B三值化DiT模型的checkpoint 大小和內(nèi)存使用顯著小于Large-DiT-4.2B,甚至比DiT-XL/2還要小。這為在終端設(shè)備(如手機(jī))上部署模型帶來了顯著優(yōu)勢。盡管由于需要解包操作,本文觀察到推理速度較慢,但本文相信,隨著未來硬件支持的提升,三值化權(quán)重網(wǎng)絡(luò)的計(jì)算優(yōu)勢將會得到充分展示。

RMS歸一化AdaLN模塊的討論

TerDiT對DiT模型結(jié)構(gòu)的主要修改是在adaLN模塊中的MLP之后增加了RMS Norm。在這一部分,本文與基線三值化模型進(jìn)行比較,以展示RMS Norm對訓(xùn)練過程和訓(xùn)練結(jié)果的影響。


實(shí)驗(yàn)設(shè)置。 本文在ImageNet數(shù)據(jù)集上以256×256分辨率訓(xùn)練具有600M和4.2B參數(shù)的三值化DiT模型。對于每種參數(shù)規(guī)模,本文訓(xùn)練了兩個模型,一個在adaLN模塊中使用了RMS Norm,另一個則沒有(本文的基線模型)。本文記錄了訓(xùn)練過程中的損失曲線,并每100k訓(xùn)練步測量一次FID-50k分?jǐn)?shù)(cfg=1.5)。


填補(bǔ)領(lǐng)域空白!TerDiT:首次探索大規(guī)模DiT模型量化問題-AI.x社區(qū)


結(jié)果分析: 訓(xùn)練損失和評估得分分別顯示在下圖5和下圖6中。如圖所示,使用RMS Normalized adaLN模塊進(jìn)行訓(xùn)練將導(dǎo)致更快的收斂速度和更低的FID分?jǐn)?shù)。另一個觀察結(jié)果是,參數(shù)更多的模型相比參數(shù)較少的模型能實(shí)現(xiàn)更快且更好的訓(xùn)練效果。這在一定程度上也反映了三值化DiT模型的擴(kuò)展規(guī)律。

填補(bǔ)領(lǐng)域空白!TerDiT:首次探索大規(guī)模DiT模型量化問題-AI.x社區(qū)

討論和未來展望

本文在成功的大語言模型低比特訓(xùn)練方法的基礎(chǔ)上,提出了針對大規(guī)模三值化DiT模型的量化感知訓(xùn)練(QAT)和高效部署方法。在ImageNet數(shù)據(jù)集(256×256)上的競爭性評估結(jié)果證明了從頭開始訓(xùn)練大型三值化DiT模型的可行性,同時實(shí)現(xiàn)了與全精度模型相當(dāng)?shù)慕Y(jié)果。據(jù)本文所知,這是首個關(guān)于DiT模型量化的研究。


雖然本文認(rèn)為這項(xiàng)工作為DiT模型的低比特量化提供了有價值的見解,但它仍然存在一些局限性。首先,訓(xùn)練三值化DiT比全精度網(wǎng)絡(luò)更不穩(wěn)定且耗時。在本文中,盡管本文討論了通過添加歸一化方法來使訓(xùn)練更穩(wěn)定,但相較于訓(xùn)練全精度網(wǎng)絡(luò)(如Large-DiT-4.2B),它仍然更耗時,這將在更廣泛的背景下導(dǎo)致模型訓(xùn)練期間二氧化碳排放量的增加。


其次,由于計(jì)算資源的限制,本文沒有進(jìn)行ImageNet 512×512實(shí)驗(yàn),也沒有進(jìn)行文本到圖像生成任務(wù)的實(shí)驗(yàn)。然而,本文相信ImageNet 256×256基準(zhǔn)上的評估結(jié)果已經(jīng)相當(dāng)具有代表性。剩余的任務(wù)將留待本文未來的工作中進(jìn)行。本文希望本文的工作可以減少圖像生成模型的部署需求,并能激勵社區(qū)在未來加入本文,共同促進(jìn)這一研究領(lǐng)域的更廣泛發(fā)展。

本文轉(zhuǎn)自AI生成未來 ,作者:Xudong Lu等


原文鏈接:??https://mp.weixin.qq.com/s/V5l4-5iJTwIewLRKIqqaoQ??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
精品福利一区二区三区| 亚洲中国最大av网站| 国产欧美一区二区三区在线看| 四虎地址8848| 国产精品久久久久久久久久白浆| 亚洲va国产va欧美va观看| 欧美午夜精品久久久久久蜜| 一级久久久久久久| 国产欧美一级| 最近2019中文字幕大全第二页| 免费看的av网站| 欧美私密网站| 亚洲视频在线观看一区| 精品免费日产一区一区三区免费| 中文字幕永久在线观看| 伊人成年综合电影网| 国产亚洲欧洲高清一区| 久草免费资源站| 素人一区二区三区| 精品久久久久久中文字幕大豆网| 亚洲人一区二区| 人妻91麻豆一区二区三区| 美女看a上一区| 国内精品一区二区三区四区| 亚洲熟女毛茸茸| 国产精品密蕾丝视频下载| 欧美一级艳片视频免费观看| 欧美三级午夜理伦三级| 日本在线视频www鲁啊鲁| 国产女人aaa级久久久级| 国产精品久久国产精品| 国产一区二区三区在线观看 | 亚洲国产精品一区二区第一页| 成人激情四射网| 久久成人免费日本黄色| 国产成人福利网站| 中文字幕亚洲精品一区| 欧美三级第一页| 久久天天躁夜夜躁狠狠躁2022| japanese中文字幕| 亚洲欧洲色图| 日韩精品久久久久久福利| 亚洲成人精品在线播放| 国产精品日本一区二区不卡视频| 91国偷自产一区二区三区成为亚洲经典 | 精品一区二区三区的国产在线观看| 精品久久久久久久久久久院品网| 天天操狠狠操夜夜操| 91精品影视| 色婷婷国产精品久久包臀| a级黄色一级片| 黑人极品ⅴideos精品欧美棵| 亚洲精品欧美专区| 欧美少妇在线观看| 羞羞视频在线观看免费| 亚洲精品乱码久久久久久久久| 亚洲欧美日韩不卡| 在线观看小视频| 亚洲精品国产无套在线观| 亚洲小说欧美另类激情| a篇片在线观看网站| 亚洲欧美国产77777| 亚洲成人动漫在线| 三级资源在线| 亚洲成人精品在线观看| www.av中文字幕| 一个人www视频在线免费观看| 欧美日韩国产精品专区| 免费看的黄色大片| 国产精品亚洲一区二区三区在线观看| 欧美亚洲国产bt| 日本不卡一区在线| 亚洲精品影片| 日韩毛片在线观看| 女人黄色一级片| 亚洲国产老妈| 久久久久久久久久久亚洲| 国产成人亚洲精品自产在线 | 少妇高潮一区二区三区99小说| 成人动漫精品一区二区| 日本在线播放一区| 巨大荫蒂视频欧美另类大| 一级女性全黄久久生活片免费| 国产成a人亚洲精v品在线观看| 捆绑调教日本一区二区三区| 色婷婷精品大视频在线蜜桃视频| 午夜免费福利视频在线观看| 91精品尤物| 一区二区三区四区精品| 国产a免费视频| 国产亚洲福利| 国产在线日韩在线| 色呦呦中文字幕| 国产精品嫩草99a| 国产手机免费视频| 国产经典一区| 亚洲电影在线看| 欧美波霸videosex极品| 尹人成人综合网| 国产精品视频地址| 亚洲成熟女性毛茸茸| 国产午夜精品福利| 免费看毛片的网址| 成人精品国产亚洲| 亚洲高清不卡av| 五月天婷婷丁香网| 一区二区三区国产在线| 成人免费网站在线| 久久电影中文字幕| 亚洲一线二线三线视频| 少妇网站在线观看| 日本在线中文字幕一区| 日韩在线观看免费高清| 一级黄色大片视频| 成人av午夜影院| 亚洲最新免费视频| 婷婷午夜社区一区| 日韩成人在线视频观看| 国产精品九九九九九九| 免费日本视频一区| 欧洲精品在线一区| 碰碰在线视频| 亚洲精品一区二区三区四区高清| 日本爱爱小视频| 日韩精品免费视频人成| 精品欧美一区二区久久久伦| 黄色在线观看视频网站| 7777精品伊人久久久大香线蕉经典版下载| 在线观看av中文字幕| 欧美日韩精品免费观看视频完整| 国产精品视频网站| 国产一二三区在线| 色综合久久99| 麻豆av免费观看| 在线午夜精品| 国产伦精品一区二区三区免| 91精品国产91久久久久久青草| 欧美日韩一区不卡| 国产精品20p| 美女日韩在线中文字幕| 精品久久久久久一区| heyzo在线| 亚洲国产精品va在线看黑人动漫| 欧美成人国产精品高潮| 黑人精品欧美一区二区蜜桃| 一区二区三区不卡在线| 亚洲电影有码| 色诱女教师一区二区三区| 亚洲av无码不卡| 国产午夜精品在线观看| 一本色道无码道dvd在线观看| 亚洲第一论坛sis| 国产999视频| 国产毛片av在线| 欧美图区在线视频| 欧美美女性生活视频| 精久久久久久久久久久| 中文字幕中文字幕在线中心一区| 成人自拍视频| 欧美国产日韩视频| 男人天堂网在线视频| 亚洲va韩国va欧美va精品| 中文字幕av观看| 久久精品一区二区国产| 视频在线99re| 成人黄色91| 欧美劲爆第一页| 天天影院图片亚洲| 日本韩国欧美一区二区三区| 91精品国自产在线| 国产一区二区看久久| www.夜夜爱| 亚洲人成网亚洲欧洲无码| 国产精品91免费在线| 麻豆视频网站在线观看| 欧美电影免费观看完整版| 日本三级2019| 国产无人区一区二区三区| 亚洲精品综合在线观看| 影音先锋亚洲电影| 日本在线观看一区| 久久伊人精品| 欧美一级免费视频| 麻豆电影在线播放| 精品国产区一区| 亚洲第一区av| 亚洲一区在线看| 欧美日韩高清丝袜| 国产成人免费xxxxxxxx| 女人扒开屁股爽桶30分钟| 日韩伦理视频| 国产日产精品一区二区三区四区 | 欧美午夜视频| 欧美日韩在线高清| 亚洲综合色婷婷在线观看| 欧洲日韩成人av| 欧美女同一区| 色妞在线综合亚洲欧美| 蜜臀av中文字幕| 欧美久久久久久久久| 日韩熟女精品一区二区三区| 国产精品久久久久久久裸模| 国产二级一片内射视频播放 | 欧美成人一品| 欧美日韩在线观看一区二区三区| 精品视频在线播放一区二区三区 | 亚洲黄页网站| 3d精品h动漫啪啪一区二区| 日本成人三级电影| 欧美激情性做爰免费视频| 91在线观看| 亚洲久久久久久久久久久| 国内精品久久久久久久久久久| 91久久香蕉国产日韩欧美9色| 国产 日韩 欧美 成人| 中文字幕中文字幕在线一区| 欧美 变态 另类 人妖| 国产成人亚洲精品青草天美| 亚洲欧美国产中文| 日韩电影一区二区三区四区| 无码播放一区二区三区| 欧美日韩亚洲一区| 国产精品丝袜白浆摸在线| 手机av免费在线| 最近2019好看的中文字幕免费| 色婷婷在线视频| 日韩三级视频在线看| 亚洲午夜精品久久久| 色婷婷综合久久久久中文一区二区| 久久久久久福利| 亚洲色大成网站www久久九九| 小早川怜子久久精品中文字幕| 成人动漫一区二区在线| 日本女人性视频| 激情综合色播激情啊| 在线能看的av网站| 日本va欧美va欧美va精品| 美女福利视频在线| 亚洲自拍另类| 欧美色图色综合| 国产精品免费看| 波多野结衣家庭教师在线| 99精品视频免费观看视频| 国产婷婷一区二区三区| 精品二区视频| 成人午夜精品久久久久久久蜜臀| 在线电影一区二区| 色婷婷777777仙踪林| 亚洲成人一区| 国产亚洲精品久久久久久久| 一本到12不卡视频在线dvd| 一级黄色片播放| 国内自拍一区| 国产极品粉嫩福利姬萌白酱| 国产精品一二| 五月婷婷狠狠操| 麻豆国产91在线播放| 中文av字幕在线观看| 国产一区二区三区不卡在线观看| 亚洲一区二区中文字幕在线观看| 国产乱国产乱300精品| 精品人妻在线视频| 99久久久精品免费观看国产蜜| 黄色网址在线视频| 久久久国产午夜精品| 中文天堂资源在线| 亚洲欧美综合网| 国产高清在线免费观看| 亚洲国产日韩精品| 久久久久久久久久影院| 欧美亚洲免费在线一区| 国产精品无码AV| 精品国产1区2区3区| 狠狠v欧美ⅴ日韩v亚洲v大胸| 一区二区欧美亚洲| 在线视频中文字幕第一页| 5278欧美一区二区三区| 九九热这里有精品| 99电影网电视剧在线观看| 欧美丝袜美腿| 亚洲欧洲精品一区二区| 欧美三级黄美女| 久久久久久久久久久久久国产精品| 日本va欧美va欧美va精品| 性高潮久久久久久| 97久久久精品综合88久久| 少妇精品无码一区二区免费视频| 最新国产成人在线观看| 国产又大又黑又粗免费视频| 欧美三级日韩三级| 亚洲精品久久久狠狠狠爱| 亚洲人成五月天| 在线观看h网| 日本高清久久天堂| 欧美特黄不卡| 茄子视频成人在线观看| 欧美日韩亚洲一区三区| 美女一区二区三区视频| 成人一区二区三区视频在线观看 | 91在线porny国产在线看| 日韩影视一区二区三区| 亚洲国产精品一区二区尤物区| 在线观看国产精品入口男同| 亚洲国产精久久久久久| 日本www在线观看| 日本高清久久天堂| 国产成人在线中文字幕| 在线一区高清| 麻豆九一精品爱看视频在线观看免费| 九九热视频免费| 国产女人aaa级久久久级| 日韩精品成人在线| 欧美大肚乱孕交hd孕妇| 日本中文字幕视频在线| 欧美在线精品免播放器视频| 日韩欧美中文在线观看| 在线不卡日本| 日本91福利区| 午夜时刻免费入口| 欧美日韩国产专区| 亚洲成人精品女人久久久| 久久久国产精品免费| 国产欧美在线观看免费| 欧美一区二区三区精美影视 | 亚洲精品mv在线观看| 久久久精品tv| 香蕉影院在线观看| 亚洲国产免费av| 678在线观看视频| 成人免费看片网站| 欧美一区高清| 一级日本黄色片| 亚洲三级在线免费| 国产伦一区二区| 久久天堂av综合合色| 91精品国产一区二区在线观看| 色一情一乱一伦一区二区三欧美| 销魂美女一区二区三区视频在线| 男人的天堂影院| 性做久久久久久免费观看欧美| 亚洲精品久久久久avwww潮水| 成年人精品视频| 日韩一级淫片| 国产专区在线视频| 国产.欧美.日韩| 精品小视频在线观看| 欧美本精品男人aⅴ天堂| 日韩精品卡一| 精品久久精品久久| 美女网站久久| 国产三级短视频| 欧美日韩大陆一区二区| 国产欧美黑人| 99se婷婷在线视频观看| 狠久久av成人天堂| 亚洲一区二区三区无码久久| 欧美性高潮在线| 幼a在线观看| 亚洲最大成人在线| 精品1区2区3区4区| 三级黄色片网站| 欧美又粗又大又爽| 国产传媒在线播放| 国产精品国产三级国产专区53| 激情综合中文娱乐网| 中文人妻一区二区三区| 欧美日韩综合在线| 色婷婷视频在线观看| 精品乱子伦一区二区三区| 久久久久久穴| 国产在线观看免费视频软件| 欧美一级久久久久久久大片| 超碰在线中文字幕| 日韩av不卡播放| 极品少妇一区二区三区精品视频 | 亚洲午夜精品久久久久久app| 7788色淫网站小说| 91福利视频在线| 亚洲图区一区| 国产麻豆一区二区三区在线观看| 亚洲欧美日韩国产一区二区| jizz日本在线播放| 精品三级av在线| gogo亚洲高清大胆美女人体| 中文字幕欧美人与畜| 成人性生交大片免费看中文 | 久久91精品国产91久久小草| 免费在线黄色片| 亚洲欧美在线x视频| 成人在线精品| 99久久久无码国产精品6| 亚洲激情五月婷婷| 国产一二三区在线| 国产伦精品一区二区三区视频孕妇 | 中国一级片黄色一级片黄| 欧美激情a在线| 成人激情视频| 免费看毛片的网站| 欧美一区二区福利视频| 日本欧美一区|