精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

既是自編碼器,也是RNN,DeepMind科學家八個視角剖析擴散模型

人工智能 新聞
擴散模型很火,對其描述也大有不同。本文中,一位 DeepMind 研究科學家全面剖析了「擴散模型是什么」這一課題。

如果你嘗試過目前最火的 AI 繪畫工具之一 Stable Diffusion,那你就已經(jīng)體驗過擴散模型(diffusion model)那強大的生成能力。但如果你想更進一步,了解其工作方式,你會發(fā)現(xiàn)擴散模型的形式其實有很多種。

如果你隨機選擇兩篇關于擴散模型的研究論文,看看各自引言中對模型類別的描述,你可能會看到它們的描述大不相同。這可能既讓人沮喪,又具有啟發(fā)性:讓人沮喪是因為人們更難發(fā)現(xiàn)論文和實現(xiàn)之間的關系,而具有啟發(fā)性的原因則是每一種觀點都能揭示出新的聯(lián)系,催生出新的思想。

近日,DeepMind 研究科學家 Sander Dieleman 發(fā)布了一篇博客長文,概括性地總結(jié)了他對擴散模型的看法。

這篇文章是他去年所寫的《擴散模型是自動編碼器》一文的進一步延伸。這個題目有些開玩笑的意味,但也強調(diào)了擴散模型和自動編碼器之間存在緊密聯(lián)系。他認為人們直到如今依然低估了這種聯(lián)系。

感興趣的讀者可訪閱:https://sander.ai/2022/01/31/diffusion.html

而在這篇新文章中,Dieleman 從多個不同視角剖析了擴散模型,包括將擴散模型看作是自動編碼器、深度隱變量模型、預測分數(shù)函數(shù)的模型、求解逆向隨機微分方程的模型、流模型、循環(huán)神經(jīng)網(wǎng)絡、自回歸模型以及估計期望的模型。他還談了自己對擴散模型研究方向的當前研究現(xiàn)狀的看法。

擴散模型是自動編碼器

去噪自動編碼器是一種神經(jīng)網(wǎng)絡,其輸入被噪聲損傷,而它們的任務目標則是預測出干凈的輸入,即消除損傷。要很好地完成這一任務,需要學習干凈數(shù)據(jù)的分布。它們是非常常用的表征學習方法,而在深度學習發(fā)展早期,它們也被用于深度神經(jīng)網(wǎng)絡的分層預訓練。

事實證明擴散模型中使用的神經(jīng)網(wǎng)絡通常求解的是一個非常類似的問題:給定一個被噪聲污染的輸入示例,它要預測出與其數(shù)據(jù)分布相關的一些量。這可以是對應的干凈輸入(如同去噪自動編碼器)、所添加的噪聲或某種介于兩者之間的東西(稍后會詳細介紹)。當損傷過程是線性的時,所有這些都是等價的,即噪聲是添加上去的,只需從有噪聲輸入中減去預測結(jié)果,我們就可以將預測噪聲的模型變成預測干凈輸入的模型。用神經(jīng)網(wǎng)絡術(shù)語來說,就是從輸入到輸出添加一個殘差連接。

圖片

去噪自動編碼器(左)和擴散模型(右)的示意圖

它們有幾項關鍵性差異:

  • 在學習輸入的有用表征時,去噪自動編碼器中部的某個位置往往存在某種信息瓶頸,這會限制其學習表征的能力。去噪任務本身只是達到目的的一種手段,而不是我們在訓練模型后真正使用模型的目的。用于擴散模型的神經(jīng)網(wǎng)絡通常沒有這樣的瓶頸,因為我們更在乎它們的預測結(jié)果,而不是用于得到這些結(jié)果的內(nèi)部表征方式。
  • 去噪自動編碼器可以使用多種不同類型的噪聲來訓練。比如說,我們可以將部分輸入遮蔽掉(掩蔽噪聲),我們也可以添加來自某個任意分布(通常是高斯分布)的噪聲。對于擴散模型,我們通常堅持添加高斯噪聲,因為它具有有用的數(shù)學特性,可以簡化許多操作。
  • 另一個重要差異是去噪自動編碼器的訓練目標只是處理特定強度的噪聲。而使用擴散模型時,我們想要根據(jù)帶有很多或少量噪聲的輸入預測一些東西。噪聲水平也是神經(jīng)網(wǎng)絡的一個輸入。

事實上,作者之前詳細討論過這兩者之間的關系,想更加透徹理解這一關系的讀者可訪問:https://sander.ai/2022/01/31/diffusion.html

擴散模型是深度隱變量模型

Sohl-Dickstein et al. 在一篇 ICML 2015 論文中最早建議使用擴散過程來逐漸損傷數(shù)據(jù)的結(jié)構(gòu),然后再通過學習逆向該過程來構(gòu)建生成模型。五年之后,Ho et al. 基于此開發(fā)出了去噪擴散概率模型(DDPM),其與基于評分的模型一起構(gòu)成了擴散模型的藍圖。

圖片

DDPM 示意圖

DDPM 如上圖所示,x_T(隱含)表示高斯噪聲,x_0(觀察到的)表示數(shù)據(jù)分布。這些隨機變量由有限數(shù)量的中間隱變量 x_t (通常 T=1000)連接在一起,這會形成一個馬爾可夫鏈,即 x_{t-1} 僅取決于 x_t,而并不直接依賴于該鏈中之前的任意隨機變量。

這個馬爾可夫鏈的參數(shù)的擬合方式是使用變分推理來逆向擴散過程,這個擴散過程本身也是一個馬爾可夫鏈(方向相反,圖中表示為 q (x_t∣x_{t?1})),但這條鏈是逐漸向數(shù)據(jù)添加高斯噪聲。

具體來說,就像是在變分自動編碼器(VAE)中一樣,我們可以寫下一個證據(jù)下界(ELBO),即對數(shù)似然的一個界限,而對數(shù)似然是可以輕松地最大化的。事實上,這一節(jié)的小標題也可以是「擴散模型是深度 VAE」,但由于之前已經(jīng)從另一個視角寫了「擴散模型是自動編碼器」,因此為了避免混淆就選用了當前小標題。

我們知道 q (x_t∣x_{t?1}) 是高斯分布,但我們想使用模型擬合的 p (x_{t?1}∣x_t) 卻不需要是。但事實證明,只要每個單獨的步驟足夠小(即 T 足夠大),我們可以通過參數(shù)設置讓 p (x_{t?1}∣x_t) 看起來像是高斯分布,而且其近似誤差將足夠小,該模型依然能生成優(yōu)質(zhì)樣本。仔細想想,這有點令人驚訝,因為在采樣過程中,任何錯誤都可能隨著 T 而累積。

擴散模型預測的是分數(shù)函數(shù)

大多數(shù)基于似然的生成模型都是對輸入 x 的對數(shù)似然 log p (x∣θ) 進行參數(shù)化,然后擬合模型參數(shù) θ 來最大化它,要么是近似地擬合(如 VAE),要么是精確擬合(如流模型或自回歸模型)。由于對數(shù)似然表示概率分布,而概率分布必須歸一化,所以通常需要一些約束來確保參數(shù) θ 的所有可能值都產(chǎn)生有效的分布。比如自回歸模型通過因果掩碼(causal masking)來確保這一點,而大多數(shù)流模型需要可逆的神經(jīng)網(wǎng)絡架構(gòu)。

研究表明,還有另一種擬合分布的方法可以巧妙地避開對歸一化的要求,即分數(shù)匹配(score matching)。這基于這一觀察:所謂的分數(shù)函數(shù)(score matching)圖片不會隨 p (x∣θ) 的縮放而變化。這很容易看出來:

圖片

施加于概率密度的任何比例因子都會消失。因此,如果我們有一個直接對分數(shù)估計圖片進行參數(shù)化的模型,那就可以通過最小化分數(shù)匹配損失來擬合分布(而不是直接最大化似然):

圖片

但是,使用這種形式時,損失函數(shù)可能不實用,因為我們沒有為任意數(shù)據(jù)點 x 計算基本真值分數(shù)圖片的好方法。有一些技巧可用來回避這一要求,并將其轉(zhuǎn)換為易于計算的損失函數(shù),包括隱式分數(shù)匹配(ISM)、切片分數(shù)匹配(SSM)和去噪分數(shù)匹配(DSM)。這里我們詳細看看最后一種方法:

圖片

其中,可通過向 x 添加高斯噪聲得到圖片。這意味著圖片的分布基于一個高斯分布 N (x,σ^2),其基本真值條件分數(shù)函數(shù)可以閉式形式計算得到:

圖片

這種形式有非常直觀的解釋:這是向 x 添加噪聲以得到圖片的一種擴展版本。因此,通過按照分數(shù)(= 對數(shù)似然的梯度上升)來使圖片的可能性更高這一做法直接對應于消除(部分)噪聲:

圖片

如果我們選擇步長 η=σ^2,則就能在一步之內(nèi)恢復干凈數(shù)據(jù) x。

L_SM 和 L_DSM 是不同的損失函數(shù),但巧妙之處在于它們具有相同的期望最小值:

圖片,其中 C 是一個常數(shù)。Pascal Vincent 早在 2010 年就推導出了這種等價性,如果你想加深理解,強烈建議你閱讀他的技術(shù)報告:http://www.iro.umontreal.ca/~vincentp/Publications/smdae_techreport.pdf

這一方法引出了一個重要問題:我們應該添加多少噪聲,即 σ 應為多少?為這一超參數(shù)選取一個固定值在實踐中效果并不好。在低噪聲水平下,在低密度區(qū)域中準確估計分數(shù)是非常困難的。在高噪聲水平下,這算不上是一個問題,因為添加的噪聲會分散在所有方向的密度上 —— 然后我們正在建模的分布會因噪聲而顯著扭曲。一種很好的方法是在許多不同噪聲水平下建模密度。一旦我們有了這樣一個模型,我們就可以在采樣過程中對 σ 進行退火 —— 從大量噪聲開始,然后逐漸降低。Song & Ermon 在他們 2019 年的論文中詳細描述了這些問題并提出了這種優(yōu)雅的解決方案。

這種方法是將多種不同噪聲水平下的去噪分數(shù)匹配與采樣期間噪聲逐漸退火組合起來,得到的模型實質(zhì)上等效于 DDPM,但推導過程卻完全不同 —— 完全看不見 ELBO!

有關這一方法的更詳細論述請參閱論文作者之一宋飏的博客:https://yang-song.net/blog/2021/score/

擴散模型求解的是逆向隨機微分方程

前面兩個看待擴散模型的視角(深度隱變量模型和分數(shù)匹配)考慮的是離散的和有限的步驟。這些步驟對應于不同的高斯噪聲水平,我們可以寫出一個單調(diào)映射 σ(t),其步驟索引 t 映射到該步驟的噪聲的標準差。

如果我們讓步數(shù)趨于無窮大,則可以將這些離散的索引變量替換為區(qū)間 [0,T] 上的連續(xù)值 t,這可被解釋為一個時間變量,即 σ(t) 現(xiàn)在描述的是噪聲的標準差隨時間的演變。在連續(xù)時間中,我們可以用以下隨機微分方程(SDE)來描述逐漸向數(shù)據(jù)點 x 添加噪聲的擴散過程:

圖片

該方程將 x 的無窮小變化與 t 的無窮小變化聯(lián)系了起來,dw 表示無窮小高斯噪聲,也被稱為維納過程(Wiener process)。f 和 g 分別稱為漂移系數(shù)和擴散系數(shù)。f 和 g 的特定選擇可得到用于構(gòu)建 DDPM 的連續(xù)時間版本馬爾可夫鏈。

SDE 將微分方程和隨機變量組合到了一起,乍一看似乎有點生畏。幸運的是,我們不需要太多現(xiàn)有的先進 SDE 機制來理解這種視角可以如何用于擴散模型。然而,有一個非常重要的結(jié)果可供我們使用。給定一個像上面那樣描述擴散過程的 SDE,我們可以寫出另一個描述另一方向的過程的 SDE,即反轉(zhuǎn)時間:

圖片

該方程還描述了一個擴散過程。

圖片是逆向維納過程,圖片是時間依賴型分數(shù)函數(shù)。這種時間依賴性源自這一事實:噪聲水平會隨時間變化。

解釋這種情況的原因超出了本文的范圍,感興趣的讀者可閱讀宋飏等人為擴散模型引入基于 SDE 的形式化的原始論文《Score-Based Generative Modeling through Stochastic Differential Equations》。

具體來說,如果我們有一種方法,可以估計時間依賴型分數(shù)函數(shù),那么我們可以模擬逆向擴散過程,從而從噪聲開始的數(shù)據(jù)分布中抽取樣本。我們可以再次訓練一個神經(jīng)網(wǎng)絡來預測這個量,并將其插入到逆向 SDE 中以獲得連續(xù)時間擴散模型。

在實踐中,模擬這個 SDE 需要再次對時間變量 t 執(zhí)行離散化,因此你可能想知道為什么要這么做。其巧妙之處就在于現(xiàn)在我們可以在采樣時間決定該離散化,而且在我們訓練好分數(shù)預測模型之前不必固定下來。換句話說,通過選擇采樣步驟數(shù),我們無需修改模型,就能非常自然地權(quán)衡考慮采樣質(zhì)量和計算成本。

擴散模型是流模型

還記得流模型嗎?流模型并非現(xiàn)如今常用的生成模型,主要原因可能是它們需要更多參數(shù)才能在性能上趕上其它模型。這是由于它們的表達能力有限:流模型中使用的神經(jīng)網(wǎng)絡需要是可逆的,并且其雅可比行列式的對數(shù)行列式必須易于計算,這就嚴重限制了可能的計算類型。

至少,離散的歸一化流就是這種情況。連續(xù)的歸一化流(CNF)也存在,并且通常的形式為用神經(jīng)網(wǎng)絡參數(shù)化的常微分方程(ODE),其描述的是數(shù)據(jù)分布中的樣本與一個簡單基礎分布的對應樣本之間的一個確定性路徑。CNF 不受前面提到的神經(jīng)網(wǎng)絡架構(gòu)約束的影響,但其原始形式需要用反向傳播通過一個 ODE 求解器來訓練。盡管可以使用一些技巧來更加高效地完成這件事,但這也可能會阻礙更多人使用它。

我們回顧一下擴散模型的 SDE 形式化,其描述的隨機過程是將簡單基礎分布的樣本映射到數(shù)據(jù)分布的樣本。有趣的問題出現(xiàn)了:中間樣本的分布 p_t (x) 是怎樣的,又會怎樣隨時間變化?這由福克 - 普朗克方程(Fokker-Planck equation)控制。如果你想了解實踐中的情況,請查看論文 Song et al. (2021) 的附錄 D.1。

瘋狂的來了:有一個 ODE 所描述的確定性過程的時間依賴型分布與該 SDE 所描述的隨機過程的完全一樣!這被稱為概率流 ODE。不僅如此,它有一個簡單的閉式形式:

圖片

該方程描述了前向和后向過程(只需翻轉(zhuǎn)符號即可變換方向),注意時間依賴型分數(shù)函數(shù)圖片依然在其中。要證明這一點,你可以寫下該 SDE 和概率流 ODE 的福克 - 普朗克方程,然后做一些代數(shù)運算,你會發(fā)現(xiàn)它們其實是一樣的,因此必定具有形同的解 p_t (x)。

請注意,該 ODE 描述的過程與該 SDE 并不一樣,這也不可能,因為確定性的微分方程無法描述一個隨機過程。它描述的是一個不同的過程,其具有獨特的屬性,即兩個過程的分布 p_t (x) 是一樣的。

這一現(xiàn)象揭示出了重要的意義:來自簡單基礎分布的特定樣本與來自數(shù)據(jù)分布的樣本之間存在雙射映射。對于所有隨機性都包含在初始基礎分布樣本中的采樣過程 —— 一旦采樣完成,基于此得到數(shù)據(jù)樣本的過程就是完全確定性的。這也意味著我們可以通過前向模擬 ODE 來將數(shù)據(jù)點映射到其相應的隱含表征,然后操作它們,再通過后向模擬 ODE 將它們映射回數(shù)據(jù)空間。

由這個概率流 ODE 描述的模型是一個連續(xù)歸一化流模型,但我們不必反向傳播通過 ODE 也能訓練它,使該方法的擴展性好得多。

我們竟然可以做到這一點,而不會改變模型的訓練方式,是不是很神奇?我們可以將分數(shù)預測器插入到前一節(jié)提到的逆向 SDE 或這一節(jié)的 ODE 中,然后得到兩個以不同方式建模同一分布的不同生成模型。是不是很炫酷?

不僅如此,概率流 ODE 還能讓擴散模型實現(xiàn)似然計算,參見 Song et al. (2021) 的附錄 D.2。這也需要求解 ODE,所以成本幾乎和采樣一樣高。

由于以上原因,概率流 ODE 范式最近變得相當受歡迎。比如 Karras et al. 將其用作探究不同擴散模型設計選擇的基礎,本文作者也與其合作者在他們的擴散語言模型中使用了它。這也被泛化和擴展到了擴散過程之外,以學習任意一對分布之間的映射,形式包括流匹配(Flow Matching)、修正流(Rectified Flows)和隨機插值(Stochastic Interpolants)。

旁注:DDIM 給出了另一種可為擴散模型獲取確定性采樣過程的方法,該方法基于深度隱變量模型視角。

擴散模型是循環(huán)神經(jīng)網(wǎng)絡(RNN)

從擴散模型采樣涉及到使用神經(jīng)網(wǎng)絡反復進行預測并使用這些預測來更新「畫布」,而這畫布一開始全是隨機噪聲。如果我們考慮這個過程的完整計算圖,它看起來很像循環(huán)神經(jīng)網(wǎng)絡(RNN)。RNN 中有一個隱藏狀態(tài)會反復通過一個循環(huán)單元來獲得更新,而這個循環(huán)單元由一個或多個非線性的已參數(shù)化的運算(比如 LSTM 的門控機制)構(gòu)成。其中,隱藏狀態(tài)就是畫布,因此它位于輸入空間中,并且其中的單元由我們?yōu)閿U散模型訓練的去噪神經(jīng)網(wǎng)絡構(gòu)成。

圖片

展開的擴散采樣回路示意圖

RNN 的訓練通常使用通過時間的反向傳播(BPTT),其中梯度是通過循環(huán)傳播的。反向傳播通過的循環(huán)步驟數(shù)通常受限于某個最大值,以降低計算成本,這被稱為截斷式 BPTT。擴散模型也是通過反向傳播訓練,但一次僅通過一步。從某種意義上說,擴散模型提供了一種訓練深度循環(huán)神經(jīng)網(wǎng)絡的方法。該方法完全無需通過循環(huán)進行反向傳播,從而可得到更具可擴展性的訓練過程。

RNN 通常是確定性的,因此這個類比對于基于上一節(jié)中描述的概率流 ODE 的確定性過程最有意義 —— 盡管將噪聲注入 RNN 的隱藏狀態(tài)作為正則化的一種方法并非是前所未聞的事情,所以作者認為這個類比也適用于隨機過程。

在非線性層的數(shù)量方面,這個計算圖的總深度是由神經(jīng)網(wǎng)絡的層數(shù)乘以采樣步驟數(shù)給定的。我們可以將展開的循環(huán)看作是一個非常深的神經(jīng)網(wǎng)絡,甚至可能有成千上萬層。深度很大,但也說得過去,因為對真實世界數(shù)據(jù)進行生成式建模就需要如此深度的計算圖。

我們還可以想想,如果我們在每個擴散采樣步驟不使用同樣的神經(jīng)網(wǎng)絡,對于不同的噪聲水平范圍可能使用不同的神經(jīng)網(wǎng)絡,那么會發(fā)生什么?這些網(wǎng)絡可以單獨且獨立地訓練,甚至可以使用不同的架構(gòu)。這意味著我們可以有效地「解開」非常深的神經(jīng)網(wǎng)絡中的權(quán)重,將其從一個 RNN 變成一個普通的老式深度神經(jīng)網(wǎng)絡,但我們?nèi)匀粺o法避免一次性反向傳播通過它們?nèi)俊table Diffusion XL 在其 Refiner 模型中使用這種方法達到了很好的效果,所以這種方法的熱度可能會趕上來。

作者表示他在 2010 年開始讀博時,訓練隱藏層超過 2 層的神經(jīng)網(wǎng)絡可是個苦累活:反向傳播不是一拿出來就好用,因此他們的做法是使用無監(jiān)督的逐層預訓練來尋找一個能夠讓反向傳播成為可能的優(yōu)良初始化。現(xiàn)如今,即使有數(shù)百隱藏層,也不再是阻礙。因此,不難想象未來幾年之后,使用反向傳播訓練數(shù)萬層的神經(jīng)網(wǎng)絡也有可能實現(xiàn)。到那時,擴散模型提供的「分而治之」的方法可能會失去光彩,也許我們都會回頭去訓練深度變分自動編碼器!(注意,同樣的「分而治之」視角也適用于自回歸模型,因此如果未來果真如此,那么自回歸模型也可能會過時。)

這一視角下的一個問題是:如果我們反向傳播通過采樣過程兩步或更多步,擴散模型的表現(xiàn)是否會更好。這種方法并不常見,這可能說明這種方法實際做起來成本很高。不過也有一個重要的例外(一定程度上的例外),循環(huán)接口網(wǎng)絡(RIN)等使用自調(diào)節(jié)(self-conditioning)的模型除了會在擴散采樣步驟之間傳遞更新的畫布之外,還會傳遞某種形式的狀態(tài)。要讓模型學會使用這個狀態(tài),可以在訓練期間通過運行額外的前向傳遞來提供該狀態(tài)的近似值。不過,這里不會有額外的向后傳遞,所以這實際上不算是兩步 BPTT—— 更像是 1.5 步。

擴散模型是自回歸模型

對于自然圖像的擴散模型,采樣過程往往會首先產(chǎn)生大尺度的結(jié)構(gòu),然后迭代地添加越來越細粒的細節(jié)。事實上,噪聲水平與特征尺度之間似乎有近乎直接的對應關系。

但為什么會這樣呢?為了理解這一點,從空間頻率的角度思考會有所幫助。圖像中的大尺度特征對應于低空間頻率,而細粒度細節(jié)對應于高頻率。我們可以使用 2D 傅立葉變換(或其某種變體)將圖像分解為其空間頻率分量。這通常是圖像壓縮算法的第一步,因為眾所周知人類視覺系統(tǒng)對高頻不太敏感,壓縮時可以利用這一點,即更多地壓縮高頻,更少地壓縮低頻。

圖片

8x8 離散余弦變換(比如 JPEG 壓縮方法就使用了它)的空間頻率分量的可視化

自然圖像以及許多其它自然信號的頻域會表現(xiàn)出一個有趣的現(xiàn)象:不同頻率分量的幅度往往與頻率的倒數(shù)成比例下降:圖片(如果你看的是功率譜而不是幅度譜,那么就是頻率平方的倒數(shù))。

另一方面,高斯噪聲的譜形很平坦:在期望中,所以頻率的幅度一樣。由于傅里葉變換是線性運算,因此向自然圖像添加高斯噪聲會產(chǎn)生新圖像,其頻譜是原始圖像的頻譜與噪聲的平坦頻譜之和。在對數(shù)域中,兩個光譜的疊加看起來像一個鉸鏈,它表明添加噪聲會以某種方式模糊更高空間頻率中存在的任何結(jié)構(gòu)(見下圖)。這個噪聲的標準差越大,受影響的空間頻率就越多。

圖片

自然圖像、高斯噪聲和有噪聲圖像的幅度譜

由于擴散模型的構(gòu)建方式是逐漸向輸入樣本添加更多噪聲,我們可以說這個過程會逐漸淹沒越來越低頻的內(nèi)容,直到清除所有結(jié)構(gòu)(至少對自然圖像來說是這樣的)。當從模型采樣時,就調(diào)轉(zhuǎn)方向,在越來越高的空間頻率上有效地添加結(jié)構(gòu)。這基本上就和自回歸一樣,卻是在頻率空間!Rissanen et al. (2023) 討論了他們在使用逆向散熱(inverse heat dissipation,這是高斯擴散的一種替代方法)的生成式建模方面觀察到這一現(xiàn)象,但他們并未將其與自回歸模型聯(lián)系起來。這種聯(lián)系是本文作者自己提出的,可能會具有爭議。

一個重要的警告是:這種解釋依賴于自然信號的頻率特征,因此對于擴散模型在其它領域的應用(如語言建模),這種類比可能沒有意義。

擴散模型估計的是期望

轉(zhuǎn)移密度(transition density) p (x_t∣x_0) 描述的是:基于原始的干凈輸入 x_0,其衍生(通過添加噪聲)出的有噪聲數(shù)據(jù)示例 x_t 在時間 t  的分布。擴散模型中神經(jīng)網(wǎng)絡的任務是基于這一分布的樣本預測其期望 E [x_0∣x_t](或期望的某個線性的時間依賴型函數(shù))。這可能看起來再明顯不過,但這也能說明一些東西,這里強調(diào)一下。

首先,這提供了一個佐證,說明訓練擴散模型時使用均方誤差(MSE)作為損失函數(shù)是正確的選擇。在訓練期間,期望 E [x_0∣x_t] 是未知的,所以我們使用 x_0 本身來監(jiān)督模型。因為 MSE 損失的最小值正是期望值,所以我們最終可以恢復 E [x_0∣x_t](的近似值),即使我們事先不知道這個量。這和典型的監(jiān)督學習問題有些不同。對于典型的監(jiān)督學習問題,理想的結(jié)果是模型能準確預測出用于監(jiān)督的目標(排除任何標注錯誤)。這里,我們故意不希望這樣。更一般而言,估計條件期望的概念(即便我們只是通過樣本提供監(jiān)督)是非常強大的。

其實,這解釋了為什么擴散模型的蒸餾是一個如此引人注目的命題:在這種情況下,我們可以直接使用我們希望預測的目標期望 E [x_0∣x_t] 的近似值來監(jiān)督擴散模型,因為教師模型已經(jīng)提供了這一點。由此導致的結(jié)果是,其訓練損失的方差將遠遠低于從頭開始訓練時的情況,收斂速度也會快得多。當然,只有當你手上已經(jīng)有一個已訓練好的模型可用作教師時,這才會有用。

離散和連續(xù)的擴散模型

到目前為止,我們已經(jīng)從幾個視角考慮了一些離散噪聲水平的情況,也有幾個視角使用了連續(xù)時間概念,其與映射函數(shù) σ(t) 相組合,可將時間步驟映射到噪聲中對應的標準差。這些通常分別被稱為離散時間或連續(xù)時間。一件非常巧妙的事情是:這主要就是一個如何解釋的問題:在離散時間視角下訓練的模型通常可以很容易地重新調(diào)整用途,以在連續(xù)時間設置中生效,反之亦然。

看擴散模型是離散還是連續(xù)的另一種方式是看輸入空間。作者發(fā)現(xiàn),文獻中常常不會清楚說明「連續(xù)」或「離散」是相對于時間還是相對于輸入。這非常重要,因為某些視角僅對連續(xù)輸入才真正有意義,因為它們依賴于輸入的梯度(即基于分數(shù)函數(shù)的所有視角)。

離散性 / 連續(xù)性存在四種組合方式:

  • 時間離散,輸入連續(xù):原始的深度隱變量模型視角(DDPM)以及基于分數(shù)的視角;
  • 時間連續(xù),輸入連續(xù):基于 SDE 和 ODE 的視角;
  • 時間離散,輸入離散:D3PM、MaskGIT、Mask-predict、ARDM、多項式擴散和 SUNDAE 都是對離散輸入使用迭代式精細化的方法 —— 是否所有這些都應該被視為擴散模型尚不完全清楚(這取決于你提問的對象);
  • 時間連續(xù),輸入離散:連續(xù)時間馬爾可夫鏈(CTMC)、基于分數(shù)的連續(xù)時間離散擴散模型和 Blackout Diffusion 都是搭配了離散輸入和連續(xù)時間 —— 這一設置通常的處理方式是將離散數(shù)據(jù)嵌入到歐幾里得空間中,然后在該空間中對輸入執(zhí)行連續(xù)的擴散,例如 Analog Bits、Self-conditioned Embedding Diffusion 和 CDCD。

其它形式

最近有些論文基于第一性原理為這類模型提出了新的推導方式,由于已有后見之明,所以它們完全避開了微分方程、ELBO 或分數(shù)匹配。然而,這些研究為擴散模型提供了另一種視角,這可能更容易理解,因為所需的背景知識更少。

通過直接迭代進行反演(InDI/Inversion by Direct Iteration)這種形式根植于圖像恢復,其目的是利用迭代式精細化來提升感知質(zhì)量。其沒有對圖像劣化的本質(zhì)做任何假設,并且模型的訓練使用的是配對的低質(zhì)量和高質(zhì)量樣本。Iterative α-(de) blending 通過在來自兩個不同分布的樣本之間進行線性插值作為起點,來得到這兩個分布之間的確定性映射。這兩種方法都與之前討論的流匹配、修正流和隨機插值方法緊密相關。

一致性

近期的文獻對擴散模型的一致性(consistency)有著不同的概念。

  • 一致性模型(CM)被訓練用于將概率流 ODE 的任何軌跡上的點映射到軌跡的原點(即干凈的數(shù)據(jù)點),從而實現(xiàn)在單一步驟中完成采樣。其完成方式是間接的,即通過在特定軌跡上獲取成對的點并確保模型對于兩者的輸出結(jié)果一樣(因此有一致性)。其有一個蒸餾式的變體,它是從已有的擴散模型開始的,但也可能從頭開始訓練出一致性模型。
  • 一致擴散模型(CDM)的訓練使用了明確鼓勵一致性的正則化項,其將一致性定義為:去噪器的預測結(jié)果應當對應于條件期望 E [x_0∣x_t]。
  • FP-Diffusion 的任務是讓福克 - 普朗克方程描述 p_t (x) 隨時間的演變,其中引入了一個顯式的正則化項以確保其成立。

對理想的擴散模型(完全收斂又能力無限)而言,這些屬性中的每一個都很容易實現(xiàn)。但是,現(xiàn)實中的擴散模型都是近似模型,并不是理想模型,所以它們在實踐中并不成立,所以需要通過新增機制來顯式地施行它們。

本文之所以有這一節(jié),是因為作者想重點說明近期的一篇論文《On the Equivalence of Consistency-Type Models: Consistency Models, Consistent Diffusion Models, and Fokker-Planck Regularization》,來自 Lai et al. (2023),其中表明這三種不同的一致性概念本質(zhì)上是不同視角下的同一東西。作者表示這個結(jié)果很優(yōu)雅,非常契合本文的主題。

打破常規(guī)

除了這些在概念層面上的不同視角,作者表示,擴散模型方面的論文也在重新發(fā)明符號和違反慣例方面特別令人擔憂。有時候,對于同一概念,人們使用的兩套描述看起來簡直像是一點關系都沒有。這無益于人們理解和學習,提高了進入門檻。(對此我很抱歉。)

還有一些其它看似無害的細節(jié)和參數(shù)化選擇也可能產(chǎn)生深遠影響。以下是需要注意的三點:

  • 總的來說,人們使用的是方差保持(VP/variance-preserving)擴散過程,即除了在每一步添加噪聲,當前畫布的尺寸也會得到調(diào)整以保持整體的方差。不過,方差爆炸(VE/variance-exploding)方法也有不少擁躉,其中不會調(diào)整畫布尺寸,所添加的噪聲的方差會無限增大。最值得注意的是 Karras et al. (2022) 使用的方法。某些對于 VP 擴散方法成立的結(jié)果對 VE 擴散就不一定成立,反之亦然;并且這一點可能不會被明確提及。如果你在讀一篇擴散論文,要確保你知道所使用的構(gòu)建方法,以及論文中是否做了有關于其的假設。
  • 有時擴散模型中使用的神經(jīng)網(wǎng)絡的參數(shù)被設計成為了預測添加到輸入中的(標準化)噪聲,即分數(shù)函數(shù),有時則是為了預測干凈的輸入或甚至這兩者的時間依賴型組合(如 v-prediction)。所有這些目標都是等效的,因為它們都是彼此和有噪聲輸入 x_t 的時間依賴型線性函數(shù)。但重要的是,要了解其與訓練期間不同時間步驟的損失貢獻的相對權(quán)重的作用方式,這會極大影響模型的性能表現(xiàn)。對于圖像數(shù)據(jù)而言,預測標準化噪聲似乎是個絕佳選擇。人們發(fā)現(xiàn),當建模其它某些量(如隱含擴散中的隱含量)時,預測干凈輸入的效果更好。這主要是因為它暗含了對噪聲水平的不同加權(quán),因此特征尺度也就不同。
  • 人們普遍認為,損傷過程所添加的噪聲的標準偏差會隨時間而增加,即熵會隨時間增加,就像我們的宇宙。因此,x_0 對應于干凈數(shù)據(jù),x_T(當 T 足夠大時)對應于純噪聲。流匹配等一些研究顛倒了這種慣例,如果你一開始沒注意到,可能會深感困惑。

最后,值得注意的是,在生成式建模的語境下,「擴散」的定義范圍已經(jīng)變得相當廣泛,現(xiàn)在幾乎就等同于「迭代式精細化」。許多用于離散輸入的「擴散模型」實際上并不基于擴散過程,但是它們當然是緊密相關的,因此擴散這一標簽的范圍會逐漸擴大并將它們囊括進來。界線在哪目前尚未可知:如果通過逆向逐漸損傷的過程而實現(xiàn)迭代式精細化的任何模型都算是擴散模型,那么所有自回歸模型也算是擴散模型。作者認為,這樣就太混淆了,會讓「擴散」這個術(shù)語變得毫無用處。

結(jié)語

目前,學習有關擴散模型的知識肯定很讓人困惑,但對這些不同視角的探索已經(jīng)催生出了廣泛多樣的方法和工具,這些方法可以組合起來使用,畢竟其底層模型都是一樣的。另外,了解這些不同視角的相關性還能加深理解。在一個視角下看起來神秘難解的東西在另一個視角看來可能就很明晰。

如果你才剛開始學習擴散模型,希望這篇文章能為你提供引導,幫助你找到更進一步的學習材料。如果你已經(jīng)經(jīng)驗豐富,也希望這篇文章能拓寬你對擴散模型的理解,讓你溫故而知新。感謝閱讀!

對于擴散,你最喜歡的視角是哪一個?文中還沒提到哪些有用的視角?請與我們分享你的看法。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2021-03-29 11:37:50

人工智能深度學習

2021-03-22 10:52:13

人工智能深度學習自編碼器

2024-06-18 08:52:50

LLM算法深度學習

2012-12-06 15:36:55

CIO

2022-02-14 10:16:29

AI模型編碼

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學家

2015-06-11 10:27:29

數(shù)據(jù)科學家

2025-06-26 08:56:59

2021-02-20 20:57:16

深度學習編程人工智能

2025-04-10 11:52:55

2017-11-10 12:45:16

TensorFlowPython神經(jīng)網(wǎng)絡

2018-12-24 08:37:44

數(shù)據(jù)科學家數(shù)據(jù)模型

2022-11-03 14:13:24

騰訊科學家

2019-02-25 22:57:22

數(shù)據(jù)工程師數(shù)據(jù)科學機器學習

2016-03-10 13:56:42

數(shù)據(jù)科學數(shù)據(jù)科學家數(shù)據(jù)分析

2016-12-22 23:27:49

數(shù)據(jù)數(shù)據(jù)科學家變量

2016-12-23 14:56:49

數(shù)據(jù)科學商業(yè)視角思維

2012-12-26 10:51:20

數(shù)據(jù)科學家

2017-07-03 07:14:49

深度學習無監(jiān)督學習稀疏編碼

2012-06-12 09:33:59

點贊
收藏

51CTO技術(shù)棧公眾號

日韩女优在线视频| 国产精品美女主播在线观看纯欲| 一区二区传媒有限公司| 一级特黄aaa大片在线观看| 福利电影一区| 亚洲女爱视频在线| 成人av在线亚洲| 久久久久无码精品国产sm果冻| av男人的天堂在线观看| 麻豆国产精品官网| 国产一区二区三区欧美| 国产h视频在线播放| 成 人 免费 黄 色| 欧美成人自拍| 欧美人狂配大交3d怪物一区| 欧美日韩在线播放一区二区| 日本网站在线免费观看| 91久久精品无嫩草影院| 成人免费一区二区三区视频| 国产精品成人播放| 成年人免费观看视频网站| 国产免费拔擦拔擦8x高清在线人| 国产乱对白刺激视频不卡| 日韩中文字幕网站| 91 在线视频观看| 日本在线免费播放| 久久99国产精品成人| 中文字幕日韩欧美在线视频| 91制片厂毛片| 1pondo在线播放免费| 日韩av中文在线观看| 亚洲网站在线看| 色七七在线观看| h网站视频在线观看| 免费成人美女在线观看| 中文字幕欧美日韩| 亚洲一二三av| 男人天堂亚洲| 99久久精品国产麻豆演员表| 91av在线国产| 欧美做受高潮6| 亚洲电影有码| 中文字幕制服丝袜一区二区三区| 国产日韩精品一区二区| 国产稀缺精品盗摄盗拍| 给我免费播放日韩视频| 岛国av午夜精品| 色噜噜色狠狠狠狠狠综合色一| 亚洲视屏在线观看| 亚洲天堂免费| 亚洲精品久久在线| 国产精品乱码久久久久| 黄a在线观看| 成人av一区二区三区| 国产91精品高潮白浆喷水| 日本少妇xxxxx| 热久久久久久| 亚洲一本大道在线| 欧美亚洲国产免费| 国产又色又爽又黄又免费| 国产精品多人| 亚洲午夜小视频| 黄色aaaaaa| 午夜欧美激情| 1区2区3区精品视频| 精品日韩欧美| 国产精品视频在线观看免费| 999亚洲国产精| 日韩最新在线视频| 你懂得在线视频| 精品久久久网| 亚洲高清免费观看| 亚洲一二三区在线| 污视频在线免费| 国产在线国偷精品产拍免费yy| 97在线日本国产| 麻豆一区在线观看| 欧美激情15p| 日韩午夜小视频| 欧美 日韩 国产 激情| 女人黄色免费在线观看| 国产精品久久久久久亚洲伦| 久久精品第九区免费观看 | 亚洲激情成人在线| 欧美久久综合性欧美| 99久久精品免费看国产交换| 久久亚洲不卡| 久久久久久久成人| 成年人二级毛片| 国产一区二区欧美| 亚洲第一精品福利| 天美一区二区三区| 日韩在线免费| 欧美日韩一区二区在线| 日韩激情视频一区二区| 黄网页免费在线观看| 国产天堂亚洲国产碰碰| 精品伦精品一区二区三区视频| 97视频免费在线| 丝袜美腿高跟呻吟高潮一区| 性欧美激情精品| 青娱乐免费在线视频| 久久人人99| 一本色道久久综合亚洲精品小说 | 欧美日韩在线网站| 日韩av中文在线| 一区二区三区四区影院| 国产精品视频首页| 911精品国产一区二区在线| 蜜桃免费在线视频| 另类中文字幕国产精品| 在线亚洲免费视频| 国产视频在线视频| 久久亚洲精品爱爱| 欧美亚洲国产怡红院影院| 女性隐私黄www网站视频| 蜜桃麻豆av在线| 五月婷婷久久综合| 日韩av综合在线观看| 97久久人人超碰caoprom| 亚洲国产精品久久不卡毛片| 欧美亚洲黄色片| 国产一线二线在线观看| 亚洲综合视频在线| av日韩一区二区三区| 欧美1234区| 亚洲成人激情自拍| 国产91对白刺激露脸在线观看| 成人免费观看在线观看| 五月婷婷综合在线| 国产免费人做人爱午夜视频| 欧美亚洲韩国| 欧美日韩国产免费| 亚洲男人天堂2021| 激情亚洲另类图片区小说区| 亚洲精品第一页| 波多野结衣办公室33分钟| 国产一区二区在线| 日韩在线观看免费全| 一区二区成人免费视频| 黑人一区二区三区四区五区| 国外视频精品毛片| 国产精品久久久久久久久夜色| 久久午夜电影| 国产日韩欧美一二三区| 性生交大片免费看女人按摩| 成人动漫视频在线| 日产精品一线二线三线芒果| 久久久久久久久免费视频| 亚洲精品精品亚洲| 乱妇乱女熟妇熟女网站| 国产精品亚洲d| 日韩精品一区二区三区视频 | 国产一区二区三区不卡av| 日韩精品一二三四区| 在线免费观看视频| 国内精品久久久久久久影视蜜臀| 日本一区二区三区四区视频| 97超碰人人草| 99久久精品免费看国产免费软件| 日本成人三级| 日本在线视频中文有码| 日韩欧美亚洲成人| 欧美一级特黄aaa| 爽爽窝窝午夜精品一区二区| 日韩在线视频免费观看| 国产成人无码精品久在线观看| 日韩av一区二区三区四区| 99九九电视剧免费观看| 黄色片在线免费看| 亚洲成av人影院在线观看网| 在线免费视频a| 北条麻妃在线一区二区免费播放| 国产午夜精品视频| 自拍偷拍欧美亚洲| 国产精品系列在线播放| 日韩欧美亚洲v片| caoprom在线| 欧美精品v日韩精品v韩国精品v| 女同性恋一区二区三区| 亚洲成人免费| 国产a级全部精品| 人妻一区二区三区四区| 亚洲色图在线播放| 日本一极黄色片| 久久动漫网址| 欧美韩日一区二区| 97人妻人人澡人人爽人人精品| 久久亚洲二区三区| 久久精品国产sm调教网站演员| 国产精品亚洲四区在线观看| 一本色道久久88综合日韩精品| 日韩成人高清视频| 风间由美性色一区二区三区| 国产四区在线观看| 成人午夜亚洲| 亚洲一区二区黄| 丁香社区五月天| 97精品视频在线观看自产线路二| 女人床在线观看| 亚洲欧美综合久久久久久v动漫| 亚洲色图在线观看| 国产原创视频在线| a级精品国产片在线观看| 99er在线视频| 日韩精品一区二区三区中文| 欧美成人高清视频| 国产视频手机在线| 成人免费一区二区三区视频| 午夜精品久久久久久久99热影院| 国产精品欧美日韩一区| 青青在线视频一区二区三区| 深夜福利视频在线观看| 欧美日韩在线第一页| 在线观看国产免费视频| aa亚洲婷婷| 久久精品人人做人人爽电影| 色戒汤唯在线观看| 精品亚洲国产视频| 亚洲 日本 欧美 中文幕| 久久视频一区二区| 日韩精品无码一区二区三区免费| 国产中文字幕一区二区三区| 国产精品看片资源| 午夜伦全在线观看| 欧美一级片在线| 伊人国产在线观看| 99re热视频精品| 一本久道综合色婷婷五月| 精品日韩欧美一区| 国产日韩在线视频| 五月婷婷视频在线观看| 欧美v国产在线一区二区三区| 日韩精品――中文字幕| 久久久久亚洲蜜桃| 一起操在线视频| 真实国产乱子伦精品一区二区三区| 成人午夜激情网| 精品精品导航| 亚洲人成伊人成综合网久久久 | 久久99国产精品99久久| 吞精囗交69激情欧美| 中文字幕亚洲字幕| 精品人妻一区二区三区三区四区| 亚洲国产精品一区二区www在线| 精品夜夜澡人妻无码av| 蜜桃视频在线观看一区| 国产精品一色哟哟| 国产一区网站| 999视频在线观看| 亚洲校园激情春色| 精品久久国产精品| 手机在线不卡av| 欧美日韩精品免费| 欧美人妻精品一区二区免费看| 99在线精品一区二区三区| 国产天堂在线播放| 中文字幕人成人乱码| 免费久久99精品国产自| 日本中文字幕视频一区| 97在线看福利| 久草资源在线观看| 日韩精品视频在线| 国产欧美一级片| 色综合天天综合网天天看片| 国产日产精品一区二区三区的介绍| 成人永久免费视频| 色播五月综合网| 99精品国产99久久久久久福利| 亚洲黄色成人久久久| 老牛国内精品亚洲成av人片| 国产精品视频yy9099| 在线观看v片| 久久99久久99精品免观看粉嫩 | 久久精品国产亚洲一区二区| 亚洲色大成网站www| 欧美一级夜夜爽| 中文字幕天堂在线| 亚洲成人免费电影| 婷婷在线精品视频| 国产精品成人免费| 欧美做受高潮6| 91碰在线视频| 亚洲v在线观看| 久国产精品韩国三级视频| 三级4级全黄60分钟| 激情综合视频| 免费在线观看污污视频| 国产91精品对白在线播放| 国产高清精品一区二区三区| 日韩大陆av| 国产日韩精品一区二区| 成人日韩在线观看| 欧美在线www| 女人高潮被爽到呻吟在线观看| 蜜臀久久99精品久久久无需会员| yes4444视频在线观看| 日韩国产欧美精品一区二区三区| 国产精品欧美亚洲| 欧美日韩国产三级| 91亚洲国产成人久久精品麻豆 | 免费黄色一级网站| 欧美一级专区| 日韩 欧美 高清| 久久久精品五月天| 久久婷婷国产精品| 久久青草久久| 9久久婷婷国产综合精品性色 | 四虎影视在线观看2413| 精品国产91乱码一区二区三区 | 亚洲日日夜夜| 国产综合久久久久久| 欧洲美女精品免费观看视频| 国产精品入口免费视频一| 粉嫩av一区二区三区四区五区| 国产成人亚洲综合91| 日韩欧美另类一区二区| 国产成人精彩在线视频九色| 日韩不卡免费高清视频| 国产精品久久久久久久app| 午夜av成人| 国产精品一区二区三| 91精品国产一区二区在线观看| 国产一区二区丝袜| 国产精品一区免费在线| www日韩av| 清纯唯美亚洲经典中文字幕| 欧美日韩精品久久| 日韩欧美国产精品综合嫩v| 一区二区三区在线观看www| 天天综合一区| 免费在线黄网站| 在线亚洲免费| 妓院一钑片免看黄大片| 久久av中文字幕片| 美女又黄又免费的视频| 成年人国产精品| 成人国产精品久久久网站| 国产精品成人午夜| 久久久久久久久久99| 欧美日韩精品国产| 中文字幕乱码视频| 日韩三级在线观看| 亚洲 欧美 激情 小说 另类| 日韩国产欧美精品一区二区三区| 成人免费视频| 久99久在线视频| 竹内纱里奈兽皇系列在线观看| 国产精品免费电影| 91综合久久爱com| 欧美国产综合视频| 婷婷丁香综合| 国产老熟妇精品观看| 日本视频中文字幕一区二区三区| 国产在线观看中文字幕| 岛国av在线一区| 国产性猛交xx乱| 亚洲欧美日韩在线| 黄色片视频免费| 日韩欧美中文字幕一区| 精品成人一区二区三区免费视频| 久久亚洲国产精品| 午夜激情电影在线播放| 成人免费视频a| 同性恋视频一区| 中文字幕久久综合| 久久精品卡一| 娇妻高潮浓精白浆xxⅹ| 国产精品免费视频网站| 国产视频91在线| 在线观看91av| 黄色的视频在线免费观看| 欧美激情2020午夜免费观看| 久久69成人| 久久手机视频| 亚洲欧美亚洲| 午夜精品中文字幕| 久久久久久久电影| 国产一级片免费观看| 69堂国产成人免费视频| 风间由美一区| 欧美夜福利tv在线| 成人高潮视频| 欧美一二三不卡| 久久99精品久久只有精品| 久久精品国产亚洲av久| 亚洲成人免费视频| 囯产精品久久久久久| 美日韩丰满少妇在线观看| 丁香婷婷久久| 午夜精品福利一区二区| 亚洲在线成人| 这里只有精品在线观看视频| 一二三区精品福利视频| 国产女人高潮毛片| 日韩在线高清视频| 日本成人在线网站| 椎名由奈jux491在线播放| 男人的天堂久久精品| 美国黑人一级大黄|