精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

文本生成圖像這么火,你需要了解這些技術的演變

人工智能 新聞
目前多模態任務成為行業熱點,本文梳理了較為優秀的多模態文本圖像模型:DALL·E、CLIP、GLIDE、DALL·E 2 (unCLIP)的模型框架、優缺點,及其迭代關系。

?OpenAI 最近發布了 DALL·E 2 系統,在 AI 界引發了「地震」,該系統能夠根據文本描述創建圖像。這是 DALL·E 系統的第二個版本,第一個版本是在近一年前發布的。然而,在 OpenAI 內部,DALL·E 2 背后的模型被稱為 unCLIP,它更接近于 OpenAI 的 GLIDE 系統,而不是原始的 DALL·E。

對筆者來說,DALL·E 2 系統的沖擊力可以與 AlphaGo 相媲美。看起來該模型捕獲了許多復雜的概念,并且以有意義的方式將它們組合起來。就在幾年前,計算機能否從這樣的文本描述中生成圖像還是一件難以預測的事情。Sam Altman 在他的博客文章中提到,我們對 AI 的預測似乎是錯誤的,是需要更新的,因為 AI 已經開始影響創造性的工作,而非只是機械重復的工作。

本文旨在帶領讀者一覽 OpenAI 的文本引導圖像生成模型的演變,包括 DALL·E 的第一個和第二個版本以及其他的模型。

DALL·E 演變史

DALL·E 1

DALL·E 的第一個版本是 GPT-3 風格的 transformer 解碼器,它可以根據文本輸入和可選的圖像開頭自回歸生成 256×256 大小的圖像。

你一定見過這些牛油果椅子:

圖片

來自原始博客文章。

如果你想了解類似 GPT 的 transformer 的工作原理,請參閱 Jay Alammar 的精彩視覺解釋:https://jalammar.github.io/how-gpt3-works-visualizations-animations/

文本由 BPE tokens 編碼(最多 256 個),圖像由離散變分自編碼器 (dVAE) 生成的特殊圖像 tokens(其中 1024 個)編碼。dVAE 將 256×256 圖像編碼為 32×32 tokens 的網格,詞匯表包含 8192 個可能的值。dVAE 會在生成的圖像中丟失一些細節和高頻特征,所以 DALL·E 生成圖像的特征采用了一些模糊和平滑。

圖片

原始圖像(頂部)和 dVAE 重建(底部)的比較。圖片來自原始論文。

這里使用的 transformer 是有著 12B 大小參數的大模型,由 64 個稀疏 transformer 塊組成,內部具有一組復雜的注意力機制,包括:1) 經典的文本到文本注意力掩碼機制,2) 圖像到文本的注意力,3) 圖像到圖像稀疏注意力。所有三種注意力類型都合并為一個注意力運算。該模型是在 250M 圖像 - 文本對的數據集上訓練的。

圖片

類似 GPT-3 的 transformer 解碼器使用一系列文本 token 和(可選)圖像 token(此處為 id 為 42 的單個圖像 token)并生成圖像的延續(此處為 id 為 1369 的下一個圖像 token)

訓練后的模型根據提供的文本生成了幾個樣本(最多 512 個),然后將所有這些樣本通過一個名為 CLIP 的特殊模型進行排序,并選擇排名靠前的一個作為模型的結果。

圖片

原始論文中的幾個圖像生成示例。?

CLIP

CLIP 最初是一個單獨的輔助模型,用于對 DALL·E 的結果進行排序。它的名字是 Contrastive Language-Image Pre-Training 的縮寫。

CLIP 背后的想法很簡單。筆者從互聯網上抓取了一個圖像 - 文本對數據集(400M 的規模),然后在這樣的數據集上訓練一個對比模型。對比模型可以給來自同一對的圖像和文本產生高相似度得分(因此它們是相似的),而對不匹配的文本和圖像產生低分(我們希望在當前訓練批次中某個圖像和任何其他對的文本之間得到高相似度結果的機會很小)。

該模型由兩個編碼器組成:一個用于文本,另一個用于圖像。編碼器產生嵌入(一個對象的多維向量表征,例如一個 512 字節的向量)。然后使用兩個嵌入計算點積,并得出相似度得分。因為嵌入會被歸一化,所以這個計算相似度得分的過程輸出的是余弦相似度。對于指向相同方向的向量(它們之間的角度很小),余弦相似度接近 1,對于正交向量,余弦相似度接近 0,對于相反的向量,余弦相似度接近 -1。

圖片

對比預訓練過程可視化(圖片來自原帖)

CLIP 是一組模型。有 9 個圖像編碼器、5 個卷積編碼器和 4 個 transformer 編碼器。卷積編碼器是 ResNet-50、ResNet-101 和類似 EfficientNet 的模型,稱為 RN50x4、RN50x16、RN50x64(數字越大,模型越好)。transformer 編碼器是視覺 Transformer(或稱之為 ViT):ViT-B/32、ViT-B/16、ViT-L/14 和 ViT-L/14@336。最后一個在分辨率為 336×336 像素的圖像上進行微調,其他的則在 224×224 像素上進行訓練。

OpenAI 分階段發布了程序,首先發布了 ViT-B/32 和 ResNet-50,然后是 ResNet-101 和 RN50x4,然后 RN50x16 和 ViT-B/16 于 2021 年 7 月發布,然后是 RN50x64 和 ViT-L /14 在 2022 年 1 月發布,2022 年 4 月終于出現了 ViT-L/14@336。

文本編碼器是一個普通的 transformer 編碼器,但具備掩碼注意力機制。這個編碼器由 12 層組成,每層有 8 個注意力頭,總共有 63M 的參數。有趣的是,注意力跨度只有 76 個 token(相比之下,GPT-3 有 2048 個 token,標準 BERT 有 512 個 token)。因此,模型的文本部分只適用于相當短的文本,不能在模型中放入大段文本。由于 DALL·E 2 和 CLIP 大致相同,應該也有相同的限制。

CLIP 預訓練之后,可以將其用于不同的任務(有良好基礎模型的優勢)。

最重要的是,讀者可以使用在 DALL·E 中排序好的模型對多個結果進行評分,并選擇最好的一個。或者,也可以使用 CLIP 功能在其之上訓練自定義分類器,但是目前成功的例子還不是很多。

接下來,可以使用 CLIP 對任意數量的類進行零樣本分類(當沒有專門訓練模型以使用這些類時)。這些類可以在不重新訓練模型的情況下進行調整。

簡單來說,可以為所需的多個類創建一個描述圖片中物體的文本數據集。然后為這些描述生成文本嵌入并將它們存儲為向量。當圖像用于分類時,使用圖像編碼器生成圖像嵌入,并計算圖像嵌入和所有預先計算的文本嵌入之間的點積。選擇得分最高的對,其對應的類就是結果。

圖片

用于使用 CLIP 進行零樣本分類的程序。

零樣本分類模型是說并未針對特定類別集訓練模型。現在可以選擇使用預訓練的 CLIP 進行即時工程(與使用 GPT 模型相同),而不是從頭開始訓練分類器或通過微調預訓練的圖像模型。

很多人沒有想到,也可以使用 CLIP 生成圖像(即使它并沒有被預設可以這樣做)。成功案例包括 CLIPDraw 和 VQGAN-CLIP。

圖片

CLIPD 繪制示例。圖片來自原論文。

圖片

VQGAN-CLIP 及其文本 prompt 的生成示例。圖片來自原論文。

該過程簡單而美觀,與 DeepDream 非常相似。從想要的圖像的文本描述和初始圖像(隨機嵌入、樣條線或像素中的場景描述、任何以可區分方式創建的圖像)開始,然后運行一個生成圖像的循環,加入一些增強以提高穩定性,獲得結果圖像的 CLIP 嵌入,并將其與描述圖像的文本的 CLIP 嵌入進行比較。根據此差異計算損失,并運行梯度下降程序,以此來更新圖像、減少損失。經過一些迭代后,可以得到很好地匹配文本描述的圖像。創建初始場景的方式(使用樣條線、像素、渲染基元、來自 VQGAN 的潛在代碼等)會顯著影響圖像特征。

圖片

CLIPDraw 生成過程:從一組隨機的 Bezier 曲線開始,優化曲線的位置和顏色,使生成的圖形與給定的描述 prompt 最匹配。圖片來自原論文。

圖片

VQGAN-CLIP 生成過程。圖片來自原論文。

CLIP 嵌入并不能捕獲所有內容,一些有趣的演示證明了它的弱點。其中一個廣為人知的例子是印刷攻擊。在這種攻擊中,圖像上的文本可能導致圖像的錯誤分類。

目前有一些與 CLIP 結構相似的替代模型,例如 Google 的 ALIGN 或華為的 FILIP。

GLIDE

GLIDE,即 Guided Language to Image Diffusion for Generation and Editing,是 OpenAI 推出的文本引導圖像生成模型,目前已經擊敗了 DALL·E,但受到的關注相對較少。它甚至在 OpenAI 網站上也沒有專門的帖子。GLIDE 生成分辨率為 256×256 像素的圖像。

擁有 3.5B 參數的 GLIDE 模型(但似乎正確的數字是 5B 參數,因為有一個單獨的具有 1.5B 參數的上采樣模型)比 12B 參數 DALL·E 更受人們的青睞,并且在 FID 得分上也擊敗了 DALL·E。

?

圖片

來自 GLIDE 的樣本。圖片來自原始論文。

GLIDE 模型還可以進行微調以執行圖像修復,從而實現強大的文本驅動圖像編輯,這在 DALL·E 2 中使用。

圖片

來自 GLIDE 的文本條件圖像修復示例。綠色區域被擦除,模型根據給定的提示填充這個區域。該模型能夠匹配周圍環境的風格和光線,產生逼真的完成效果。示例來自原論文。

GLIDE 在發布時可以稱作「DALL·E 2」。現在,當一個單獨的 DALL·E 2 系統發布時(實際上在論文中稱為 unCLIP 并且大量使用 GLIDE 本身),我們可以將 GLIDE 稱為 DALL·E 1.5 :)

GLIDE 類似于另一種稱為擴散模型的模型。簡而言之,擴散模型通過擴散步驟鏈向輸入數據添加隨機噪聲,然后它們會學習逆向擴散過程以從噪聲中構造圖像。

圖片

去噪擴散模型生成圖像。

下圖是 Google 使用擴散模型生成圖像的可視化說明。

圖片

擴散模型與其他類別的生成模型的比較。

首先,作者訓練了一個 3.5B 參數擴散模型,該模型使用文本編碼器以自然語言描述為條件。接下來,他們比較了兩種將擴散模型引導到文本 prompt 的技術:CLIP 引導和無分類器引導(后者能產生更好的結果)。

分類器引導允許擴散模型以分類器的標簽為條件,并且來自分類器的梯度用于引導樣本朝向標簽。

無分類器引導不需要訓練單獨的分類器模型。這只是一種引導形式,在有標簽和沒有標簽的擴散模型的預測之間進行插值。

正如作者所說,無分類引導有兩個吸引人的特性。首先,它允許單個模型在引導過程中利用自己的知識,而不是依賴于單獨(有時更小的)分類模型的知識。其次,它簡化了對難以用分類器預測的信息(例如文本)進行調節時的引導。

在 CLIP 引導下,分類器被替換為 CLIP 模型。它使用圖像的點積和相對于圖像的標題編碼的梯度。

在分類器和 CLIP 引導中,我們必須在噪聲圖像上訓練 CLIP,以便在反向擴散過程中獲得正確的梯度。作者使用了經過明確訓練具有噪聲感知能力的 CLIP 模型,這些模型被稱為噪聲 CLIP 模型。尚未在噪聲圖像上訓練的公共 CLIP 模型仍可用于引導擴散模型,但噪聲 CLIP 引導對這種方法表現良好。

文本條件擴散模型是一種增強的 ADM 模型架構,它基于噪聲圖像 x? 和相應的文本標題 c 預測下一個擴散步驟的圖像。

視覺部分是修改后的 U-Net 架構。U-Net 模型使用一堆殘差層和下采樣卷積,然后是一堆帶有上采樣卷積的殘差層,使用殘差連接(skip connection)連接具有相同空間大小的層。

圖片

原始的 U-Net 架構。圖片來自原論文。

GLIDE 對原始 U-Net 架構的寬度、深度等方面有不同的修改,在 8×8、16×16 和 32×32 分辨率下添加了具有多個注意力頭的全局注意力層。此外,還將時間步嵌入的投影添加到每個殘差塊中。

對于分類器引導模型,分類器架構是 U-Net 模型的下采樣主干網絡,在 8×8 層有一個注意力池以生成最終輸出。

文本通過 transformer 模型被編碼成 K 個(最大注意力跨度尚不清楚)tokens 的序列。

transformer 的輸出有兩種使用方式:首先,使用最終的 token 嵌入替代 ADM 模型中的類嵌入;其次,token 嵌入的最后一層(K 個特征向量的序列)分別投影到整個 ADM 模型中每個注意力層的維度,然后連接到每一層的注意力上下文。

文本 transformer 有 24 個寬度為 2048 的殘差塊,產生大約 1.2B 的參數。為 64×64 分辨率訓練的模型的視覺部分由 2.3B 個參數組成。除了 3.5B 參數的文本條件擴散模型,作者還訓練了另一個 1.5B 參數的文本條件上采樣擴散模型,將分辨率提高到 256×256(這個想法在 DALL·E 中也會用到)。

上采樣模型以與基本模型相同的方式以文本為條件,但使用寬度為 1024 而不是 2048 的較小文本編碼器。對于 CLIP 引導,他們還訓練了帶噪聲的 64×64 ViT-L CLIP 模型。

GLIDE 在與 DALL·E 相同的數據集上進行訓練,總的訓練計算量大致等于用于訓練 DALL·E 的計算量。

GLIDE 在所有設置中都是最優,即使設置允許 DALL·E 使用更多的測試時間計算來得到優越的表現,同時降低 GLIDE 樣本質量(通過 VAE 模糊)。

圖片

該模型經過微調以支持無條件的圖像生成。這個訓練過程與預訓練完全一樣,只是將 20% 的文本 token 序列替換為空序列。這樣,模型保留了生成文本條件輸出的能力,但也可以無條件地生成圖像。

該模型還經過顯式微調以執行修復。在微調期間,訓練示例的隨機區域被刪除,其余部分與掩碼通道一起作為附加條件信息輸入模型。

GLIDE 可以迭代地使用 zero-shot 生成產生復雜場景,然后進行一系列修復編輯。

圖片

首先生成 prompt「一個舒適的客廳」的圖像,然后使用修復蒙版,后續文本 prompt 在墻上添加了一幅畫、一個茶幾,茶幾上還有一個花瓶,最后把墻移到沙發上。示例來自原論文。

DALL·E 2/unCLIP?

OpenAI 于 2022 年 4 月 6 日發布了 DALL·E 2 系統。DALL·E 2 系統比原來的 DALL·E 顯著提升了結果。它生成的圖像分辨率提高了 4 倍(與原來的 DALL·E 和 GLIDE 相比),現在高達 1024×1024 像素。DALL·E 2 系統背后的模型稱為 unCLIP。

作者發現,就照片寫實而言,人類略微喜歡 GLIDE 而不是 unCLIP,但差距非常小。在具有類似真實感的情況下,在多樣性方面,unCLIP 比 GLIDE 更受青睞,突出了它的好處之一。請記住,GLIDE 本身比 DALL·E 1 更受歡迎,所以說 DALL·E 2 比它的前身 DALL·E 1 有了顯著改進。

圖片

對于「用克勞德 · 莫奈的風格畫一幅狐貍坐在日出時分田野里的畫」的要求,兩個版本的系統生成的圖片,圖片來自原文章。

DALL·E 2 可以將概念、屬性和風格結合起來:

圖片

原文中的示例。

DALL·E 2 還可以基于文本引導進行圖像編輯,這是 GLIDE 中的功能。它可以在考慮陰影、反射和紋理的同時添加和刪除元素:

圖片

將柯基犬添加到圖像上的特定位置,圖片來自原論文中。

DALL·E 2 還可用于生成原始圖像的變體:

圖片

生成圖像的變體,圖片來自原文。

DALL·E 2 也存在一些問題。特別是 unCLIP 在將屬性綁定到對象方面比 GLIDE 模型更差。例如,unCLIP 比 GLIDE 更難面對必須將兩個單獨的對象(立方體)綁定到兩個單獨的屬性(顏色)的 prompt:

圖片

unCLIP 生成連貫的文本上也有一些困境:

圖片

另一個問題是 unCLIP 很難在復雜場景中生成細節:

圖片

?模型內部發生了一些改變。下圖是 CLIP 和 GLIDE 的結合,模型本身(全文條件圖像生成堆棧)在論文內部稱為 unCLIP,因為它通過反轉 CLIP 圖像編碼器生成圖像。

該模型的工作方式如下:CLIP 模型是單獨訓練的。然后 CLIP 文本編碼器為輸入文本(標題)生成嵌入。然后一個特殊的先驗模型基于文本嵌入生成圖像嵌入。然后擴散解碼器基于圖像嵌入生成圖像。解碼器本質上將圖像嵌入反轉回圖像。

圖片

系統的宏觀概述。一些細節(如解碼器文本條件)沒有顯示。圖片來自原論文。

CLIP 模型使用 ViT-H/16 圖像編碼器,它使用 256×256 分辨率的圖像,寬度為 1280,帶有 32 個 Transformer 塊(它比原始 CLIP 工作中最大的 ViT-L 更深)。文本編碼器是一個帶有因果注意掩碼的 Transformer,寬度為 1024 和 24 個 Transformer 塊(原始 CLIP 模型有 12 個 Transformer 塊)。尚不清楚文本 transformer 的注意力跨度是否與原始 CLIP 模型中的相同(76 個 token)。

擴散解碼器是經過修改的 GLIDE,具有 3.5B 參數。CLIP 圖像嵌入被投影并添加到現有的時間步嵌入中。CLIP 嵌入也被投影到四個額外的上下文 token 中,這些 token 連接到 GLIDE 文本編碼器的輸出序列。保留了原始 GLIDE 的文本條件路徑,因為它可以讓擴散模型學習 CLIP 未能捕獲的自然語言方面(然而,它幫助不大)。在訓練期間,10% 的時間用于將 CLIP 嵌入隨機設置為零,50% 的時間隨機刪除文本標題。

解碼器生成 64×64 像素的圖像,然后兩個上采樣擴散模型隨后生成 256×256 和 1024×1024 的圖像,前者具有 700M 參數,后者具有 300M 參數。為了提高上采樣的魯棒性,在訓練過程中條件圖像被輕微損壞。第一個上采樣階段使用高斯模糊,第二個階段使用更多樣化的 BSR 降級,包括 JPEG 壓縮偽影、相機傳感器噪聲、雙線性和雙三次插值、高斯噪聲。這些模型在目標大小的四分之一的隨機圖像上進行訓練。文本調節不用于上采樣模型。

先驗根據文本描述生成圖像嵌入。作者探索了先驗模型的兩個不同模型類:自回歸 (AR) 先驗和擴散先驗。兩種先驗的模型都有 1B 參數。

在 AR 先驗中,CLIP 圖像嵌入被轉換為一系列離散代碼,并根據標題進行自回歸預測。在擴散先驗中,連續嵌入向量直接使用以標題為條件的高斯擴散模型進行建模。

除了標題之外,先驗模型還可以以 CLIP 文本嵌入為條件,因為它是標題的確定性函數。為了提高采樣質量,作者還通過在訓練期間 10% 的時間隨機刪除此文本條件信息,啟用了對 AR 和擴散先驗使用無分類器引導的采樣。

對于 AR 先驗,主成分分析 (PCA) 降低了 CLIP 圖像嵌入的維數。1024 個主成分中有 319 個保留了 99% 以上的信息。每個維度量化為 1024 個桶。作者通過將文本標題和 CLIP 文本嵌入編碼為序列的前綴來調節 AR 先驗。此外,它們在文本嵌入和圖像嵌入之間添加一個表征(量化的)點積的 token。這允許在更高的點積上調整模型,因為更高的文本圖像點積對應于更好地描述圖像的標題。點積是從分布的上半部分采樣的。使用帶有因果注意掩碼的 Transformer 模型預測生成的序列。

對于擴散先驗,具有因果注意掩碼的僅解碼器(decoder-only) Transformer 在由以下成分組成的序列上進行訓練:

  • 編碼的文本
  • CLIP 文本嵌入
  • 擴散時間步長的嵌入
  • 噪聲 CLIP 圖像嵌入

最終的嵌入,其來自 Transformer 的輸出用于預測無噪聲 CLIP 圖像嵌入。

不使用點積來調節擴散先驗。相反,為了提高采樣時間的質量,生成了兩個圖像嵌入樣本,并選擇了一個具有更高點積和文本嵌入的樣本。

對于可比較的模型大小和減少的訓練計算,擴散先驗優于 AR 先驗。在與 GLIDE 的成對比較中,擴散先驗也比 AR 先驗表現更好。

圖片

?作者還對先驗的重要性進行了調查。他們嘗試使用不同的信號來調節相同的解碼器:1、文本標題和零 CLIP 嵌入,2、文本標題和 CLIP 文本嵌入(就好像它是圖像嵌入一樣),3、由先驗生成的文本和 CLIP 圖像嵌入。僅根據標題對解碼器進行調節顯然是最差的,但對文本嵌入零樣本進行調節確實會產生符合期望的結果。

圖片

使用不同的調節信號,圖片來自原文。

在訓練編碼器時,作者以相同的概率從 CLIP 和 DALL-E 數據集(總共約 6.5 億張圖像)中采樣。在訓練解碼器、上采樣器和之前的模型時,他們只使用了 DALL-E 數據集(大約 2.5 億張圖像),因為在訓練生成堆棧時合并了噪聲更大的 CLIP 數據集,從而在初始評估中對樣本質量產生了負面影響。

模型總大小似乎是:632M?參數(CLIP ViT-H/16 圖像編碼器)+ 340M?(CLIP 文本編碼器)+ 1B(擴散先驗)+ 3.5B(擴散解碼器)+ 1B(兩個擴散上采樣器)=~ 大約 6.5B 參數(如果我沒記錯的話)。這個方法允許基于文本描述生成圖像。然而,其他一些有趣的應用也是可能的。?

圖片

原論文中的示例。

每個圖像 x 可以被編碼成一個二分 latent 表示 (z_i, x_T),這足以讓解碼器產生準確的重建。latent  z_i 是一個 CLIP 圖像嵌入,它描述了 CLIP 識別的圖像方面。latent  x_T 是通過使用解碼器對 x 應用 DDIM(去噪擴散隱式模型)反演獲得的,同時以 z_i 為條件。換句話說,它是在生成圖像 x(或等效為 x_0,參見 GLIDE 部分中的去噪擴散模型方案)時擴散過程的起始噪聲。

這種二分表示可以實現三種有趣的操作。

首先,你可以通過在解碼器中使用 η > 0 的 DDIM 進行采樣,為給定的二分潛在表示 (z_i, x_T) 創建圖像變體。當 η = 0 時,解碼器變得具有確定性,并將重建給定的圖像 x。η 參數越大,變化越大,我們可以看到在 CLIP 圖像嵌入中捕獲了哪些信息并呈現在所有樣本中。

圖片

探索圖像的變化。

其次,你可以在圖像 x1 和 x2 之間進行插值。為此,你必須采用 CLIP 圖像嵌入 z_i1 和 z_i2,然后應用 slerp(球面線性插值)來獲得中間 CLIP 圖像表示。對應的中間 DDIM latent  x_Ti 有兩個選項:1)使用 slerp 在 x_T1 和 x_T2 之間進行插值,2)將 DDIM latent 固定為軌跡中所有插值的隨機采樣值(可以生成無限數量的軌跡)。以下圖像是使用第二個選項生成的。

圖片

探索兩個圖像的插值。

最后,第三件事是語言引導的圖像操作或文本差異。為了修改圖像以反映新的文本描述 y,你首先獲取其 CLIP 文本嵌入 z_t,以及描述當前圖像的標題的 CLIP 文本嵌入 z_t0(可能是像「照片」這樣的虛擬標題或一個空的標題)。然后計算文本差異向量 z_d = norm(z_t - z_t0)。然后使用 slerp 在嵌入 z_i 的圖像 CLIP 和文本差異向量 z_d 之間旋轉,并在整個軌跡中生成具有固定基本 DDIM 噪聲 x_T 的圖像。

圖片

?探索文本差異,來自原文中。

作者還進行了一系列實驗來探索 CLIP 潛在空間。先前的研究表明,CLIP 容易受到印刷攻擊。在這些攻擊中,一段文本覆蓋在一個對象的頂部,這導致 CLIP 預測文本描述的對象而不是圖像中描述的對象(還記得帶有 “iPod” 橫幅的蘋果嗎?)。現在,作者嘗試生成此類圖像的變體,發現盡管圖像正確分類的概率非常低,但生成的變體以很高的概率是正確的。盡管該標題的相對預測概率非常高,但該模型從未生成 iPod 的圖片。

圖片

印刷攻擊案例。

另一個有趣的實驗是用越來越多的主成分重建圖像。在下圖中,他們獲取了少量源圖像的 CLIP 圖像嵌入,并以逐漸增加的 PCA 維度重建它們,然后使用帶有 DDIM 的解碼器將重建的圖像嵌入可視化。這允許查看不同維度編碼的語義信息。

圖片

越來越多的主成分,來自原始論文。

還要記住 unCLIP 在屬性綁定、文本生成和復雜場景中的細節方面遇到的困難。

前兩個問題可能是由于 CLIP 嵌入屬性。

可能會出現屬性綁定問題,因為 CLIP 嵌入本身并沒有將屬性顯式綁定到對象,因此解碼器在生成圖像時會混淆屬性和對象。

圖片

另一組針對難綁定問題的重構,來自原文。

文本生成問題可能是因為 CLIP 嵌入沒有精確編碼渲染文本的拼寫信息。

由于解碼器層次結構以 64×64 的基本分辨率生成圖像然后對其進行上采樣,可能會出現低細節問題。因此,使用更高的基本分辨率,問題可能會消失(以額外的訓練和推理計算為代價)。

我們已經看到了 OpenAI 基于文本的圖像生成模型的演變。也有其他公司在這個領域展開工作。

圖片

DALL·E 2(或 unCLIP)是對系統的第一個版本 DALL·E 1 的巨大改進,僅用了一年時間。不過,它還有很大的提升空間。

遺憾的是,這些強大而有趣的模型一直未開源。作者希望看到更多這樣的模型被發布或至少通過 API 提供。否則,所有這些成果都只能適用于一些非常有限的受眾。

不可否認,此類模型可能存在誤差,有時會產生不正確類型的內容,或被惡意代理使用。作者呼吁人們有必要討論如何處理這些問題。這些模型有無數潛在的良好用途,但未能解決上述問題阻礙了這些探索。

作者希望 DALL·E 2(或其他類似模型)能很快通過開放的 API 來使得所有人都可以使用。 ?

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-10-26 07:21:15

網絡視頻開發

2025-02-08 10:29:03

2015-08-12 15:12:56

黑客攻擊云安全云服務

2012-06-27 09:11:47

2012-06-26 10:13:55

2011-04-01 11:16:06

hessian

2021-02-03 13:22:53

區塊鏈數據隱私

2019-09-18 17:35:52

2020-12-03 10:17:25

Kubernetes架構微服務

2015-09-17 09:36:46

Chrome改變

2018-06-21 06:56:03

CASB云安全加密

2019-11-15 10:16:19

HTTP瀏覽器網絡

2020-10-13 06:56:19

JavaScript異常類型開發

2022-01-04 19:28:05

VMware云端虛擬化

2016-11-01 16:41:08

直通網線連接端口傳輸數據

2020-08-03 12:47:58

DevOps數據科學家代碼

2023-03-02 11:52:00

自定義自動配置

2022-03-18 12:46:56

Go 語言編程語言

2022-10-17 08:00:00

機器學習數據驅動數據科學

2021-03-15 12:00:19

Kubernetes微服務架構
點贊
收藏

51CTO技術棧公眾號

精品人在线二区三区| 全国男人的天堂网| 成人福利片网站| 久久九九热re6这里有精品 | 欧美一区二区三区婷婷| 丁香一区二区三区| 久久精品国产亚洲一区二区| 国产一区二区网| 国产日韩免费视频| 成人高清av| 午夜精品成人在线视频| 91pron在线| 国产精品一区二区a| 99精品在线免费视频| 伊人久久综合视频| h片在线观看下载| 国产精品视区| 精品精品国产高清一毛片一天堂| 欧美成人xxxxx| 午夜影院免费视频| 韩日精品在线| 欧美电影免费提供在线观看| 中文字幕在线中文| 国产情侣av在线| 欧美一级视频| 亚洲视频欧洲视频| 熟妇人妻va精品中文字幕| 西西人体44www大胆无码| 精品一区二区影视| 精品国模在线视频| 久久久久无码精品国产sm果冻 | 国产男女无遮挡猛进猛出| 国产黄在线观看| 日本亚洲免费观看| 欲色天天网综合久久| 黄色国产小视频| av国产在线观看| 美女视频一区二区| 久久久电影免费观看完整版| 国产伦理片在线观看| 国产精品中文字幕制服诱惑| 精品欧美aⅴ在线网站| 麻豆av福利av久久av| 麻豆成人免费视频| 国产一区二区三区四区| 欧美日韩精品一区二区三区蜜桃 | 欧美精品91| 精品国产一二三区| 久久精品一区二| av老司机免费在线| 亚洲成人激情av| 欧美亚洲免费高清在线观看 | 日本不卡中文字幕| 日本一区二区三区四区视频| 在线免费观看视频| 欧美日韩亚洲在线观看| 在线播放/欧美激情| av女优在线播放| 黄色小视频在线观看| 国产综合色视频| 97视频在线观看免费| aaaaa一级片| 色综合视频一区二区三区44| 欧美日韩1234| 三级性生活视频| 久草在线资源站手机版| 中文字幕av不卡| 国产精品二区二区三区| 国产又粗又猛又爽又| 永久亚洲成a人片777777| 日韩成人在线观看| 欧美一级视频在线| 精品国产一级| 色系网站成人免费| 一二三四中文字幕| 新版中文在线官网| 中文字幕av在线一区二区三区| 日本在线观看一区二区| 亚洲爆乳无码一区二区三区| 日本午夜一本久久久综合| 国产日韩中文在线| 日本天堂网在线| 欧美aa国产视频| 色999日韩欧美国产| 亚洲av成人无码一二三在线观看| 日韩一级视频| 精品日韩在线一区| 亚洲av无码一区二区三区人| 果冻天美麻豆一区二区国产| 国产视频在线一区二区| 国产农村妇女精品久久| 草莓视频成人appios| 午夜不卡av在线| 久久综合久久色| 国产亚洲高清在线观看| 欧美吞精做爰啪啪高潮| 国产精品久久中文字幕| 成人自拍av| 欧美网站在线观看| 久久国产精品视频在线观看| 日韩av首页| 在线一区二区三区四区| 成年人视频网站免费观看| sm久久捆绑调教精品一区| 欧美中文字幕一区二区三区亚洲| 一起草最新网址| 97成人超碰| 欧美三级蜜桃2在线观看| 免费国产成人av| 日韩精品一区二区三区中文在线| 欧美精三区欧美精三区| 最新国产黄色网址| 男女啪啪999亚洲精品| 在线观看一区不卡| 极品白嫩的小少妇| 99精品国产一区二区三区2021| 欧美一区二区视频在线观看2020| 毛片毛片毛片毛| 日日天天久久| 一本色道久久88精品综合| 美国黄色小视频| 欧美精品自拍| 国产欧美一区二区三区久久| 日本不卡免费播放| 久久综合狠狠综合久久激情 | 精品国产va久久久久久久| 激情综合色丁香一区二区| 成人欧美在线视频| 亚洲国产精品久久久久久久| 国产精品国产三级国产专播品爱网 | 久久精品一本久久99精品| 国产视频1区2区| 99国产一区二区三精品乱码| 国产精品一 二 三| 国产精品久久久久久福利| 日韩毛片一二三区| 影音先锋成人资源网站| 欧美高清影院| 丝袜情趣国产精品| 在线观看免费观看在线| 国产一区二区中文字幕| 亚洲图片欧洲图片日韩av| 久久77777| 欧美日韩黄色影视| 国产精品无码无卡无需播放器| 天天做天天爱综合| 欧美激情一级欧美精品| 日产欧产va高清| 国产农村妇女精品一二区| 国产日韩欧美二区| 第一页在线观看| 在线观看91精品国产入口| 级毛片内射视频| 青青青爽久久午夜综合久久午夜| 日韩理论片在线观看| 欧美大胆性生话| 伊人久久大香线蕉av一区二区| 波多野结衣电车痴汉| 国产女人18水真多18精品一级做 | 97av自拍| 国产精品探花在线| 欧美三级欧美一级| 登山的目的在线| 亚洲日本国产| 91精品久久久久久久| 老司机精品影院| 日韩欧美不卡在线观看视频| 久久久91视频| 99视频一区| 日韩一区二区视频在线| 日本午夜一区| 伊人一区二区三区久久精品| 免费污污视频在线观看| 中文一区二区在线观看| 色噜噜狠狠一区二区三区狼国成人| 性xxxx欧美老肥妇牲乱| 2019日本中文字幕| 国产男人搡女人免费视频| 福利一区二区在线| 亚洲毛片aa| 中文字幕一区久| 日韩一级黄色大片| 大胸美女被爆操| 国产一区二区三区香蕉| 蜜臀av色欲a片无码精品一区| 成人免费一区| 欧美剧在线观看| 中文字幕av免费观看| 99精品视频在线观看| 国产一区亚洲二区三区| 99热国内精品| 国产精品一区二区三区四区五区 | jizz在线免费观看| 五月激情综合网| 中文字幕亚洲日本| 性欧美videos另类喷潮| www.亚洲一区二区| 国产精品天堂蜜av在线播放| 欧美精品免费播放| 国产伦一区二区| 亚洲444eee在线观看| 无码人中文字幕| 久久精品免费看| 五码日韩精品一区二区三区视频| 日韩av影片| 久久久精品在线观看| 日韩在线免费看| 日韩一级大片在线观看| 亚洲黄网在线观看| 久久老女人爱爱| 麻豆精品国产传媒| 日本大胆欧美人术艺术动态| 国产女主播自拍| 久久伦理在线| 成人亚洲欧美一区二区三区| 秋霞伦理一区| 欧美尺度大的性做爰视频| 久久久久久青草| 91福利精品第一导航| 国精品无码人妻一区二区三区| 九九久久精品视频| 久久久久国产精品熟女影院| 亚洲黄页一区| 免费的一级黄色片| 久久午夜影院| 91久久精品www人人做人人爽| 日本欧美日韩| 91tv亚洲精品香蕉国产一区7ujn| 亚洲区欧洲区| 北条麻妃久久精品| 99er热精品视频| 欧美在线一二三| 亚洲天堂男人av| 婷婷综合在线观看| 国产一级片视频| 91美女片黄在线| 激情综合网俺也去| 亚洲欧美日韩在线观看a三区| 国产在线xxxx| 国产精品免费大片| 国内精品**久久毛片app| 97青娱国产盛宴精品视频| 99国产高清| 欧美少妇网站| 久久久噜噜噜久噜久久| 五月天婷婷在线播放| 欧美成人vps| 亚洲大尺度网站| 精品久久人人做人人爱| 黄色片网站免费在线观看| 日韩欧美在线视频观看| 国产原创视频在线| 日韩欧美在线视频免费观看| 五月婷婷亚洲综合| 日韩欧美在线网址| 国产伦精品一区二区三区视频网站| 欧美性xxxx在线播放| 亚洲久久在线观看| 欧美性videos高清精品| 国产无遮挡呻吟娇喘视频| 色婷婷香蕉在线一区二区| 国产suv精品一区二区33| 欧美中文字幕一区二区三区 | 日韩精品一区二区三区色偷偷 | 中文字幕成人精品久久不卡| 国产精品永久久久久久久久久| 一区二区国产视频| 97超碰在线资源| 激情综合网最新| 自拍偷拍激情视频| av电影一区二区| 在线视频观看91| 国产精品一区二区久久不卡| 99视频在线免费| 久久机这里只有精品| 日韩成人精品视频在线观看| 国产精品 日产精品 欧美精品| 日本熟妇人妻中出| 久草热8精品视频在线观看| 日韩久久久久久久久久久| 成人动漫在线一区| 国产999免费视频| 不卡视频在线观看| av男人的天堂av| 亚洲欧美日韩国产成人精品影院| 91视频免费观看网站| 国产精品免费av| 亚洲精品国产熟女久久久| 国产精品超碰97尤物18| 久久久无码精品亚洲国产| 色综合久久88色综合天天 | 精品福利一区二区三区| 酒色婷婷桃色成人免费av网| 久久影院模特热| 在线视频91p| 欧美激情免费看| 成人在线直播| 国产91成人video| 国产精品一区二区精品视频观看| 好吊色欧美一区二区三区视频 | 日韩视频在线永久播放| 水莓100在线视频| 欧美v日韩v国产v| 国产午夜在线观看| 欧美疯狂xxxx大交乱88av| 三上悠亚亚洲一区| 国产精品v欧美精品∨日韩| 精品国产不卡| 国产精品无码一区二区在线| 久久成人久久鬼色| 丰满圆润老女人hd| 亚洲一级二级在线| 国产一级二级毛片| 欧美美女激情18p| 国产在线视频网站| 亚洲**2019国产| 久久av网站| 亚洲欧洲一区二区福利| 另类图片国产| 啊啊啊国产视频| 美女一区二区三区| 巨胸大乳www视频免费观看| 一区二区三区成人| 国产乱淫av片免费| 亚洲色图综合网| 欧美男男激情videos| 国产二区一区| 欧美在线网站| 午夜免费福利网站| 一区精品在线播放| 亚洲天堂视频在线播放| 亚洲人成亚洲人成在线观看| 91桃色在线| 国产精品jizz视频| 合欧美一区二区三区| 杨幂一区二区国产精品| 18成人在线视频| 91亚洲国产成人精品一区| 日韩一区二区免费电影| 日本黄色片在线观看| 久久精品视频播放| 国产精品第一| 亚洲成人网上| 美女脱光内衣内裤视频久久影院| www..com.cn蕾丝视频在线观看免费版 | 日韩视频一区二区在线观看| 黄黄的网站在线观看| 成人亚洲欧美一区二区三区| 羞羞答答成人影院www| 最新国产黄色网址| 亚洲色图另类专区| 国产亚洲欧美久久久久| 日韩欧美视频一区| 黄页网站大全在线免费观看| 国产成人精品福利一区二区三区| 亚洲激情成人| 蜜桃传媒一区二区亚洲av| 一本到高清视频免费精品| 国产精品麻豆一区二区三区| 国产精品日韩欧美大师| 在线综合色站| 亚洲春色综合另类校园电影| 免费观看久久久4p| 三级黄色录像视频| 欧美一二三区精品| h片精品在线观看| 久久另类ts人妖一区二区| 亚洲欧美综合久久久| 色哟哟在线观看视频| 天天操天天干天天综合网| 欧美新色视频| 91精品久久久久久久久久| 国内精品嫩模av私拍在线观看| 艳妇乳肉豪妇荡乳xxx| 亚洲欧美日韩在线播放| 亚洲精品久久久久avwww潮水| 91国在线精品国内播放| 国产一区二区三区电影在线观看| 亚洲理论中文字幕| 亚洲va在线va天堂| 成人高清免费观看mv| 96精品久久久久中文字幕| 成人av动漫在线观看| 国产黑丝在线视频| 欧美日韩激情网| 免费a级人成a大片在线观看| 国产精品igao视频| 亚洲资源网你懂的| 日本在线xxx| 国产精品毛片无遮挡高清| 精品久久久久成人码免费动漫| 午夜伦理精品一区| 久久香蕉国产| 亚洲一级av无码毛片精品| 欧美性猛交xxxx乱大交退制版| 99热国产在线| y111111国产精品久久婷婷| 久久国产精品毛片| 草视频在线观看| 亚洲小视频在线|