精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

超越Midjourney？基于語境學習訓練圖像擴散模型【前沿】

作者：陳文虎 2023-11-17 08:46:26

本文將分享如何處理基于語境學習的圖像生成問題。我將介紹如何避免上述問題，即在不進行微調的情況下，仍然能夠實現生成模型的個性化。

一、背景知識——文本圖像生成的現狀

先介紹一下背景知識。大家對于文本-圖像的生成模型應該已經相當熟悉了，諸如"imagen"、"stable diffusion"、"dalle2"以及"midjourney"等一系列模型已經取得了很好的成績與顯著進展。這些模型在很大程度上能夠生成與給定文本高度契合的圖像，很多時候這些生成出的圖像充滿了想象力。它們所創造的圖像通常難以在網絡上找到。比方說下面這張圖片：

兩個機器人在巴黎鐵塔前舉杯慶祝，這樣的場景在網絡上并不容易獲取，只有通過生成模型才能創造出來。

然而，盡管這些模型表現出色，但它們目前還面臨一個問題，即它們主要依賴于文本作為唯一的可控制信號。然而，文本在某些情況下并不能完全滿足需求，尤其是在描述某些細節方面存在局限性，比如物體的位置、角度和姿態等，這些方面難以用自然語言精確描述。

另外，有些情況下生成個體或者場景，雖然可以使用自然語言進行描述，但結果并不總是精確的。如果需要生成指定場景或物體時，諸如“我家的狗”或者“我自己的書包”之類的情況，目前的模型還很難勝任，因為它們只能依賴文本作為唯一的控制信號。因此，這里涌現出一個非常有趣的研究領域，即生成模型的個性化，其關注點主要在于如何使生成模型創造出更具個性化特點的內容。其中，一篇備受矚目的論文叫做"Dream Booth"，其核心思想是，假設你有一個特定的主體對象，比如一只狗，你可以提供幾個示例，然后嘗試讓圖像生成模型在不同場景和狀態下生成這只狗的圖像。

這意味著你可以在不同的背景和情境中生成個性化的圖像，比如上圖中根據左邊的狗的圖片生成右邊這只狗在特定場景中的圖片，或者其他類似的情況。賦予模型在生成過程中更強的可控性,這是一件很有趣的事情。本次分享探討的主題就是如何進一步增強個性化生成的可能性。

然而，值得注意的是，盡管"Dream Booth"取得了不錯的效果，但它并非一種萬能的解決方案。其方法相當簡潔，見下圖：

它的基本思路為：假設有一個指定的物品，對其進行多次拍攝，通常是3到5張照片，然后用"stable diffusion"等模型進行梯度下降的微調，這個微調過程可以持續一千步左右，最后保存微調后的模型。通過微調，模型會對指定的物品有所了解，因此在生成與這個物品相關的其他場景圖像時，效果會相當好。在微調過程中，模型通過梯度下降等方式逐漸適應了指定物品的特征，這是其表現出色的原因之一。

另外，還存在另一種方法Textual Inversion，與"Dream Booth"非常相似，但稍有不同。

這個方法不需要對整個模型進行微調，而是針對一個專門的嵌入向量（embedding）進行調整。首先為指定的物體設計一個特殊的嵌入，然后將模型其他參數固定，只調整這個特殊嵌入，這個特殊的嵌入能學習到如何表示主體物品。最后在生成圖像時，你可以使用調整后的embedding來指導生成過程。

嵌入（embedding）就好比是一個適配器（adapter），可以使生成的內容帶有特定主體的特征。實際上，這是一種parameter efficient tuning的方法，盡管仍然需要微調，但相比之下，內存需求降低了很多。然而，這個方法也有一個不足之處，就是其效果明顯不如"Dream Booth"，這是因為調整的參數較少，導致生成效果受限。目前來看，這兩種模型都存在一些致命問題，即微調過程非常耗時，而且需要大量的GPU內存。另外一個問題是，每個主體都需要進行微調，并保存其檢查點。如果使用"stable diffusion"等模型，一次微調需要保存大約10GB大小的檢查點，若有100個主題，那么所需的存儲空間將超過1TB。這種情況下，模型的擴展性會受到極大的影響。

這些方法的共同點在于，它們都試圖在模型中引入關于指定物體的特定信息，從而使模型在生成相關圖像時更加準確。無論是通過微調整個模型還是調整特殊嵌入，都是為了增強模型在特定個體生成方面的表現能力。

二、動機——為何需要語境學習的圖像生成模型

在本次演講中，我將介紹如何避免上述問題，即在不進行微調的情況下，仍然能夠實現生成模型的個性化。這主要依賴于我的兩篇論文，其中一篇《Subject-driven Text-to-Image Generation via Apprenticeship Learning》，目前仍在等待編輯處理（ARCHIVE）中，另一篇是已經收錄在ICLR 2023的一篇論文《Re-Imagen: Retrieval-Augmented Text-to-Image Generator》。

現在，讓我們來初步探討一下我們的目標。在語境學習方面，大家都比較熟悉了。自然語言處理的大型模型主要采用的就是語境學習方法，也就是所謂的"in-context learning"。其優點在于，你無需為不同的任務構建不同的模型，而只需使用一個模型，并通過不斷的提示（prompt）或者在上下文中進行示例，讓模型學習如何根據示例來進行泛化，從而解決未見過的任務。這樣的學習方式可以實現零樣本學習，對于自然語言處理中的大模型（如GPT系列），這種語境學習非常成功，它不需要任何梯度下降等訓練方法，就能夠解決許多具體的問題，這反映出了未來一個大的趨勢。

假如我們能在個性化圖片生成領域使用語境學習，那就會非常有益。例如，如果我們提供一些關于某個小狗的示例圖片，將這些示例圖片輸入給一個新的擴散模型，再輸入一個文本，文本指定這只狗在新環境中的動作，那么這個擴散模型就可以生成出這只狗在新環境下的圖像。

這種方法會避免微調模型，同時也不需要存儲各個主題下的擴散模型副本，只需一個模型即可，且推理時間也會比之前更快，至少提速了十倍以上。

但是，如何實現這種理想情況呢？我們需要探索圖片生成模型和自然語言生成模型之間的區別。自然語言模型中的語境學習源自預訓練，通過大量自然語句（由一個個連續的token組成），根據當前tokens讓模型預測句子中下一個token的機制來實現。這樣大型語言模型能夠自動獲取上下文學習能力，這似乎是一種非常神奇的現象。雖然有不少研究在討論這一現象，但為何模型在預訓練后會自動具備這種能力仍然不太清楚。然而對于圖像生成模型而言，目前并沒有類似的能力。其預訓練過程只關注單個文本和圖像的配對學習，沒有多個連續的圖像文本作為輸入，因此缺乏上下文信息。在這樣的預訓練下，圖像生成模型無法實現語境學習能力。

要想訓練一個具備這種語境學習能力的擴散模型，就需要進行一些改進。首先，網絡架構需要進行調整，因為現有的網絡結構僅能夠接受文本作為控制信號。而現在，我們還有其他的演示和上下文示例，我們需要想辦法將它們輸入到網絡結構中，這需要一些新的網絡架構設計。

其次，訓練數據也需要調整，就像文本一樣，需要多個連續相似的圖文示例，這樣模型才能獲得上下文學習的能力。因此，我們需要在數據方面進行改進。接下來，我們將探討如何設計這個新的網絡架構。

三、設計——如何讓現有的模型能夠做語境學習

1、設計-網絡架構

標準的文本圖像生成模型架構通常由UNet組成,如上圖所示。該UNet首先對一個加入噪聲的圖像進行卷積和下采樣，直至獲得較小的特征圖，然后再進行上采樣，加上其他的一些卷積操作，最終將特征圖恢復到與輸入圖像相同大小的空間。這兩個步驟主要是在模擬去噪的過程。

這個UNet與通常的UNet有所不同，它加入了注意力機制，用于捕獲文本控制信號，然后利用文本信息引導到擴散過程。在這個過程中，我們要考慮如何將圖文示例加入到這個UNet中。

實際上，這是非常簡單的，你可以看到，UNet實際上具有編碼器（encoder）的功能。它左邊部分通過下采樣將大圖像壓縮成特征圖，可以將其視為編碼器。右邊部分可以看作解碼器（decoder），該編碼器可以將圖像和相關文本編碼為特征圖。因此，我們可以將圖文示例，通過相同的方法，僅使用這個下采樣的編碼器（encoder）來壓縮到特征圖中。

當有多個圖像和文本對時，可以分別進行處理，然后將多個特征圖連接起來，這樣就可以得到neighbor（指某些同一主題的圖文對示例組成的一個類，類中的圖文因為主題一致，在主題上相互之間可認為具有相鄰的關系，有點類似鄰域的意思。）的表示。

這樣做的好處是，你在復用UNet編碼器時，可以將這些信息投影到相同的特征空間中。這樣模型更容易關注這些信息。因此，最終的網絡架構類似于下圖這樣。

將圖像去噪為之前的圖像，之前只是用文本進行控制，現在我們做的是，為它增加了一些上下文示例。只需復用UNet編碼器對示例進行編碼獲得特征圖，注意力機制不僅僅會關注文本，還會關注新的上下文示例的特征。

因此，我們所做的實際上非常簡單，只是在網絡中添加了一個額外的注意力層，讓它能夠關注其他控制信號，比如用來參考的圖像和文本示例，這就是我們的新架構。然而，目前我們還無法訓練這個網絡，因為我們沒有關于某個主題或者主體的多個圖像和文本對數據。

因此，接下來我們要考慮的是如何獲取這種新的訓練數據。

2、設計-訓練數據

理想情況下，圖像和文本的上下文學習（ICL）數據應該具有相似的結構。每個數據對應由文本和圖像構成，例如TEXT1-IMAGE1、TEXT2-IMAGE2、......、TEXTN-IMAGEN等，其中這些圖文對都有一定的相似性，比如說他們都描述了一樣的主體，或者說他們能描述了一樣的風格，把它們放在一起，其中一些作為示例，然后生成新的這個關于這個主體的圖片。這樣訓練的模型在生成圖片時，會自動參考輸入的示例。

所以我們需要一堆由TEXTN-IMAGEN組成的聚類圖片。每個類保證它其中的所有圖片是關于某一個主體的，或者他們都有一個專門的主題。但目前google內部不存在這么理想的數據。從網上爬下來的數據都是獨立的圖文對數據，他們是沒有按主體、主題歸類的。給他們歸類也是一件非常困難的事，基于clip的一些策略可以做，但是效果非常差。

最終，我們的工作涉及以下幾個方面，我們重新爬取圖像文本配對數據，根據URL將這些圖像和文本進行聚類。我們假設源自同一網頁的圖像和文本具有較強的相關性，尤其是電商網站上這種情況會很明顯。例如在同一網頁上銷售的鞋子是在不同場景下拍攝的，我們認為這種資源非常有價值。然而也存在一些特殊情況，比如一個網頁中可能包含各種雜亂無章的圖像，它們之間毫無相似之處。在這種情況下，相關性較差，那應該如何處理？為了解決這個問題，我們實施了一些過濾措施。我們通過計算不同圖像組內圖像之間的CLIP分數進行過濾和篩選，以此來評估圖像之間的相似度。

隨后，若圖像對應的CLIP分數低于特定閾值，我們將排除那些具有較低相似性的圖像文本聚類，不過，需要指出的是，我們的過濾措施相當嚴格。盡管如此，由于我們的數據集規模龐大，即便在過濾掉90%的內容之后，仍然保留了數十兆級別的可用數據。

另外，我們還注意到從網絡上爬取的圖像文本配對，其組類中文本的噪聲較大，難以有效反映不同聚類中圖像的共性特征。有時候，這些文本內容可能非常雜亂，與圖像關聯性較弱。為了克服這一問題，我們采用了Google的預訓練語言模型為這些圖像重新生成描述文本，利用Palm等方法對這些描述進行進一步的清理，使得生成的描述更加與圖像內容相符。

下面通過范例來說明，這是我們自動構建的圖像數據集（ICL數據集）的兩個樣例。

范例中展示了圖像聚類示例，每個示例中的不同圖片有不同的文本標簽，這些圖像和文本標簽是由Palm生成的。從第一個example中可以看到不同場景下同一個壺的樣子，圖片底下的文本是它們的標簽。第二個 example的主體是一只狐貍，它們有不同的標簽。需要注意的是，這個示例僅用于展示，實際數據中的噪聲要比示例中高得多，這里只是為了給大家一個大致的印象。

在獲取了這些圖像之后，我們最初嘗試了一種簡單的方法，使用前兩個圖像作為樣本，然后讓模型生成第三個圖像。然而，實驗證明這種方法的效果非常差，模型在訓練完成后往往會陷入簡單的復制粘貼模式，無視輸入文本內容，直接復制一個樣本作為輸出。主要原因在于我們構建的圖像文本群組中的圖像和文本過于相似，導致模型傾向于執行無創新性的復制操作。在大部分情況下，模型認為這些圖像之間幾乎沒有區別，因此將一個圖像直接復制到另一個圖像的位置。針對這一問題，我們進行了長時間的思考，希望找到方法來避免模型陷入這種局部最優狀態。然而，我們發現很難找到一種非常直觀的方法來解決這個問題。

首先，我們需要考慮如何確保所生成的目標圖像以及相關聯的其他示例具有足夠的差異性。這意味著無論是圖像還是文本，它們在特征上都應該具有顯著的差異。以上圖中第一個和第三個壺為例，它們之間存在相當大的相似性。然而，如果其中一個圖像呈現了明顯的差異，比如一個人端著一個物體的場景，這種情況下模型將被迫根據文本標簽來生成這種差異，這種數據在實際爬取過程中非常難以獲取。因此，為了解決這一問題，我們采用了合成的方法。

具體而言，我們首先從這些聚類中提取文本，并使用大語言模型生成出不同場景下的文本描述，例如“a man holding a teapot”。接著，我們使用Dream Booth生成這些目標圖像，盡管Dream Booth的使用會有較高的代價，不適用于最終模型，但它作為一種生成數據的手段非常有效。

我們的方法包括以下步驟：首先從這些聚類中選擇文本描述，然后利用大型語言模型生成新的文本描述，接著在這個類上訓練Dream Booth，通過訓練好的Dream Booth生成這些新的目標圖像。需要指出的是，盡管Dream Booth在生成圖像方面非常出色，但仍存在很多失敗案例。因此，在生成了大量的Dream Booth圖像后，進行了大量的過濾，包括一些啟發式的過濾和基于CLIP分數的過濾。最終，我們僅保留了約20-30％的生成圖像，其余被認為質量不夠高而被丟棄。在經過一系列處理后，我們最終得到了包含幾十萬個聚類數據的數據集，這為后續模型的訓練提供了數據基礎。

進一步的訓練流程如下所示：

首先上圖展示了一個樣本，左邊是示例，右邊是目標圖。訓練過程如下圖：

總的來說流程如下，通過復用圖中的encoder，將多個示例通過encoder編碼得到特征圖，然后將特征圖（feature map）聯合起來（concatenate），目標圖片在右邊做為去噪的目標。首先對目標圖片加噪，接下來將目標圖像作為去噪目標，添加噪聲后使用同一解碼器進行去噪操作。此外，我們還引入了目標圖像的文本描述以增強模型的控制性，這在圖中未畫出來。

我們將這個模型稱為"SuTI"，即"Subject-Driven Text to Image Generation"。此訓練所采用的數據集為ICL V2數據集，它是由Dream Booth生成的數據，需要注意的是，盡管輸入的示例是現實的圖片，但輸出的目標是通過精心設計來生成出來的圖片，這樣可以提高訓練的可控性。在訓練SuTI模型時，盡管我們擁有約500K個訓練數據，但發現模型訓練過程并不需要很長時間，大約一天的時間模型便能夠在約幾十萬步迭代之后達到相當高的水平。

四、結果和展望

在模型的訓練過程中，我們采取了一種方法，將三個示例作為neighbor，提供給圖像生成模型。通過這種方式，模型能夠通過注意機制關注這三個示例，從中獲得關于主體外觀的信息，最終生成目標圖像。在訓練SuTI模型后，我們觀察到該模型具備幾種技能。首先是風格化技能，允許我們將不同的藝術風格應用于某個主體、將主體其放置在不同的環境中，甚至可以為主體賦予不同的動作。我們還可以從不同的視角觀察主體，并對其進行一些屬性變化，例如顏色等，還可以為主體添加各種配件和服飾。我們的實驗參數如下：

模型輸出示例如下所示：

例如，我們的輸入的圖片主體是一個鴨子玩具，我們試圖在生成階段中使用文本指定要生成的主體風格，如使用Picasso、Rembrandt的藝術風格。我們的模型能夠生成出具有不同藝術風格的圖像，對于藝術不甚了解的我來說，畫得似乎相當不錯，例如小黃鴨融合了梵高的"星空"風格以及其他一些細節。再比如圖中的狗，模型可以生產各種方向的視圖，如從上看、從邊上看、從后看的視圖，這些都在模型輸出中得到了體現。生成的速度非?？?，大概 20 到 30 秒鐘就可以讓它生成出來。

此外，模型也能夠處理主體的情感，例如我們可以使狗變得沮喪、高興、瞌睡等。另一方面，我們也能夠改變主體的一些屬性，例如將其顏色更改為藍色、綠色、紫色、粉色等。

我們還嘗試增加配飾，例如給狗穿上廚師服、警察服、護士服等，這些生成的圖像在模型的控制下表現出高度的逼真性和合理性。

此外，我們的研究還涉及大量的人類評估，我們為此編寫了220個獨特的提示，針對30個不同的主體進行測試。

首先我們要評估模型在圖文指導下生成的圖像與給定主體對齊程度。主體對齊指的是生成圖像中的主體與原始主體的相似程度。我們將這種對齊度量表達為一個分數，根據評價者對圖像的相似性進行評分，從0表示不相似到10表示完全相似。最終，我們計算這些分數的平均值，以獲取主體對齊的度量。

第二個評分指標，即生成結果對文本標簽的忠實程度，如圖21中生成的小狗對于描述中的 "chef outfit" 或 "police outfit" 等內容是否完整準確地體現。它是否可能忽略文本內容，而僅僅將狗的圖像直接復制粘貼。

此外，第三個評分指標在于圖像的真實性。是否存在任何偽造痕跡（ARTIFACT）等現象。

在我們的評估系統中這些生成的圖像都呈現出相對真實的特征。我們在整個基準數據集上，將上述不同的評分指標進行匯總。通過計算不同樣本在這些指標上的平均分數，我們可以獲得一個總體的百分比得分。這些評分考慮了許多基線模型，包括Textual inversion、Null-Text Inversion、Imagic、Dream Booth、Stable Diffusion和Re-Imagen、InstructPix2Pix方面的表現。美元符號表示有些模型在微調時需要占用空間、時間。Imagic需要70mins才能做完一個主題的適配，但是對我們的模型只需要30s。盡管我們的模型在速度方面可能不及 "Instruct Pix2 Pix"那般迅捷，但其效果明顯優于后者。例如，在主題方面，我們的模型已經超越了 "dream Boost"，且在文本對齊方面表現更為優異。我們的模型在 90% 的情況下能夠與文本完美地結合。同時，我們的模型生成的圖像在視覺逼真性方面達到 92%，幾乎沒有PS痕跡。然而，"Dream Booth" 在這一層面上表現更佳，約有 98% 的情況下不存在任何偽造痕跡，圖像相當真實。相較于 "Textual Inversion"，我們的模型稍勝一籌。

這三個方面分別考慮后，我們對其進行了綜合評分，類似于一個整體評價分數。若圖像在這三個方面都取得滿分，也就是得分為一。最終，我們計算了平均分數，以獲得最后的綜合評價。值得一提的是，從整體評分上看，我們的?！癝uTI”目前在市場上表現最為出色。與 "Dream Booth"相比，我們的模型高出7個百分點。與其他模型相比，優勢更為明顯，接近 40% 以上。

綜上所述，我們的模型顯示出了出色的性能，在谷歌內部也引起很多關注。

然而，正如之前所述，盡管我們在個性化生成上取得了顯著的進展，但我們的圖像逼真度（photorealism）仍未達到最佳狀態。當前，我們的逼真度評分為92%。仔細觀察這些圖像，你會發現它們在某些程度上仍存在失真現象。例如，在某些狗的圖像與背景結合的情況下，與真實原圖相比，仍存在一些差距。相比之下，與"Dream Booth"相比，我們的模型在自然性方面稍遜一籌。這種情況反應出了我們模型的局限性，特別是在處理人臉和文字細節表達方面，效果相對較差。

目前我們的主要目標是將該模型擴展至更大規模以解決上述問題。此外，我們計劃在SuTI技能中增加更多功能。盡管我們目前已經具備五項技能，如樣式化（stylization）、重上下文化（recontextualization）等，但我們希望能夠進一步添加一些技能，例如將姿態（pose）內容整合進去，添加邊界框等，類似于Control Net。甚至，我們計劃引入一些具備組合能力的技能，使圖像能夠在變換風格的同時，將其置于新的場景中，當前模型尚無法實現此類復雜任務。我們致力于不斷提升模型性能，通過擴大數據集和模型規模，使其具備更多的技能。我們的目標是將各種控制信號加入模型中。最終，我們希望將整個系統構建為一種指令微調（instruction tuning）的格式。值得注意的是，由于之前模型存在版權問題，我們已經進行了重新訓練，目前已基本完成。在7月份，我們計劃將該模型發布到Google Cloud，與大家分享。您可以在Vertex AI平臺上找到該模型，類似于"Palm 2"。只要注冊到Google Cloud，就可以體驗我們的模型。基本的生成操作是免費的，只有在超出一定使用量后才會收取費用。

五、問答環節

Q1：非常感謝陳文虎老師的分享，內容非常有趣。現在進入問答環節，我注意到評論區已經有一些問題了。第一個問題是，根據訓練數據，我們只能獲得圖像和文本的對齊，為什么在應用時我們可以獲得風格、角度等屬性的增強？

A1：在我們的訓練數據中，實際上也包含了這些風格等屬性。例如，對于TEAPOT這樣的提示語，可能會是“生成畢加索風格的TEAPOT圖像”。然后通過"Dream Booth"，它可以生成具有畢加索風格的TEAPOT圖像，這只是一個示例。此外，在構建提示時，我們使用了大型語言模型，它生成的提示非常多樣化，涵蓋了各種屬性，如風格、視角等。比如，提示可能包含特定的風格、特定視角，如從下方視角看的TEAPOT。而"Dream Boost"生成的圖像在成功的情況下，會呈現從底部視角看的TEAPOT，這是其有效性的原因。

Q2：所以，我們的訓練數據實際上已經包含了這些圖文對和生成序列。

A2：是的，訓練數據已經相當豐富，已經包含了這些所謂的技能。

Q3：那么，如果我們增加這些數據集，是否可以進一步提升模型性能？

A3：是的，您說得對。我認為，這個框架的優點之一是它沒有任何限制，不必局限于特定的技能集。只要有一種方法可以將新的技能集打包成輸入輸出的形式，我們就可以使用相同的訓練方法對模型進行訓練。

Q4：好的，接下來是第二個問題，就是關于SuTI的技能點如何與具體的網絡結構設計相對應。

A4：我認為我剛才已經在回答這個問題了。我們的網絡結構可以看作是一個注意力機制，它根據輸入的指令和輸出來自適應地進行調整。不同的技能通過輸入輸出的方式傳遞給模型，然后模型自己進行泛化。這可以類比為一種指令調整的感覺，你提供不同的指令，就會得到不同的輸出。網絡結構本身并沒有太多變化，它僅僅是一個正常的擴散模型。

Q5：事實上，我認為更好的方法是技能實際上是由數據來定義的，而不需要在結構上進行特殊處理。

A5：對，技能就是這樣的，實際上這個網絡結構可以被視為是一個很廣義的注意力機制。不同的技能被打包成輸入輸出格式，并提供給模型，然后模型就可以進行相應處理。當然，這個問題會在后面進一步討論，對吧？目前這五個技能不需要對網絡結構進行特殊的調整。但是對于我們新增加的一些技能，可能需要進行結構上的調整。比如說，如果要為人物提供一些關鍵點（key point）或面部網格（face mesh），這些新的控制信號需要用新的編碼器進行編碼，不能再使用之前Unet的下采樣層。因為在這種情況下，我們的網絡假設你輸入的控制信號是一張正常的圖像，但是如果存在其他信號，如坐標等，那么網絡架構可能需要進行重新調整，添加新的注意力機制以處理這些新的控制信號。

Q6：是的，這實際上也解答了我想問的問題。確實，如果將其與Control Net等工作結合，可能會產生更多有趣的結果。

A6：事實上，我們當前的模型版本已經能夠與Control Net結合。盡管在這篇論文中還沒有詳細描述，但例如，對于一些小黃鴨這樣的對象，它們可能只有一種姿勢，與控制相關可能不太有意義。然而，對于一只狗這樣的對象，由于它可能有多種姿勢，我們可以繪制出類似于在空中的軀干形狀，然后我們的模型可以將主體與這個軀干連接起來，從而呈現出特定的姿勢。

Q7：好的，還有最后一分鐘。接下來我提出最后一個問題，這里是關于使用同一編碼器將文本圖像對齊到同一領域的方法。除此之外還有其他方法嗎？

A7：還有其他方法嗎？還有一個方法，就是不使用相同的編碼器。例如，你可以使用其他的編碼器，如CLIP、BLIP等。然而，我們的實驗發現，這些方法的效果并不是特別好。當然，我們之前使用的那些編碼器的參數量并不是很大，但是現在有一些更大的編碼器，如22B的[1]等等，可能會有更大的特征圖，使模型能夠在一個共同的領域內進行attention。因為我們的模型復用了相同的編碼器，它們共享了原始模型的encoder，所以它們通過這個特征圖，基本上是在相同的特征空間中進行操作。

責任編輯：姜華來源： DataFunTalk

語境學習模型

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

www.黄色小说.com| 青青操视频在线播放| 色天使综合视频| 亚洲欧洲在线观看av| 91在线看www| 久久久全国免费视频| 欧美福利在线播放网址导航| 在线精品视频免费观看| 日本一本草久p| 欧美性受xxxx狂喷水| 日韩激情视频网站| 久久6精品影院| www.久久av| 粉嫩av国产一区二区三区| 精品成人久久av| 亚洲成人第一| 乱色精品无码一区二区国产盗| 香蕉av777xxx色综合一区| 色综合影院在线| 亚洲精品久久一区二区三区777 | 久久国产精品久久久久久| 野战少妇38p| 国产成人精品一区二区三区视频 | 免费污视频在线| 国产亚洲精品7777| 成人片在线免费看| 亚洲影院一区二区三区| 99国产精品自拍| 久热精品视频在线观看一区| 日本xxx在线播放| 欧美特黄不卡| 欧美日韩精品电影| 国产日韩亚洲欧美| www视频在线看| 国产精品另类一区| 欧美日韩系列| 日韩在线免费播放| 成人性生交大片免费看视频在线 | 国产乱人伦偷精品视频不卡| 国产成人在线亚洲欧美| 好吊操这里只有精品| 欧美另类综合| 中文字幕9999| 久久婷婷五月综合| 欧美激情在线精品一区二区三区| 欧美成人r级一区二区三区| 最新天堂在线视频| 精品亚洲a∨| 在线观看av一区二区| 精品无码一区二区三区在线| 先锋影音在线资源站91| 中文字幕一区二| 神马影院午夜我不卡| 麻豆导航在线观看| 国产日韩欧美一区二区三区综合 | 熟妇人妻av无码一区二区三区| 国产一区二区三区在线观看免费视频| 国产精品欧美激情在线播放| 中文字幕永久在线| 肉色丝袜一区二区| 国产精品久久999| 欧美高清69hd| 秋霞午夜鲁丝一区二区老狼| 国产精品高潮呻吟久久av野狼| 亚洲综合图片网| 日韩综合在线视频| 国产精品草莓在线免费观看| 嫩草影院一区二区三区| 日韩不卡一区二区三区| 国产成人亚洲综合91精品| 无码人妻丰满熟妇精品区| 日日摸夜夜添夜夜添国产精品| 欧美一区视频在线| 国产嫩bbwbbw高潮| 日本欧洲一区二区| 91精品久久久久久久久中文字幕 | www久久久久久久| av中文字幕一区二区| 伊人伊成久久人综合网小说 | 国产熟女一区二区三区四区| 国产精品综合视频| 国产精品一区二区三区免费观看| 欧美性猛交 xxxx| 久久久一区二区三区| 欧美在线日韩精品| 男人天堂手机在线| 亚洲一区二三区| 凹凸国产熟女精品视频| 97人人做人人爽香蕉精品| 欧美精品tushy高清| 日本亚洲一区二区三区| 久久精品福利| 在线中文字幕日韩| 欧美丰满艳妇bbwbbw| 在线一区免费观看| 国产在线播放91| 人妻少妇精品无码专区| 26uuu久久综合| 国产免费色视频| xxxx在线视频| 欧美综合视频在线观看| 日本高清免费观看| 一区二区三区视频免费观看| 久久成人人人人精品欧| 亚洲一区欧美在线| 免费成人av在线| 国产成人精品免费视频大全最热| 国产系列电影在线播放网址| 亚洲精品日日夜夜| 日本成人在线免费视频| 亚洲小说春色综合另类电影| 亚洲无限av看| 久久久久久久极品内射| 日韩二区在线观看| 国产日韩精品一区观看| 日本www在线观看| 午夜精品福利一区二区三区av | 日韩极品在线观看| 国产91社区| 日本免费视频在线观看| 色偷偷成人一区二区三区91| 日韩av成人网| 日韩片欧美片| 欧洲成人在线观看| 亚洲精品成av人片天堂无码| 国产精品美女久久久久久久网站| 国产美女无遮挡网站| 国产美女亚洲精品7777| 在线观看亚洲区| 天天爽夜夜爽夜夜爽精品| 国产成人一级电影| 亚洲黄色网址在线观看| 欧美91在线|欧美| 国产一区二区av| 国产三级av片| 成人av在线资源| 91视频成人免费| 成人国产网站| 亚洲人精品午夜在线观看| 国产精品6666| 国产福利一区二区三区在线视频| 中文精品视频一区二区在线观看| 成人va天堂| 国产亚洲精品激情久久| 国产a∨精品一区二区三区仙踪林| 国产很黄免费观看久久| 国产高清免费在线| 日韩成人免费av| 这里只有精品在线播放| 久久久久久久久久成人| 久久伊人中文字幕| 国产成人亚洲精品无码h在线| 美国成人xxx| 97高清免费视频| 女人18毛片水真多18精品| 亚洲一区二区三区三| 日本55丰满熟妇厨房伦| 欧美日本一区二区视频在线观看| 亚洲综合精品一区二区| 青草在线视频| 精品不卡在线视频| 日韩欧美视频在线免费观看| 成人免费av资源| 国产日韩亚洲欧美| 啪啪国产精品| 国产精品精品视频| 免费在线毛片网站| 日韩视频一区二区| 国产无遮挡又黄又爽又色| 成人天堂资源www在线| 日本午夜激情视频| 国产一区二区欧美| 成人xxxxx| dy888亚洲精品一区二区三区| 91精品国产91综合久久蜜臀| 久久久久久久久久久久久女过产乱| 国产黑丝在线一区二区三区| 久久久亚洲国产精品| 免费观看久久av| 国产精品欧美一区二区| 乱人伦中文视频在线| 欧美成人r级一区二区三区| www.日本精品| 中国av一区二区三区| 手机av在线网站| 亚洲高清av| 日韩亚洲视频在线| 人人九九精品视频| 欧美一级电影久久| 欧美极品视频| 亚洲国产精品va在线看黑人| 97人妻一区二区精品视频| 18涩涩午夜精品.www| 熟女人妻一区二区三区免费看| 国产精品久久777777毛茸茸| 亚欧洲精品在线视频免费观看| 国产欧美日韩电影| 欧美怡红院视频一区二区三区| av中文字幕一区二区三区| 日韩一级大片在线观看| 欧美一级淫片免费视频黄| 中文字幕中文字幕在线一区| 中文字幕在线永久| 麻豆免费看一区二区三区| 97超碰在线人人| 欧美aaaa视频| 九九九九久久久久| 精品国产三级| 日韩暖暖在线视频| 免费在线观看的电影网站| 中文字幕av一区中文字幕天堂| 亚洲美女性生活| 欧美性受xxxx黑人xyx性爽| 久久久久久久久久久久国产| 国产日产欧美精品一区二区三区| 自拍偷拍激情视频| 日韩avvvv在线播放| 精品无码国产一区二区三区av| 色男人天堂综合再现| 九九九九精品九九九九| 亚洲视频精选| 91久久夜色精品国产网站| 久久爱91午夜羞羞| 国a精品视频大全| 国产激情小视频在线| 国产亚洲欧美日韩美女| 熟妇人妻av无码一区二区三区 | 天天操天天射天天舔| 日韩午夜中文字幕| 在线中文字幕网站| 色素色在线综合| 国产高潮久久久| 午夜精品免费在线| 日韩av在线播放观看| 亚洲激情在线播放| 成人免费毛片东京热| 综合av第一页| 影音先锋男人资源在线观看| 国产拍揄自揄精品视频麻豆| 瑟瑟视频在线观看| wwww国产精品欧美| 中文人妻一区二区三区| 99久久久国产精品| 人妻在线日韩免费视频| eeuss影院一区二区三区| 蜜臀av粉嫩av懂色av| 国产精品羞羞答答xxdd| 在线观看免费视频污| 久久精品免费观看| 国产精品v日韩精品v在线观看| 日韩av一级电影| www.xxx亚洲| 日韩在线一区二区| 黄色在线视频网| 日本美女视频一区二区| 亚洲欧美日韩系列| 美女网站在线免费欧美精品| 鲁一鲁一鲁一鲁一av| 美女爽到高潮91| 色综合五月婷婷| 国产91色综合久久免费分享| 国产精品一级无码| 99久久99久久久精品齐齐| 亚洲熟女乱综合一区二区三区| 97久久人人超碰| 欧美亚一区二区三区| 久久久国产精品麻豆| 国产又大又粗又爽的毛片| 中文字幕精品三区| 91视频免费看片| 亚洲日本护士毛茸茸| 欧美日韩在线观看免费| 亚洲国产精品一区二区久久恐怖片 | 尤物yw午夜国产精品视频| 午夜在线小视频| 欧美理论片在线观看| 激情影院在线| 欧美一级片在线播放| 国产麻豆一区| 91麻豆精品秘密入口| 欧美亚洲国产日韩| 日韩免费av电影| 婷婷另类小说| 日本a在线免费观看| 久久只有精品| 男插女视频网站| 91亚洲男人天堂| 日本爱爱爱视频| 亚洲一区二区精品久久av| 久久久久在线视频| 91精品国产综合久久久久久久| 六月婷婷中文字幕| 中文字幕欧美国内| 搞黄网站在线看| 国产精品女人网站| 都市激情久久| 夜夜爽99久久国产综合精品女不卡 | 亚洲综合小说区| 青青一区二区| 中文字幕在线观看一区二区三区| 黄色日韩在线| 日韩一级免费片| 91在线看国产| 久久精品视频免费在线观看| 色婷婷av久久久久久久| 精品国产无码AV| 亚洲性无码av在线| 蜜臀av国内免费精品久久久夜夜| 国产不卡在线观看| youjizzjizz亚洲| 手机成人在线| 亚洲网站啪啪| 亚洲一二三av| 国产日产欧美一区二区视频| 久久成人国产精品入口| 欧美视频三区在线播放| 完全免费av在线播放| 女人让男人操自己视频在线观看| 91免费的视频在线播放| sdde在线播放一区二区| 青青草国产精品视频| 国产高清无密码一区二区三区| 少妇精品无码一区二区免费视频| 亚洲国产成人高清精品| 一级做a爱片性色毛片| 亚洲欧美日韩国产精品| av电影院在线看| 亚洲精品免费网站| 久久久综合色| 波多野结衣天堂| 91视频一区二区| 伊人365影院| 91精品国产全国免费观看| 成年人在线观看视频| 日韩免费观看在线观看| 日韩欧美影院| 国产原创popny丨九色| 成人毛片视频在线观看| 妺妺窝人体色www婷婷| 欧美丰满一区二区免费视频 | 久久av红桃一区二区小说| 久久久免费人体| 日韩hmxxxx| 日韩成人午夜电影| 69视频在线观看免费| 日韩欧美中文字幕在线播放| 五十路在线观看| 97国产精品视频人人做人人爱| av不卡一区| 蜜臀av色欲a片无码精品一区| 成人精品视频一区二区三区| 日本特黄特色aaa大片免费| 精品成人一区二区| 国产无遮挡裸体视频在线观看| 国产精品一区视频| 国产精品视区| 亚洲激情视频小说| 在线国产电影不卡| 北岛玲日韩精品一区二区三区| 国产精品高精视频免费| 欧美好骚综合网| 天堂av.com| 亚洲亚洲人成综合网络| 色网站免费观看| 欧美一区二区三区免费视| 国产精品一线天粉嫩av| 天天干天天综合| 亚洲色图一区二区三区| 99热这里只有精品5| 色综合久久天天综线观看| 高潮按摩久久久久久av免费| 日韩av三级在线| 国产日韩欧美高清在线| 国产又黄又大又粗的视频| 欧美www在线| 欧美大胆a级| 亚洲欧美另类动漫| 一区二区三区四区亚洲| 先锋av资源站| 国产精品精品一区二区三区午夜版| 国产精品久久久久久久免费观看 | 五月天综合激情| 一色桃子一区二区| 五月亚洲婷婷| 女人扒开屁股爽桶30分钟| 国产精品国产三级国产aⅴ原创 | 欧美巨大xxxx做受沙滩| 久久手机视频| 精品影视av免费| 在线看成人av| 国产一区二区久久精品| 久久视频免费| 日韩精品一区二区三区久久| 国产精品久久久久久久午夜片| 性一交一乱一色一视频麻豆| 国产精品第8页| 欧美激情1区| 国产精品国产三级国产专业不| 日韩欧美国产一区在线观看| 黄色精品视频|