LCM:大大加快生成高質量圖像的新方法
譯文作者丨Mike Young
譯者 | 布加迪
審校 | 重樓
出品 | 51CTO技術棧(微信號:blog51cto)
圖片
得益于一種名為潛在一致性模型(LCM)的新技術,文本轉換成圖像的AI即將迎來重大飛躍。潛在擴散模型(LDM)等傳統方法在使用文本提示生成詳細、創造性的圖像方面令人印象深刻,然而它們的致命弱點是速度慢。使用LDM生成單單一個圖像可能需要數百個步驟,這對于許多實際應用來說實在太慢了。
LCM通過大幅減少生成圖像所需的步驟數量來改變游戲規則。LDM需要數百步才能費勁地生成圖像,LCM只需1到4步就能獲得質量相似的結果。這種效率是通過將預訓練的LDM提煉成更精簡的形式來實現的,所需的算力和時間大大減少。我們將剖析一篇介紹LDM模型的近期論文,看看它是如何工作的。
本文還介紹了一種名為LCM-LoRA的創新,這是一種通用的Stable-Diffusion加速模塊。該模塊可以插入到各種Stable--Diffusion微調模型,無需任何額外的訓練。它是一種普遍適用的工具,可以加速各種圖像生成任務,使其成為利用AI創建圖像的潛在利器。我們還將剖析論文的這個部分。
1、高效訓練LCM
神經網絡領域的一大挑戰是需要絕對龐大的算力,尤其在訓練它們以解決復雜方程時。這篇論文背后的團隊用一種名為提煉的巧妙方法正面解決了這個問題。
研究團隊是這么做的:他們先使用一個文本與圖像配對的數據集訓練一個標準的潛在擴散模型(LDM)。一旦這個LDM啟動并運行起來,他們把它用作一種導師,以生成新的訓練數據。這些新數據隨后被用于訓練潛在一致性模型(LCM))。這里最吸引人的部分是LCM學會從LDM的能力中學習,不需要使用龐大數據集從頭開始訓練。
真正重要的是這個過程的效率。研究人員僅使用單個GPU就在大約32小時內完成了高質量LCM的訓練。這很重要,因為它比以前的方法快得多、實用得多。這意味著現在更多的人和項目都可以創建這種先進的模型,而不是只有享有超級計算資源的人才能創建。
圖1、LCM-LoRA概述
通過將LoRA引入到LCM的提煉過程中,我們顯著降低了提煉的內存開銷,這使得我們可以用有限的資源訓練更龐大的模型,比如SDXL和SSD-1B。更重要的是,通過LCM-LoRA訓練獲得的LoRA參數(“加速向量”)可以直接與通過針對特定樣式的數據集進行微調獲得的其他LoRA參數(“樣式向量”)結合起來。無需任何訓練,由加速向量和樣式向量的線性組合獲得的模型獲得了以最少的采樣步驟生成特定繪畫樣式的圖像這種能力。
2、結果
該研究展示了基于潛在一致性模型(LCM)利用AI生成圖像方面的重大進展。LCM擅長僅用四個步驟就能創建高質量的512x512圖像,與潛在擴散模型(LDM)等傳統模型所需的數百個步驟相比有了顯著改進。這些圖像擁有清晰的細節和逼真的紋理,這個優點在下面的例子中尤為明顯。
圖片
圖2、論文聲稱:“使用從不同的預訓練擴散模型中提取的潛在一致性模型生成的圖像。我們使用LCM-LoRA-SD-V1.5生成512×512分辨率的圖像,使用LCM-LoRA-SDXL和LCM-LoRA-SSD-1B生成1024×1024分辨率的圖像?!?/p>
這些模型不僅可以輕松處理較小的圖像,還擅長生成更龐大的1024x1024圖像。它們展示了一種擴展到比以前大得多的神經網絡模型的能力,展示了其適應能力。論文中的示例(比如LCM-LoRA-SD-V1.5和LCM-LoRA-SSD-1B版本的示例)闡明了該模型在各種數據集和實際場景中的廣泛適用性。
3、局限性
LCM的當前版本存在幾處局限性。最重要的是兩個階段的訓練過程:首先訓練LDM,然后用它來訓練LCM。在未來的研究中,可能會探索一種更直接的LDM訓練方法,因而可能不需要LDM。論文主要討論無條件圖像生成,條件生成任務(比如文本到圖像的合成)可能需要做更多的工作。
4、主要的啟示
潛在一致性模型在快速生成高質量的圖像方面邁出了一大步。這些模型只需1到4步就能生成與較慢的LDM相媲美的結果,這可能會徹底改變文本到圖像模型的實際應用。雖然目前存在一些局限性,特別是在訓練過程和生成任務的范圍方面,但LCM標志著在基于神經網絡的實用圖像生成方面取得了重大進展。提供的示例強調了這些模型具有的潛力。
5、LCM-LoRA作為通用加速模塊
正如我在引言中提到,該論文分為兩部分。論文的第二部分討論了LCM-LoRA,這種技術允許使用少得多的內存對預訓練模型進行微調,使其更高效。
這里的關鍵創新是將LoRA參數集成到LCM中,從而生成結合兩者優點的混合模型。這種集成對于創建特定樣式的圖像或響應特定任務特別有用。如果選擇和組合不同的LoRA參數集,每個參數集又都針對獨特的樣式進行微調,研究人員創建了一個多功能模型,可以用最少的步驟生成圖像,不需要額外的訓練。
他們在研究中通過將針對特定繪畫樣式進行微調的LoRA參數與LCM-LoRA參數相結合的例子來證明這一點。這種組合允許在不同的采樣步驟(比如2步、4步、8步、16步和32步)創建樣式迥異的1024 × 1024分辨率圖像。它們表明,這些組合的參數無需進一步訓練即可生成高質量圖像,強調了這種模型的效率和通用性。
這里值得關注的一個地方是使用所謂的“加速向量”(τLCM)和“樣式向量”(τ),兩者使用特定的數學公式(λ1和λ2是這些公式中的可調整因子)組合在一起。這種組合產生的模型可以快速地生成定制樣式的圖像。
論文中的圖3(如下所示)通過展示特定樣式LoRA參數與LCM-LoRA參數結合的結果,表明了這種方法的有效性。這證明了該模型能夠快速高效地生成樣式不同的圖像。
圖3
總之,本文的這部分強調了LCM-LoRA模型如何代表一種通用的、高效的解決方案,可用于快速生成高質量的特定樣式的圖像,只需使用極少的計算資源。這項技術的實際應用很廣泛,有望徹底改變從數字藝術到自動化內容創作等各個領域生成圖像的方式。
6、結論
我們研究了潛在一致性模型(LCM),這是一種顯著加快從文本生成圖像過程的新方法。不像傳統的潛在擴散模型(LDM)需要數百個步驟來創建一個圖像,LCM只需1到4個步驟就可以生成質量相似的圖像。這種效率的大幅提升是通過提煉方法實現的,即使用預訓練的LDM來訓練LCM,因而不需要大量計算。
此外,我們還探索了LCM-LoRA,這是一種使用低秩自適應(LoRA)對預訓練模型進行微調的增強技術,降低了內存需求。這種集成允許以最少的計算步驟創建特定樣式的圖像,而不需要額外的訓練。
著重強調的關鍵結果包括LCM僅用幾個步驟就能創建高質量的512x512和1024x1024圖像,而LDM卻需要數百個步驟。然而,目前存在的局限性是LDM依賴兩步訓練過程,因此你仍需要LDM開始入手!未來的研究可能會簡化這個過程。
LCM特別是在提議的LCM-LoRA模型中與LoRA結合使用時,是一種非常巧妙的創新。它們提供了更快速、更高效地創建高質量圖像這個優點,我認為它們在數字內容創建方面有著廣泛的應用前景。
參考鏈接:https://notes.aimodels.fyi/lcm-lora-a-new-method-for-generating-high-quality-images-much-faster/


























