長(zhǎng)篇故事可視化方法Story-Adapter:能夠生成更高質(zhì)量、更具細(xì)膩交互的故事圖像
字節(jié)&南開提出StoryDiffusion:生成一致的圖像和視頻來講述復(fù)雜故事,圖靈獎(jiǎng)得主Yann LeCun親自轉(zhuǎn)載!
騰訊開源SEED-Story:AI續(xù)寫小說還能自動(dòng)配圖!
今天給大家介紹一個(gè)最新的長(zhǎng)篇故事可視化方法Story-Adapter,它的工作原理可以想象成一個(gè)畫家在創(chuàng)作一幅長(zhǎng)畫卷。首先,畫家根據(jù)故事的文本提示畫出初步的圖像。這些圖像就像是畫卷的草圖。接下來,畫家會(huì)不斷回顧這些草圖,逐步添加細(xì)節(jié)和修正錯(cuò)誤。在每一次修改中,畫家不僅參考之前的草圖,還會(huì)結(jié)合文本提示來確保每個(gè)細(xì)節(jié)都符合故事的內(nèi)容。這種方法讓畫家的創(chuàng)作更加連貫,避免了由于錯(cuò)誤累積而導(dǎo)致的畫面不一致。通過這種迭代的方式,Story-Adapter能夠生成更高質(zhì)量、更具細(xì)膩交互的故事圖像,確保每一幀都能準(zhǔn)確地傳達(dá)故事情節(jié)。

相關(guān)鏈接
論文地址:http://arxiv.org/abs/2410.06244v1
項(xiàng)目主頁(yè):https://jwmao1.github.io/storyadapter
代碼地址:https://jwmao1.github.io/storyadapter
論文閱讀
故事可視化是一項(xiàng)基于敘述生成連貫圖像的任務(wù),隨著文本到圖像模型(尤其是擴(kuò)散模型)的出現(xiàn),該任務(wù)取得了重大進(jìn)展。然而,保持語義一致性、生成高質(zhì)量的細(xì)粒度交互以及確保計(jì)算可行性仍然具有挑戰(zhàn)性,尤其是在長(zhǎng)篇故事可視化(即最多 100 幀)中。
本文工作提出了一個(gè)無需訓(xùn)練且計(jì)算效率高的框架,稱為 Story-Adapter,以增強(qiáng)長(zhǎng)篇故事的生成能力。具體來說提出了一個(gè)迭代范式來細(xì)化每個(gè)生成的圖像,利用文本提示和上一次迭代生成的所有圖像。我們框架的核心是一個(gè)無需訓(xùn)練的全局參考交叉注意模塊,它聚合了上一次迭代生成的所有圖像,以保持整個(gè)故事的語義一致性,同時(shí)通過全局嵌入最大限度地降低計(jì)算成本。這個(gè)迭代過程通過反復(fù)合并文本約束逐步優(yōu)化圖像生成,從而產(chǎn)生更精確和更細(xì)粒度的交互。大量實(shí)驗(yàn)驗(yàn)證了 Story-Adapter 在提高語義一致性和細(xì)粒度交互生成能力方面的優(yōu)勢(shì),尤其是在長(zhǎng)篇故事場(chǎng)景中。
方法
Story-Adapter 框架。 所提出的迭代范式的說明,包括初始化、Story-Adapter 中的迭代和全局參考交叉注意 (GRCA) 的實(shí)現(xiàn)。Story-Adapter 首先僅根據(jù)故事的文本提示對(duì)每幅圖像進(jìn)行可視化,并將所有結(jié)果用作下一輪的參考圖像。在迭代范式中,Story-Adapter 將 GRCA 插入 SD。對(duì)于每次圖像可視化的第 i 次迭代,GRCA 將通過交叉注意在去噪過程中聚合所有參考圖像的信息流。本次迭代的所有結(jié)果將用作參考圖像,以指導(dǎo)下一次迭代中故事可視化的動(dòng)態(tài)更新。
與常規(guī)長(zhǎng)度的故事相比,長(zhǎng)篇故事包含更多角色和更復(fù)雜的交互,因此對(duì)語義一致性和細(xì)粒度交互生成的要求更高。為了解決上述挑戰(zhàn),文中采用了一種迭代范式,該范式在多輪中逐步完善所有生成的圖像,包括語義一致性和視覺細(xì)節(jié)。我們通過為固定的穩(wěn)定擴(kuò)散 (SD) 模型配備交叉注意機(jī)制(稱為 Story-Adapter)來實(shí)例化迭代范式。
實(shí)驗(yàn)
不同方法的定性比較

故事可視化的定性比較表明,AR-LDM 和 StoryGen 可生成連貫的圖像序列,但由于自回歸誤差,其質(zhì)量會(huì)隨著故事長(zhǎng)度而下降。StoryDiffusion 和 Story-Adapter 表現(xiàn)良好,盡管 StoryDiffusion 由于計(jì)算要求高而難以解決主題一致性和 ID 圖像缺陷問題。Story-Adapter 更能滿足有效故事可視化的要求。

長(zhǎng)篇故事可視化的定性比較。 橙色和藍(lán)色框中的圖像序列分別由 StoryDiffusion 和 Story-Adapter 生成。Story-Adapter 在生成語義一致性和角色交互方面表現(xiàn)出優(yōu)勢(shì)。

迭代范式的消融研究:迭代范式的效果和不同固定λ的影響。

初始化和 GRCA 的定性消融研究。

Story-Adapter 對(duì)不同迭代的故事進(jìn)行可視化,準(zhǔn)確的交互用綠色表示,錯(cuò)誤或缺失的交互用紅色表示。

StoryDiffusion 對(duì)“鋼琴家”故事的可視化結(jié)果。
結(jié)論
本文介紹的Story-Adapter是一個(gè)迭代框架,它調(diào)整了預(yù)先訓(xùn)練的穩(wěn)定擴(kuò)散模型以進(jìn)行長(zhǎng)篇故事可視化。通過使用以前迭代生成的圖像作為參考,該方法保持了語義一致性并提高了整個(gè)故事中細(xì)粒度交互的生成質(zhì)量,有效地減少了錯(cuò)誤積累并避免了缺陷的傳播。
為了提高效率,文中提出了一個(gè)即插即用的全局參考交叉注意 (GRCA) 模塊,它利用全局圖像嵌入來降低計(jì)算成本,同時(shí)保留必要的圖像信息流。大量實(shí)驗(yàn)表明,Story-Adapter 在常規(guī)長(zhǎng)度的故事可視化數(shù)據(jù)集上的表現(xiàn)優(yōu)于現(xiàn)有方法,并在長(zhǎng)篇故事可視化中表現(xiàn)出色。這些發(fā)現(xiàn)凸顯了我們的迭代范式在提高文本到圖像故事可視化的質(zhì)量和連貫性方面的潛力。



























