一句話讓圖片動起來,蘋果發(fā)力大模型動畫生成,可直接編輯結(jié)果
現(xiàn)階段,大模型驚人的創(chuàng)新能力持續(xù)影響著創(chuàng)意領(lǐng)域,尤其是以 Sora 為代表的視頻生成技術(shù),更是引領(lǐng)了新一代潮流。當(dāng)大家都為 Sora 感到震撼的同時(shí),或許蘋果的這項(xiàng)研究也值得大家關(guān)注一下。
在一篇名為 「Keyframer: Empowering Animation Design using Large Language Models 」的研究中,來自蘋果的研究者發(fā)布了一個(gè)可以利用 LLM 生成動畫的框架 Keyframer,該框架允許用戶采用自然語言提示來創(chuàng)建靜態(tài) 2D 圖像的動畫。

論文地址:https://arxiv.org/pdf/2402.06071.pdf
具體而言,該研究結(jié)合了基于語言提示設(shè)計(jì)工件的新興設(shè)計(jì)原則和 LLM 的代碼生成能力,構(gòu)建了一個(gè)新的 AI 驅(qū)動的動畫工具 Keyframer。通過 Keyframer,用戶可以通過自然語言提示,從靜態(tài) 2D 圖像創(chuàng)建動畫插圖。借助 GPT-4,Keyframer 可以生成 CSS 動畫代碼,使輸入的 SVG(Scalable Vector Graphic)動畫化。
除此以外,Keyframer 支持用戶通過多種編輯器類型直接編輯生成的動畫。
用戶還可以通過連續(xù)提示和請求 LLM 生成的設(shè)計(jì)變體來迭代他們的設(shè)計(jì),以在新的設(shè)計(jì)方向上進(jìn)行構(gòu)思。不過,Keyframer 尚未公開。
之所以做這項(xiàng)研究,蘋果表示 LLM 在動畫中的應(yīng)用尚未得到充分探索,并帶來了新的挑戰(zhàn),例如用戶如何有效地用自然語言描述運(yùn)動。現(xiàn)階段雖然文生圖工具如 Dall?E 和 Midjourney 等效果出色,但動畫設(shè)計(jì)需要考慮更復(fù)雜的因素,例如時(shí)間以及協(xié)調(diào)性,這些因素很難在單個(gè)提示中全面概括。
至于這項(xiàng)研究的效果如何,用戶只需上傳圖像,在提示框中輸入「讓星星閃爍」之類的內(nèi)容,然后點(diǎn)擊生成即可。

用戶可以在一個(gè)批次中生成多個(gè)動畫設(shè)計(jì),并在單獨(dú)的窗口中調(diào)整顏色代碼和動畫持續(xù)時(shí)間等屬性。無需任何編碼經(jīng)驗(yàn),因?yàn)?Keyframer 會自動將這些更改轉(zhuǎn)換為 CSS,代碼本身也是完全可編輯的。這種基于描述的方法比其他形式的人工智能生成動畫簡單得多,后者通常需要多個(gè)不同的應(yīng)用程序和一些編碼經(jīng)驗(yàn)。
Keyframer 介紹
Keyframer 是一款由 LLM 驅(qū)動的應(yīng)用程序,旨在從靜態(tài)圖像創(chuàng)建動畫。Keyframer 可以充分利用 LLM 的代碼生成能力,以及靜態(tài)矢量圖(SVG)的語義結(jié)構(gòu),從而根據(jù)用戶提供的自然語言提示生成動畫。

輸入:該系統(tǒng)提供了一個(gè)輸入?yún)^(qū)域,用戶可以在其中粘貼他們想要?jiǎng)赢嫽?SVG 圖像代碼(SVG 是一種標(biāo)準(zhǔn)且流行的圖像格式,在插圖中因其可伸縮性及在多個(gè)平臺上的兼容性而常用)。在 Keyframer 中,SVG 的渲染顯示在代碼編輯器旁邊,以便用戶可以預(yù)覽圖像的視覺設(shè)計(jì),如圖 2 所示,土星插圖的 SVG 代碼包含了如天空、光環(huán)等標(biāo)識符。

GPT 提示:該系統(tǒng)允許用戶輸入自然語言提示來創(chuàng)建動畫。用戶可以請求單個(gè)設(shè)計(jì)(讓行星旋轉(zhuǎn))或多個(gè)設(shè)計(jì)變體(創(chuàng)建 3 個(gè)星星閃爍的設(shè)計(jì)),之后單擊「生成動畫」按鈕開始請求。在將用戶請求傳遞給 GPT 之前,該研究會用完整的原始 SVG XML 完善其提示,并指定 LLM 響應(yīng)的格式。
GPT 輸出:一旦提示請求開始,GPT 就會傳輸響應(yīng),該響應(yīng)由一個(gè)或多個(gè) CSS 片段組成,如圖 3 所示。

渲染:渲染部分包括(1)每個(gè)動畫進(jìn)行可視化渲染以及由 LLM 生成的 1 句解釋(2)一系列用于修改設(shè)計(jì)的編輯器。
其中代碼編輯器使用 CodeMirror 實(shí)現(xiàn);屬性編輯器為編輯代碼提供了特定于屬性的 UI,例如為了編輯顏色,該研究提供了一個(gè)顏色選擇器。圖 5 顯示了代碼編輯器與屬性編輯器圖示。

迭代:為了支持用戶在動畫創(chuàng)建過程 (DG1) 中進(jìn)行更深入的探索,該研究還提供了一項(xiàng)功能,允許用戶使用提示在生成的動畫上迭代構(gòu)建。每個(gè)生成的設(shè)計(jì)下面都有一個(gè)按鈕「 + Add New Prompt 」;單擊此按鈕會在頁面底部打開一個(gè)新表單,供用戶使用新提示擴(kuò)展其設(shè)計(jì)。
保存設(shè)計(jì)的側(cè)邊欄以及摘要。該系統(tǒng)允許用戶對設(shè)計(jì)加注星標(biāo)進(jìn)行收藏并將其添加到側(cè)邊欄,如圖 6 右側(cè)所示。此外,該系統(tǒng)還有一個(gè)摘要模式,其能隱藏所有文本編輯器并顯示動畫及其提示,使用戶能夠快速重新訪問以前的提示和設(shè)計(jì)。

實(shí)驗(yàn)過程中,蘋果團(tuán)隊(duì)選擇了 13 名參與者(6 名女性,7 名男性)試用 Keyframer。表 1 為參與者的一些信息及其掌握的技能。
甚至專業(yè)動作設(shè)計(jì)師「EP13」也看到了 Keyframer 擴(kuò)展其能力的潛力:「我有些擔(dān)心這些工具會取代我們的工作,因?yàn)樗臐摿θ绱酥蟆5?xì)細(xì)想來,這項(xiàng)研究只會提高我們的技能。應(yīng)該是件值得高興的事情。」

總體而言,參與者對 Keyframer 的使用體驗(yàn)感到滿意。參與者給出的平均分?jǐn)?shù)為 3.9 ,介于滿意 (4) 和中立 (3) 之間。參與者生成了 223 種設(shè)計(jì)。平均來看,每位參與者生成 17.2 個(gè)設(shè)計(jì)。圖 8 顯示了兩個(gè)參與者的最終動畫示例。

更多技術(shù)細(xì)節(jié)請參閱原論文。
































