并行擴(kuò)散架構(gòu)突破極限,實(shí)現(xiàn)5分鐘AI視頻生成,「叫板」OpenAI與谷歌?
近日,一家名為 CraftStory 的 AI 初創(chuàng)公司推出了 Model 2.0 視頻生成系統(tǒng),憑借可生成長達(dá)五分鐘的富有表現(xiàn)力、可媲美專業(yè)水準(zhǔn)、以人為中心的視頻,破解了困擾 AI 視頻生成行業(yè)長久以來的「視頻時長」難題,引起熱議,并被視為或?qū)⑹?OpenAI 的 Sora 和 Google 的 Veo 的強(qiáng)有力競爭者。


資料顯示,CraftStory 由全球使用最廣泛的計(jì)算機(jī)視覺庫 OpenCV 的創(chuàng)建者 Victor Erukhimov 創(chuàng)立,他是 OpenCV 的早期貢獻(xiàn)者之一,參與了 OpenCV 庫的開發(fā)和維護(hù)。此外,他曾聯(lián)合創(chuàng)立 Itseez——專注于開發(fā)運(yùn)行于嵌入式平臺(特別是汽車安全系統(tǒng))的計(jì)算機(jī)視覺解決方案,擔(dān)任首席技術(shù)官、首席執(zhí)行官和總裁,2016 年 Itseez 被英特爾收購。
CraftStory 此次推出的 Model 2.0 視頻生成系統(tǒng)在視頻時長上的突破,可能會為那些難以擴(kuò)大視頻制作規(guī)模以用于培訓(xùn)、營銷和客戶教育的企業(yè),帶來巨大的商業(yè)價(jià)值。


大家都知道,包括當(dāng)前的行業(yè)佼佼者 OpenAI 的 Sora 2,所生成的視頻時長上限也僅為 25 秒,同類模型生成的視頻片段也在這個范圍甚至更短,雖然生成的視頻畫面精美、性能優(yōu)良,但從市場角度考慮,難以將其廣泛應(yīng)用,尤其是一些電影或長劇集。
據(jù)了解,CraftStory 之所以能夠破解視頻時長難題,突破性進(jìn)展在于該公司的并行擴(kuò)散架構(gòu),這是一種從根本上不同的 AI 模型生成視頻的方法。
傳統(tǒng)視頻生成模型的工作原理是在越來越大的三維空間中運(yùn)行擴(kuò)散算法,其中時間代表第三個軸。為了生成更長的視頻,這些模型需要相應(yīng)更大的網(wǎng)絡(luò)、更多的訓(xùn)練數(shù)據(jù)以及更多的計(jì)算資源。
而 CraftStory 會在整個視頻播放過程中同時運(yùn)行多個較小的擴(kuò)散算法,并通過雙向約束將它們連接起來。
據(jù) Victor Erukhimov 介紹,之所以這樣做,是因?yàn)椤敢曨l的后半部分也會影響前半部分,這一點(diǎn)非常重要,因?yàn)槿绻饌€進(jìn)行處理,那么出現(xiàn)在前半部分中的瑕疵就會傳播到后半部分,然后不斷累積。」
比如,對于一個 5 分鐘的視頻片段,CraftStory 的系統(tǒng)不是生成 8 秒的片段,然后拼接其他片段,而是通過相互關(guān)聯(lián)的擴(kuò)散過程同時處理所有 5 分鐘的片段。
另外,在模型訓(xùn)練數(shù)據(jù)上,除了從互聯(lián)網(wǎng)抓取視頻外,CraftStory 聘請專業(yè)工作室,使用高幀率攝像系統(tǒng)拍攝演員,即使是手指等快速移動的物體也能捕捉到清晰的細(xì)節(jié),從而避免了標(biāo)準(zhǔn) 30 幀 / 秒 YouTube 視頻中固有的運(yùn)動模糊,從中獲取自有素材去對模型進(jìn)行訓(xùn)練。因?yàn)樵?Victor Erukhimov 看來,制作高質(zhì)量視頻并不需要大量數(shù)據(jù),也不需要大量培訓(xùn)預(yù)算,而是高質(zhì)量的數(shù)據(jù)。
Model 2.0 是一個「視頻到視頻」的轉(zhuǎn)換模型:以圖像和行車視頻作為輸入,并利用行車視頻中人物的動作,根據(jù)圖像生成輸出視頻。用戶可以上傳自己的視頻,也可以使用 CraftStory 提供的預(yù)設(shè)視頻。該模型經(jīng)過訓(xùn)練,即使在長達(dá)數(shù)分鐘的視頻序列中,也能保留人物的身份、情感和細(xì)微差別。
目前,該系統(tǒng)可在大約 15 分鐘內(nèi)生成 30 秒的低分辨率視頻片段。先進(jìn)的唇形同步系統(tǒng)可將嘴部動作與腳本或音軌同步,而手勢對齊算法則確保肢體語言與語音節(jié)奏和情感基調(diào)相匹配。
視頻一經(jīng)發(fā)布,引起網(wǎng)友熱議,有網(wǎng)友認(rèn)為,「CraftStory 利用并行傳播和專有數(shù)據(jù)打造的長篇 AI 視頻是一項(xiàng)明智之舉。它突顯了深厚的計(jì)算機(jī)視覺技術(shù)如何能夠克服龐大的計(jì)算預(yù)算限制,滿足企業(yè)對時長至關(guān)重要的、以人為本的持續(xù)內(nèi)容的關(guān)鍵需求。」

也有網(wǎng)友認(rèn)為,Model 2.0 很好地解決了行業(yè)中的「8 秒 AI 視頻難題」,「這可能會徹底改變公司處理培訓(xùn)、營銷和故事講述的方式。」另外,CraftStory 的視頻幀率更高,「OpenAI是不是要好好反省一下……」


資料顯示,本周 CraftStory 剛剛完成一輪 200 萬美元的融資,相較于大廠動輒數(shù)億甚至數(shù)十億美元的融資來說,這個數(shù)額并不高,但 Victor Erukhimov 似乎并不認(rèn)同「巨額資金是成功的先決條件」。
他在接受媒體采訪時談道,「我并不完全認(rèn)同計(jì)算能力是通往成功的唯一途徑,擁有計(jì)算能力當(dāng)然會有幫助。但如果你僅僅靠一份 PPT 就籌集到十億美元,最終沒有人會滿意,無論是創(chuàng)始人還是投資者。」
而不同于大多數(shù)視頻生成企業(yè)聚焦消費(fèi)者的創(chuàng)意工具這一塊,CraftStory 瞄準(zhǔn) ToB 市場,更關(guān)注企業(yè),尤其是軟件公司該如何制作出色的培訓(xùn)視頻、產(chǎn)品視頻和發(fā)布視頻。
據(jù) Victor Erukhimov 透露,CraftStory 的下一個重大發(fā)展方向是「文本轉(zhuǎn)視頻」模型,該模型將允許用戶直接從腳本生成長篇內(nèi)容。此外,團(tuán)隊(duì)還在開發(fā)對移動鏡頭場景的支持,包括在高端廣告中常見的「邊走邊說」格式。


































