并行擴(kuò)散架構(gòu)突破極限，實(shí)現(xiàn)5分鐘AI視頻生成，「叫板」OpenAI與谷歌？

2025-11-21 08:33:18

一家名為 CraftStory 的 AI 初創(chuàng)公司推出了 Model 2.0 視頻生成系統(tǒng)。

近日，一家名為 CraftStory 的 AI 初創(chuàng)公司推出了 Model 2.0 視頻生成系統(tǒng)，憑借可生成長達(dá)五分鐘的富有表現(xiàn)力、可媲美專業(yè)水準(zhǔn)、以人為中心的視頻，破解了困擾 AI 視頻生成行業(yè)長久以來的「視頻時長」難題，引起熱議，并被視為或?qū)⑹?OpenAI 的 Sora 和 Google 的 Veo 的強(qiáng)有力競爭者。

資料顯示，CraftStory 由全球使用最廣泛的計(jì)算機(jī)視覺庫 OpenCV 的創(chuàng)建者 Victor Erukhimov 創(chuàng)立，他是 OpenCV 的早期貢獻(xiàn)者之一，參與了 OpenCV 庫的開發(fā)和維護(hù)。此外，他曾聯(lián)合創(chuàng)立 Itseez——專注于開發(fā)運(yùn)行于嵌入式平臺（特別是汽車安全系統(tǒng)）的計(jì)算機(jī)視覺解決方案，擔(dān)任首席技術(shù)官、首席執(zhí)行官和總裁，2016 年 Itseez 被英特爾收購。

CraftStory 此次推出的 Model 2.0 視頻生成系統(tǒng)在視頻時長上的突破，可能會為那些難以擴(kuò)大視頻制作規(guī)模以用于培訓(xùn)、營銷和客戶教育的企業(yè)，帶來巨大的商業(yè)價(jià)值。

維克托·埃魯希莫夫的頭像

大家都知道，包括當(dāng)前的行業(yè)佼佼者 OpenAI 的 Sora 2，所生成的視頻時長上限也僅為 25 秒，同類模型生成的視頻片段也在這個范圍甚至更短，雖然生成的視頻畫面精美、性能優(yōu)良，但從市場角度考慮，難以將其廣泛應(yīng)用，尤其是一些電影或長劇集。

據(jù)了解，CraftStory 之所以能夠破解視頻時長難題，突破性進(jìn)展在于該公司的并行擴(kuò)散架構(gòu)，這是一種從根本上不同的 AI 模型生成視頻的方法。

傳統(tǒng)視頻生成模型的工作原理是在越來越大的三維空間中運(yùn)行擴(kuò)散算法，其中時間代表第三個軸。為了生成更長的視頻，這些模型需要相應(yīng)更大的網(wǎng)絡(luò)、更多的訓(xùn)練數(shù)據(jù)以及更多的計(jì)算資源。

而 CraftStory 會在整個視頻播放過程中同時運(yùn)行多個較小的擴(kuò)散算法，并通過雙向約束將它們連接起來。

據(jù) Victor Erukhimov 介紹，之所以這樣做，是因?yàn)椤敢曨l的后半部分也會影響前半部分，這一點(diǎn)非常重要，因?yàn)槿绻饌€進(jìn)行處理，那么出現(xiàn)在前半部分中的瑕疵就會傳播到后半部分，然后不斷累積。」

比如，對于一個 5 分鐘的視頻片段，CraftStory 的系統(tǒng)不是生成 8 秒的片段，然后拼接其他片段，而是通過相互關(guān)聯(lián)的擴(kuò)散過程同時處理所有 5 分鐘的片段。

另外，在模型訓(xùn)練數(shù)據(jù)上，除了從互聯(lián)網(wǎng)抓取視頻外，CraftStory 聘請專業(yè)工作室，使用高幀率攝像系統(tǒng)拍攝演員，即使是手指等快速移動的物體也能捕捉到清晰的細(xì)節(jié)，從而避免了標(biāo)準(zhǔn) 30 幀 / 秒 YouTube 視頻中固有的運(yùn)動模糊，從中獲取自有素材去對模型進(jìn)行訓(xùn)練。因?yàn)樵?Victor Erukhimov 看來，制作高質(zhì)量視頻并不需要大量數(shù)據(jù)，也不需要大量培訓(xùn)預(yù)算，而是高質(zhì)量的數(shù)據(jù)。

Model 2.0 是一個「視頻到視頻」的轉(zhuǎn)換模型：以圖像和行車視頻作為輸入，并利用行車視頻中人物的動作，根據(jù)圖像生成輸出視頻。用戶可以上傳自己的視頻，也可以使用 CraftStory 提供的預(yù)設(shè)視頻。該模型經(jīng)過訓(xùn)練，即使在長達(dá)數(shù)分鐘的視頻序列中，也能保留人物的身份、情感和細(xì)微差別。

目前，該系統(tǒng)可在大約 15 分鐘內(nèi)生成 30 秒的低分辨率視頻片段。先進(jìn)的唇形同步系統(tǒng)可將嘴部動作與腳本或音軌同步，而手勢對齊算法則確保肢體語言與語音節(jié)奏和情感基調(diào)相匹配。

視頻一經(jīng)發(fā)布，引起網(wǎng)友熱議，有網(wǎng)友認(rèn)為，「CraftStory 利用并行傳播和專有數(shù)據(jù)打造的長篇 AI 視頻是一項(xiàng)明智之舉。它突顯了深厚的計(jì)算機(jī)視覺技術(shù)如何能夠克服龐大的計(jì)算預(yù)算限制，滿足企業(yè)對時長至關(guān)重要的、以人為本的持續(xù)內(nèi)容的關(guān)鍵需求。」

也有網(wǎng)友認(rèn)為，Model 2.0 很好地解決了行業(yè)中的「8 秒 AI 視頻難題」，「這可能會徹底改變公司處理培訓(xùn)、營銷和故事講述的方式。」另外，CraftStory 的視頻幀率更高，「OpenAI是不是要好好反省一下……」

資料顯示，本周 CraftStory 剛剛完成一輪 200 萬美元的融資，相較于大廠動輒數(shù)億甚至數(shù)十億美元的融資來說，這個數(shù)額并不高，但 Victor Erukhimov 似乎并不認(rèn)同「巨額資金是成功的先決條件」。

他在接受媒體采訪時談道，「我并不完全認(rèn)同計(jì)算能力是通往成功的唯一途徑，擁有計(jì)算能力當(dāng)然會有幫助。但如果你僅僅靠一份 PPT 就籌集到十億美元，最終沒有人會滿意，無論是創(chuàng)始人還是投資者。」

而不同于大多數(shù)視頻生成企業(yè)聚焦消費(fèi)者的創(chuàng)意工具這一塊，CraftStory 瞄準(zhǔn) ToB 市場，更關(guān)注企業(yè)，尤其是軟件公司該如何制作出色的培訓(xùn)視頻、產(chǎn)品視頻和發(fā)布視頻。

據(jù) Victor Erukhimov 透露，CraftStory 的下一個重大發(fā)展方向是「文本轉(zhuǎn)視頻」模型，該模型將允許用戶直接從腳本生成長篇內(nèi)容。此外，團(tuán)隊(duì)還在開發(fā)對移動鏡頭場景的支持，包括在高端廣告中常見的「邊走邊說」格式。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 視頻生成系統(tǒng)