妙筆生維:線稿驅(qū)動(dòng)的三維場(chǎng)景視頻自由編輯
劉鋒林,中科院計(jì)算所泛在計(jì)算系統(tǒng)研究中心博士研究生(導(dǎo)師:高林研究員),研究方向?yàn)橛?jì)算機(jī)圖形學(xué)與生成式人工智能,在ACM SIGGRAPH\TOG,IEEE TPAMI,IEEE TVCG,IEEE CVPR等期刊會(huì)議上發(fā)表論文10余篇,其中5篇為第一作者發(fā)表于SIGGRAPH和CVPR,4篇論文收錄于中科院一區(qū)期刊ACM Transaction on Graphics,第一作者研究工作連續(xù)兩年入選SIGGRAPH亮點(diǎn)工作宣傳片(Video Trailer)。曾獲得國(guó)家獎(jiǎng)學(xué)金、中國(guó)計(jì)算機(jī)學(xué)會(huì)CAD&CG凌迪圖形學(xué)獎(jiǎng)學(xué)金等榮譽(yù)。
隨著移動(dòng)攝影設(shè)備的普及,基于手機(jī)或相機(jī)等可以快速獲取帶有豐富視角變換的三維場(chǎng)景視頻。如何高效、自由地編輯這些三維內(nèi)容成為一個(gè)關(guān)鍵挑戰(zhàn)。例如,在視頻中無縫添加新物體、精準(zhǔn)去除不需要的元素,或者自然替換已有部分,這些能力在虛擬現(xiàn)實(shí) (VR)、增強(qiáng)現(xiàn)實(shí) (AR) 以及短視頻創(chuàng)作中具有廣泛的應(yīng)用前景。
然而,現(xiàn)有的經(jīng)典方法,通常只能添加預(yù)定義的三維模型庫(kù)中的物體,極大地限制了用戶的個(gè)性化創(chuàng)意表達(dá)。更關(guān)鍵的是,讓新加入的物體融入原有場(chǎng)景的光影環(huán)境,生成逼真的陰影,以達(dá)到照片級(jí)的真實(shí)感,是具有挑戰(zhàn)性的難題。同樣,移除物體后,如何合理地填補(bǔ)空缺區(qū)域并生成視覺連貫合理的內(nèi)容,也需要更優(yōu)的解決方案。
近期,研究人員提出了一種基于線稿的三維場(chǎng)景視頻編輯方法 Sketch3DVE [1],相關(guān)技術(shù)論文發(fā)表于 SIGGRAPH 2025,并入選 Video Trailer。它賦予用戶基于簡(jiǎn)單線稿即可重塑三維場(chǎng)景視頻的能力。無論是為視頻場(chǎng)景個(gè)性化地添加全新物體,還是精細(xì)地移除或替換已有對(duì)象,用戶都能通過繪制關(guān)鍵線稿輕松實(shí)現(xiàn)。

- 論文標(biāo)題:Sketch3DVE: Sketch-based 3D-Aware Scene Video Editing
- 論文地址:https://dl.acm.org/doi/10.1145/3721238.3730623
- 項(xiàng)目主頁:http://geometrylearning.com/Sketch3DVE/
- Github:https://github.com/IGLICT/Sketch3DVE
此外,即使是單張靜態(tài)圖片,用戶也能自由規(guī)劃虛擬相機(jī)路徑(指定相機(jī)軌跡),首先生成具有視角變化的動(dòng)態(tài)視頻,隨后再進(jìn)行任意編輯。
現(xiàn)在,就讓我們一同探索 Sketch3DVE 如何將簡(jiǎn)單的線稿筆畫,轉(zhuǎn)化為重塑三維世界的鑰匙!

圖 1 基于線稿的三維場(chǎng)景視頻編輯結(jié)果

圖 2 視角可控的視頻生成及編輯結(jié)果
Part 1 背景
近年來,視頻生成基礎(chǔ)模型(如 Sora、Kling、Hunyuan Video、CogVideoX 和 Wan 2.1 等)在文本到視頻和圖像到視頻生成方面取得了顯著進(jìn)展。精確控制生成視頻中的相機(jī)軌跡因其重要的應(yīng)用前景而受到廣泛關(guān)注。
現(xiàn)有方法主要分為兩類:一類工作 [2, 3] 直接將相機(jī)參數(shù)作為模型輸入,利用注意力機(jī)制或 ControlNet 結(jié)構(gòu)來實(shí)現(xiàn)對(duì)生成視頻視角的控制;另一類工作 [4, 5] 則從單張輸入圖像構(gòu)建顯式的三維表示(如 NeRF),通過指定相機(jī)軌跡渲染出新視角圖像,并以此作為控制信號(hào)引導(dǎo)視頻生成。
盡管這些方法能夠生成視角可控的視頻,如何對(duì)已存在的、包含大幅度相機(jī)運(yùn)動(dòng)的真實(shí)視頻進(jìn)行精確編輯,仍然是一個(gè)有待解決的研究問題。
視頻編輯任務(wù)與視頻生成有本質(zhì)區(qū)別,它需要保持原始視頻的運(yùn)動(dòng)模式與局部特征,同時(shí)根據(jù)用戶指令合成新的內(nèi)容。早期的視頻編輯方法 [6, 7] 通?;?Stable Diffusion 等圖像擴(kuò)散模型,對(duì)視頻幀進(jìn)行逐幀處理,并通過引入時(shí)序一致性約束來生成編輯結(jié)果。
進(jìn)一步地,研究者開始利用視頻生成模型進(jìn)行編輯,例如一些方法 [8] 從輸入視頻中提取注意力特征圖以編碼運(yùn)動(dòng)信息,另一些方法 [9] 則采用 LoRA 對(duì)預(yù)訓(xùn)練視頻模型進(jìn)行微調(diào)以捕捉特定視頻的運(yùn)動(dòng)模式。然而,這些方法主要擅長(zhǎng)外觀層面的編輯(如風(fēng)格化、紋理修改),在幾何結(jié)構(gòu)層面的編輯效果較差,并且難以有效處理包含大幅度相機(jī)運(yùn)動(dòng)的場(chǎng)景。
線稿(Sketch)作為一種直觀的用戶交互方式,已被廣泛應(yīng)用于圖像、視頻和三維內(nèi)容的生成與編輯中?;诰€稿的視頻編輯方法也已出現(xiàn),例如 VIRES [10] 通過優(yōu)化 ControlNet [11] 結(jié)構(gòu)實(shí)現(xiàn)了基于線稿引導(dǎo)的視頻重繪,而 SketchVideo [12] 則設(shè)計(jì)了一種關(guān)鍵幀線稿傳播機(jī)制,允許用戶僅提供少量幀(1-2 幀)的線稿即可編輯整個(gè)視頻。
盡管如此,現(xiàn)有的基于線稿的視頻編輯方法主要面向通用場(chǎng)景。如何處理包含顯著相機(jī)視角變化的視頻,并在編輯過程中保持新內(nèi)容的三維幾何一致性,仍是當(dāng)前研究面臨的關(guān)鍵挑戰(zhàn)。
Part 2 算法原理

圖 3 Sketch3DVE 的編輯流程和網(wǎng)絡(luò)架構(gòu)圖
給定輸入的三維場(chǎng)景視頻后,用戶首先選定第一幀圖像。在該幀上,用戶繪制一個(gè)掩碼(Mask)標(biāo)記需要編輯的區(qū)域,并繪制線稿(Sketch)來指定新物體的幾何形狀。
同時(shí),用戶輸入文本描述來定義新物體的外觀特征。系統(tǒng)采用 MagicQuill [13] 圖像編輯算法(或其他兼容的基于圖像補(bǔ)全的編輯方法)處理第一幀,生成該幀的編輯結(jié)果。
隨后,系統(tǒng)利用 DUSt3R [14] 三維重建算法處理整個(gè)輸入視頻,對(duì)場(chǎng)景進(jìn)行三維分析。該方法輸出第一幀對(duì)應(yīng)的場(chǎng)景點(diǎn)云(Point Cloud)以及每一幀對(duì)應(yīng)的相機(jī)參數(shù)(Camera Parameters),為后續(xù)的視頻編輯傳播提供幾何基礎(chǔ)。
接下來,需要將第一幀圖像上的編輯操作傳播到其對(duì)應(yīng)的三維點(diǎn)云上。系統(tǒng)采用基于深度圖的點(diǎn)云編輯方法:首先,使用 DUSt3R 或 DepthAnything [15] 等方法預(yù)測(cè)編輯后第一幀圖像的深度圖(Depth Map)。由于預(yù)測(cè)得到的是相對(duì)深度值,需要將其與原始場(chǎng)景的尺度對(duì)齊。
為此,系統(tǒng)利用掩碼外部(非編輯區(qū)域)的像素,通過逐像素的對(duì)應(yīng)關(guān)系計(jì)算深度值的平移和縮放參數(shù)。應(yīng)用這些參數(shù)對(duì)預(yù)測(cè)深度圖進(jìn)行變換,并將編輯區(qū)域的深度值融合到原始場(chǎng)景的深度圖中。最后,通過反投影(Back-projection)處理融合后的深度圖,得到編輯后的三維點(diǎn)云。
為了減少用戶交互,掩碼只需在第一幀繪制。為了將第一幀的掩碼精確傳播到后續(xù)不同視角的幀上,系統(tǒng)設(shè)計(jì)了一個(gè)基于三維感知的掩碼傳播算法。
該算法在三維空間中構(gòu)建一個(gè)網(wǎng)格模型來表示三維掩碼(3D Mask):利用編輯前后幀提供的深度信息和相機(jī)參數(shù),將每個(gè)像素位置反投影到三維空間,形成網(wǎng)格頂點(diǎn);根據(jù)像素鄰域關(guān)系連接這些頂點(diǎn),構(gòu)建出表示編輯區(qū)域前表面的網(wǎng)格面片;后表面則使用平面結(jié)構(gòu)并通過側(cè)面連接,最終形成一個(gè)封閉的三維網(wǎng)格模型。該三維掩碼模型可根據(jù)不同幀的相機(jī)參數(shù)渲染出對(duì)應(yīng)的二維掩碼。
最后,系統(tǒng)構(gòu)建了一個(gè)基于三維點(diǎn)云引導(dǎo)的視頻生成模型,其思路類似于 [11, 12]。該模型在預(yù)訓(xùn)練的 CogVideoX 模型基礎(chǔ)上,額外引入了一個(gè)條件控制網(wǎng)絡(luò)。
該網(wǎng)絡(luò)以三種信息作為輸入引導(dǎo)視頻生成:1) 編輯后的第一幀圖像;2) 由編輯后點(diǎn)云渲染得到的多視角視頻(提供三維幾何一致性約束);3) 原始輸入視頻(但移除了掩碼區(qū)域的內(nèi)容,用于保持非編輯區(qū)域的時(shí)空一致性)。通過融合這些條件信息,模型最終輸出具有精確三維一致性的場(chǎng)景編輯視頻。
Part 3 效果展示
如圖 4 所示,用戶可以在首幀繪制線稿并標(biāo)記編輯區(qū)域,該方法可以生成高質(zhì)量的三維場(chǎng)景視頻編輯結(jié)果,實(shí)現(xiàn)物體的添加、刪除和替換等操作,所生成新的物體具有良好的三維一致性。

圖 4 基于線稿的三維場(chǎng)景視頻編輯結(jié)果
如圖 5 所示,當(dāng)視頻中存在陰影和反射等較為復(fù)雜的情景時(shí),由于該工作使用了真實(shí)視頻作為數(shù)據(jù)集進(jìn)行訓(xùn)練,也能在一定程度處理上述情況,并生成相對(duì)合理的視頻編輯結(jié)果。

圖 5 陰影和反射等情況的場(chǎng)景編輯效果
如圖 6 所示,給定真實(shí)拍攝的三維場(chǎng)景視頻后,用戶可以標(biāo)記指定編輯區(qū)域,并繪制顏色筆畫指定新生成內(nèi)容的外觀。該工作可以生成較為真實(shí)自然的三維場(chǎng)景視頻編輯結(jié)果。

圖 6 基于顏色筆畫的三維場(chǎng)景視頻編輯結(jié)果
如圖 7 所示,該工作也支持不以線稿作為輸入,而直接使用圖像補(bǔ)全方法對(duì)首幀進(jìn)行編輯,相關(guān)編輯效果也可以合理應(yīng)用至三維場(chǎng)景。

圖 7 基于圖像補(bǔ)全方法的三維場(chǎng)景視頻編輯結(jié)果
Part 4 結(jié)語
隨著大模型和生成式人工智能的迅速發(fā)展,三維場(chǎng)景視頻編輯問題也有了新的解決范式。傳統(tǒng)的模型插入方法存在難以個(gè)性化定制、渲染結(jié)果不夠真實(shí)、無法去除已有物體等問題。
Sketch3DVE 則提出了一種有效的解決方案,通過線稿定制化生成三維物體,合成高真實(shí)感的三維場(chǎng)景視頻編輯效果,并支持基于單目圖像的三維視頻合成和二次編輯。
借助該方法,用戶無需掌握復(fù)雜的專業(yè)三維處理和視頻處理軟件,也無需投入大量時(shí)間和精力,僅憑幾筆簡(jiǎn)單的線稿勾勒,便可以將想象中的物體帶到現(xiàn)實(shí),構(gòu)建出靈感和現(xiàn)實(shí)的橋梁。該項(xiàng)工作已經(jīng)發(fā)表在SIGGRAPH 2025。
有關(guān)論文的更多細(xì)節(jié),及論文、視頻、代碼的下載,請(qǐng)瀏覽項(xiàng)目主頁。



























