NeurIPS 2025 | UniLumos: 引入物理反饋的統(tǒng)一圖像視頻重打光框架,實(shí)現(xiàn)20倍加速的真實(shí)光影重塑!
圖像與視頻重光照(Relighting)技術(shù)在計(jì)算機(jī)視覺與圖形學(xué)中備受關(guān)注,尤其在電影、游戲及增強(qiáng)現(xiàn)實(shí)等領(lǐng)域應(yīng)用廣泛。當(dāng)前,基于擴(kuò)散模型的方法能夠生成多樣且可控的光照效果,但其優(yōu)化過程通常依賴于語義空間,而語義上的相似性無法保證視覺空間中的物理合理性,導(dǎo)致生成結(jié)果常出現(xiàn)高光過曝、陰影錯(cuò)位、遮擋關(guān)系錯(cuò)誤等不合理現(xiàn)象。
針對(duì)上述問題,我們提出了 UniLumos,一個(gè)統(tǒng)一的圖像與視頻重光照框架。本工作的主要?jiǎng)?chuàng)新點(diǎn)主要為:
- 引入幾何反饋以增強(qiáng)物理一致性: 為緩解物理不合理現(xiàn)象,我們?cè)谏蛇^程中引入了來自 RGB 空間的幾何反饋(如深度圖與法線圖),使光照效果與場(chǎng)景結(jié)構(gòu)對(duì)齊,從而顯著提升物理一致性。然而,該反饋機(jī)制依賴高質(zhì)量輸出作為視覺空間監(jiān)督,而傳統(tǒng)的流匹配多步去噪過程計(jì)算開銷大。為此,我們采用路徑一致性學(xué)習(xí),在少步訓(xùn)練條件下保持有效監(jiān)督,同時(shí)大幅提升推理速度。
- 構(gòu)建細(xì)粒度光影評(píng)估基準(zhǔn): 為實(shí)現(xiàn)對(duì)光影效果的細(xì)粒度控制與評(píng)估,我們?cè)O(shè)計(jì)了一個(gè)結(jié)構(gòu)化的六維光影描述標(biāo)簽,以捕捉核心光照屬性。在此基礎(chǔ)上,提出了 LumosBench,一個(gè)基于視覺語言模型(VLM)的光照可控性評(píng)估基準(zhǔn),實(shí)現(xiàn)了對(duì)重光照精度的自動(dòng)化、可解釋評(píng)估。
實(shí)驗(yàn)表明,UniLumos 在顯著提升物理一致性的同時(shí),其重光照質(zhì)量也達(dá)到了當(dāng)前 SOTA 水平,并且在計(jì)算效率上比現(xiàn)有方法提升約 20 倍,實(shí)現(xiàn)了高質(zhì)量與高效率的統(tǒng)一。

- 論文標(biāo)題:UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback
- 論文地址:https://arxiv.org/abs/2511.01678
- 代碼倉(cāng)庫(kù):https://github.com/alibaba-damo-academy/Lumos-Custom
- WanVideo ComfyUI支持: https://github.com/kijai/ComfyUI-WanVideoWrapper
Demo




本演示所呈現(xiàn)內(nèi)容均來源于真實(shí)用戶的生成內(nèi)容,僅用于展示模型的效果。
研究背景與現(xiàn)有方案的局限性
重光照(Relighting)是計(jì)算機(jī)視覺與圖形學(xué)中的一項(xiàng)核心任務(wù),旨在保持場(chǎng)景幾何、材質(zhì)等內(nèi)容固有屬性不變的前提下,對(duì)圖像或視頻中的光照效果進(jìn)行自由編輯與調(diào)整。該技術(shù)在電影后期、游戲開發(fā)、虛擬現(xiàn)實(shí)(VR)與增強(qiáng)現(xiàn)實(shí)(AR)等領(lǐng)域具有重要應(yīng)用價(jià)值,例如實(shí)現(xiàn)演員在不同光照虛擬場(chǎng)景中的無縫合成,或?qū)τ螒颦h(huán)境氛圍進(jìn)行實(shí)時(shí)調(diào)節(jié)。
近年來,基于擴(kuò)散模型(Diffusion Models)的方法在重光照任務(wù)中展現(xiàn)出強(qiáng)大的生成潛力。然而,當(dāng)前主流方法在生成質(zhì)量與實(shí)用性之間仍面臨兩個(gè)根本性挑戰(zhàn):
- 挑戰(zhàn)一:物理一致性的缺失
現(xiàn)有方法通常在語義潛空間中進(jìn)行優(yōu)化,其目標(biāo)是實(shí)現(xiàn)語義層面的相似性,而非物理層面的準(zhǔn)確性。這種設(shè)計(jì)導(dǎo)致模型易產(chǎn)生物理不一致現(xiàn)象,具體表現(xiàn)為:
- 陰影錯(cuò)位(Misaligned Shadows): 陰影方向與物體三維結(jié)構(gòu)不符;
- 高光過曝(Overexposed Highlights): 高光區(qū)域細(xì)節(jié)丟失,不符合真實(shí)光學(xué)反射特性;
- 遮擋關(guān)系錯(cuò)誤(Incorrect Occlusions): 光線與物體之間的相互遮擋邏輯混亂。
盡管已有研究(如 IC-Light、Light-A-Video 等)嘗試引入幾何先驗(yàn)或強(qiáng)化時(shí)序一致性,但它們要么缺乏視覺域(Visual Domain)中的顯式物理監(jiān)督,要么為保持一致性而犧牲了推理效率。
- 挑戰(zhàn)二:評(píng)估體系的不完善
如何系統(tǒng)評(píng)估重光照結(jié)果的質(zhì)量,是當(dāng)前研究中的另一大瓶頸。現(xiàn)有通用圖像評(píng)價(jià)指標(biāo)(如 FID、LPIPS)主要關(guān)注整體感知相似度,卻無法針對(duì)性衡量光照屬性的準(zhǔn)確性。例如,它們難以判斷生成結(jié)果在「陰影方向是否正確」、「色溫是否匹配」、「光照強(qiáng)度是否合理」等細(xì)粒度維度上的表現(xiàn)。這種評(píng)估體系的局限,嚴(yán)重制約了模型在光照可控性(Controllability)方面的迭代與優(yōu)化。

圖 1:各基線方法的定性對(duì)比。所有方法均以一段主體視頻和一段文本光影描述作為輸入,生成在指定光照條件下具有相應(yīng)背景的視頻。UniLumos 生成效果更自然且符合物理一致性。其中,基線方法 IC-Light(逐幀閃爍嚴(yán)重)和 Light-A-Video(光照方向錯(cuò)誤、細(xì)節(jié)丟失)相比,UniLumos 展現(xiàn)出更準(zhǔn)確的陰影對(duì)齊與更高的時(shí)序穩(wěn)定性。
統(tǒng)一的圖像與視頻重光照框架 (UniLumos)
為應(yīng)對(duì)上述挑戰(zhàn),我們提出 UniLumos——一個(gè)統(tǒng)一的圖像與視頻重光照框架。如下圖所示,該框架基于視頻生成模型 Wan 2.1 構(gòu)建,能夠依據(jù)用戶指定的光照條件(如圖像參考、視頻片段或文本提示),在保持場(chǎng)景內(nèi)容結(jié)構(gòu)與時(shí)序一致性的前提下,實(shí)現(xiàn)對(duì)圖像與視頻的高質(zhì)量重光照。

圖 2:UniLumos 整體框架圖。左側(cè)為 LumosData(我們提出的數(shù)據(jù)構(gòu)建流程),該流程包含四個(gè)階段,用于從真實(shí)場(chǎng)景數(shù)據(jù)生成多樣化的重光照樣本對(duì)。右側(cè)展示了 UniLumos 的架構(gòu),一個(gè)統(tǒng)一的圖像與視頻重光照框架,其設(shè)計(jì)目標(biāo)是實(shí)現(xiàn)物理合理的光照控制。
核心創(chuàng)新
我們的核心創(chuàng)新包括一個(gè)旨在增強(qiáng)物理一致性的幾何反饋機(jī)制,以及一個(gè)用于細(xì)粒度效果評(píng)估的基準(zhǔn):
- 引入幾何反饋以增強(qiáng)物理一致性。 為解決擴(kuò)散模型缺乏物理約束的問題,我們引入了一種來自 RGB 空間的幾何反饋機(jī)制。該機(jī)制采用深度圖與表面法線圖作為監(jiān)督信號(hào),二者均為場(chǎng)景的固有幾何屬性,具備光照不變性。在訓(xùn)練過程中,我們將模型生成的 RGB 圖像輸入預(yù)訓(xùn)練的密集幾何估計(jì)模型(如 Lotus),實(shí)時(shí)提取其深度與法線信息,并通過計(jì)算其與原始圖像幾何信息之間的差異構(gòu)建反饋信號(hào),反向傳播以約束生成過程。此機(jī)制強(qiáng)制模型學(xué)習(xí)光影與三維場(chǎng)景結(jié)構(gòu)的對(duì)齊關(guān)系,從而顯著改善陰影、著色與空間一致性。然而,該物理反饋機(jī)制依賴高質(zhì)量的 RGB 輸出以提取準(zhǔn)確的幾何信息,而傳統(tǒng)的多步去噪過程計(jì)算成本高昂。為此,UniLumos 引入了路徑一致性學(xué)習(xí),使模型在少步訓(xùn)練模式下仍能保持有效的幾何監(jiān)督。最終,UniLumos 在推理速度上較現(xiàn)有 SOTA 方法提升達(dá) 20 倍,同時(shí)保持了更高的物理一致性。
- 構(gòu)建細(xì)粒度評(píng)估基準(zhǔn)。 為解決評(píng)估體系不完善的問題,我們構(gòu)建了以下數(shù)據(jù)與評(píng)估基礎(chǔ)基準(zhǔn):
a.LumosData: 引入一套結(jié)構(gòu)化的六維光照標(biāo)注協(xié)議,用于精確捕捉核心光照屬性,包括光照方向、光源類型、強(qiáng)度、色溫、時(shí)間動(dòng)態(tài)與光學(xué)現(xiàn)象。
b.LumosBench: 提出一個(gè)基于大規(guī)模視覺語言模型的自動(dòng)化評(píng)估基準(zhǔn),通過判斷生成結(jié)果是否在六個(gè)維度上與控制指令精確匹配,實(shí)現(xiàn)對(duì)重光照效果的細(xì)粒度、可解釋評(píng)估。
方法詳述
高質(zhì)量訓(xùn)練數(shù)據(jù)構(gòu)建 (LumosData)
我們首先構(gòu)建了一個(gè)高質(zhì)量的光影訓(xùn)練數(shù)據(jù)集 LumosData,其流程如上圖(左)所示。這是一個(gè)可擴(kuò)展的數(shù)據(jù)集構(gòu)建流程,用于從真實(shí)世界視頻中提取高質(zhì)量的重光照訓(xùn)練樣本。
具體流程如下:給定輸入視頻序列
,我們首先利用 BiRefNet 生成主體掩碼
以分離前景。在此基礎(chǔ)上,我們借助 IC-Light 等預(yù)訓(xùn)練重光照模型,并輸入精心設(shè)計(jì)的光影描述文本,合成得到多種光照條件下的退化版本
。為排除背景語義干擾,我們進(jìn)一步使用高斯噪聲對(duì)原背景區(qū)域進(jìn)行修復(fù),得到純凈的背景視頻
,從而在避免引入偽影的前提下獲得干凈的光照信號(hào)。同時(shí),我們還利用結(jié)構(gòu)化的光照語義對(duì)原始視頻的文本描述
進(jìn)行了增強(qiáng)。
基于 Panda70M 視頻數(shù)據(jù)集,我們最終構(gòu)建了包含 11 萬視頻樣本與 120 萬圖像樣本的大規(guī)模高質(zhì)量光影數(shù)據(jù)對(duì),其格式可統(tǒng)一表示為
。
模型架構(gòu)與訓(xùn)練
- 潛空間擴(kuò)散與條件注入
如上圖(右)所示,將對(duì)齊后的視頻輸入
經(jīng)由 Wan-VAE 編碼器處理,得到語義潛表示
。在訓(xùn)練過程中,通過流匹配算法生成帶噪潛輸入
,并將其與強(qiáng)條件信號(hào)
和
沿通道維度拼接。該組合張量被輸入至 Wan 主干網(wǎng)絡(luò)的 DiT 塊中。所有新增的投影層與融合層均以零權(quán)重初始化,以確保與 Wan 預(yù)訓(xùn)練模型的兼容性,并從訓(xùn)練伊始保持優(yōu)化穩(wěn)定性。
- 聯(lián)合目標(biāo)函數(shù)
我們的訓(xùn)練目標(biāo)融合了三種互補(bǔ)的損失函數(shù),以權(quán)衡外觀保真度、幾何一致性與推理速度。整體損失定義為:
:標(biāo)準(zhǔn)流匹配損失,用于對(duì)齊預(yù)測(cè)速度場(chǎng)與真實(shí)速度場(chǎng);
:路徑一致性損失,旨在提升少步去噪下的模型性能;
:物理引導(dǎo)損失,通過估計(jì)的深度
與法向圖
對(duì) RGB 輸出進(jìn)行監(jiān)督。
我們固定權(quán)重為
。該統(tǒng)一目標(biāo)驅(qū)使模型生成光照真實(shí)、時(shí)序平滑且物理合理的重光照結(jié)果,并在保持輸出質(zhì)量的同時(shí)支持高效推理。
- 訓(xùn)練策略
為平衡物理監(jiān)督與訓(xùn)練效率,我們借鑒路徑一致性調(diào)度思想,采用選擇性優(yōu)化策略。在每輪訓(xùn)練迭代中,我們按 80/20 比例劃分批次,以避免全監(jiān)督帶來的過高開銷,同時(shí)保留有效的學(xué)習(xí)信號(hào)。
具體而言,如算法所示,每批次中 20% 的樣本用于計(jì)算路徑一致性損失
,該過程涉及三次前向與一次反向傳播,以強(qiáng)化跨時(shí)序的一致性約束;其余 80% 樣本用于標(biāo)準(zhǔn)流匹配損失
,其中 50% 的樣本進(jìn)一步通過
接受 RGB 空間幾何反饋監(jiān)督(即深度與法向?qū)R)。該概率化調(diào)度在保障高訓(xùn)練吞吐量的同時(shí),使模型能夠從多層級(jí)監(jiān)督中受益。為進(jìn)一步增強(qiáng)訓(xùn)練過程中的光照多樣性,我們對(duì)退化主體
施加隨機(jī)光照增強(qiáng),從而引入真實(shí)的光照變化,而無需依賴顯式配對(duì)的采集數(shù)據(jù)。
實(shí)驗(yàn)結(jié)果與分析
我們?cè)趫D像與視頻重光照任務(wù)上進(jìn)行了廣泛實(shí)驗(yàn),并與多種重光影 SOTA 方法進(jìn)行了系統(tǒng)比較。
A. 定量結(jié)果:多項(xiàng)指標(biāo)達(dá)到 SOTA
如下表所示,UniLumos 在所有關(guān)鍵指標(biāo)上均取得最優(yōu)性能:
- 視覺保真度: 在圖像與視頻任務(wù)中,PSNR 與 SSIM 均優(yōu)于所有基線模型,表明其生成結(jié)果更清晰、結(jié)構(gòu)保持更好。
- 時(shí)間一致性: 在視頻任務(wù)中,UniLumos 的 R-Motion 指標(biāo)顯著低于其他方法(如 Light-A-Video),說明其生成視頻的光影過渡更平滑,閃爍與抖動(dòng)現(xiàn)象更少。
- 物理一致性: 在我們提出的 Lumos 一致性指標(biāo)上,UniLumos 的生成光影準(zhǔn)確性得分顯著高于基線,其密集幾何誤差也大幅降低,驗(yàn)證了其物理合理性的顯著提升。

B. LumosBench 細(xì)粒度可控性分析
我們進(jìn)一步使用 LumosBench 評(píng)估模型在六個(gè)光照維度上的可控性。具體而言,我們構(gòu)建了一個(gè)包含 2000 條測(cè)試提示詞的數(shù)據(jù)集,每條提示詞由一個(gè)視頻和一條結(jié)構(gòu)化文本描述組成,旨在每次僅變動(dòng)一個(gè)光照屬性,同時(shí)保持其他變量恒定。這些提示詞覆蓋六大類別:方向、光源類型、強(qiáng)度、色溫、時(shí)間動(dòng)態(tài)與光學(xué)現(xiàn)象,每個(gè)類別下包含多個(gè)子類型(例如方向分為前/側(cè)/后光)。
為衡量生成光照屬性與預(yù)期屬性之間的一致性,我們采用 Qwen2.5-VL 對(duì)重光照結(jié)果進(jìn)行分析,并判斷目標(biāo)屬性是否正確呈現(xiàn)。每個(gè)維度獨(dú)立評(píng)分,最終的可控性得分為所有六個(gè)維度的平均值。
UniLumos (1.3B) 的平均可控性得分達(dá) [此處缺失具體數(shù)值],顯著高于其他專有重光照模型,如 IC-Light Per-Frame 與 Light-A-Video。其表現(xiàn)甚至優(yōu)于參數(shù)量更大的通用視頻生成模型(如 Wan2.1 14B),說明 UniLumos 在光照屬性的細(xì)粒度控制方面具備顯著優(yōu)勢(shì)。

C. 定性結(jié)果:視覺效果更真實(shí)、更穩(wěn)定
我在基線方法對(duì)比和下圖中提供了定性比較結(jié)果,充分展現(xiàn)了 UniLumos 在光照真實(shí)感、時(shí)序一致性與可控性方面的優(yōu)勢(shì):
- 光照質(zhì)量與可控性: 如基線方法對(duì)比圖所示,UniLumos 生成的光照效果能更準(zhǔn)確地匹配目標(biāo)描述,細(xì)膩地捕捉方向性陰影、色調(diào)與強(qiáng)度變化。對(duì)比方法則要么未能有效反映預(yù)期的光照變化,要么產(chǎn)生過度均勻、缺乏真實(shí)感的結(jié)果。
- 時(shí)序一致性: 與逐幀處理的 IC-Light、Light-A-Video 等基線方法相比,UniLumos 實(shí)現(xiàn)了更平滑的幀間過渡,有效避免了閃爍或結(jié)構(gòu)畸變。這一優(yōu)勢(shì)得益于我們所采用的時(shí)空聯(lián)合建模機(jī)制,以及物理感知監(jiān)督與路徑一致性訓(xùn)練的進(jìn)一步增強(qiáng)。
- 前景細(xì)節(jié)保持: UniLumos 在面部結(jié)構(gòu)、衣物紋理等主體細(xì)節(jié)的保持上優(yōu)于基線模型。例如,Light-A-Video 偶爾會(huì)出現(xiàn)形變或身份特征漂移,而我們的模型在長(zhǎng)序列中仍能保持高度保真。
- 基于參考視頻的重光照: 下圖展示了 UniLumos 在不同參考視頻條件下的生成效果。模型成功實(shí)現(xiàn)了全局光照方向與細(xì)微空間變化的跨場(chǎng)景適配,展現(xiàn)出在真實(shí)場(chǎng)景下優(yōu)異的泛化能力。

D. 效率對(duì)比:實(shí)現(xiàn) 20 倍加速
在生成 49 幀 480p 視頻的任務(wù)中:UniLumos (1.3B) 僅需 12 秒;IC-Light(逐幀處理)需 277 秒;Light-A-Video (Wan-1.3B) 需 756 秒;Light-A-Video (CogVideoX-2B) 需 917 秒。UniLumos 在保持 SOTA 生成質(zhì)量的同時(shí),實(shí)現(xiàn)了顯著的推理效率提升。

E. 消融實(shí)驗(yàn):關(guān)鍵模塊分析
如下表和圖所示,我們通過消融研究驗(yàn)證各模塊的貢獻(xiàn):
- 物理引導(dǎo)反饋: 在同時(shí)移除深度與法向反饋(w/o All Feedback)的條件下,模型在圖像質(zhì)量與物理一致性方面均出現(xiàn)顯著下降,驗(yàn)證了本文所提出物理引導(dǎo)損失函數(shù)的必要性。值得注意的是,僅移除法向監(jiān)督所造成的性能下降遠(yuǎn)大于僅移除深度監(jiān)督,這表明在光影交互建模中,表面朝向信息相較于場(chǎng)景距離信息具有更關(guān)鍵的作用。
- 路徑一致性學(xué)習(xí): 在去除路徑一致性模塊(w/o Path Consistency)的情況下,各項(xiàng)物理指標(biāo)僅出現(xiàn)輕微下滑,同時(shí) SSIM 與 LPIPS 指標(biāo)仍保持競(jìng)爭(zhēng)力。這表明路徑一致性模塊在幾乎不犧牲生成性能的前提下,為少步生成場(chǎng)景帶來了可觀的效率優(yōu)勢(shì),證明了其實(shí)際應(yīng)用價(jià)值。
- 訓(xùn)練模式: 為評(píng)估本文統(tǒng)一訓(xùn)練范式的有效性,我們對(duì)比了分領(lǐng)域訓(xùn)練的模型變體:僅使用視頻訓(xùn)練會(huì)導(dǎo)致視覺質(zhì)量下降,而僅使用圖像訓(xùn)練則會(huì)損失時(shí)序平滑性。相比之下,我們的統(tǒng)一方法在兩類輸入上均取得了高質(zhì)量的重光照結(jié)果,并實(shí)現(xiàn)了最優(yōu)的時(shí)序一致性平衡。


結(jié)論
針對(duì)現(xiàn)有基于擴(kuò)散模型的重光照方法在物理真實(shí)性差和評(píng)估維度單一等方面的挑戰(zhàn),我們提出了 UniLumos,一個(gè)統(tǒng)一的圖像與視頻重光照框架。該框架引入 RGB 空間的幾何反饋,包括深度圖與法線圖作為監(jiān)督信號(hào),并將其與流匹配基模相結(jié)合,顯著提升了光照效果的物理一致性。
為克服該反饋機(jī)制帶來的計(jì)算效率瓶頸,我們采用路徑一致性學(xué)習(xí)來增強(qiáng)物理監(jiān)督的有效性,在實(shí)現(xiàn)當(dāng)前最優(yōu)生成質(zhì)量的同時(shí),帶來了 20 倍的推理加速。
此外,為解決評(píng)估體系不完善的問題,我們構(gòu)建了 LumosBench,一個(gè)基于視覺語言模型的光照可控性評(píng)估基準(zhǔn),實(shí)現(xiàn)了對(duì)重光照精度的自動(dòng)化、可解釋評(píng)估。

































