NeurIPS Spotlight|運(yùn)動(dòng)遮擋都不怕,0先驗(yàn)、一段視頻精準(zhǔn)預(yù)測(cè)相機(jī)參數(shù)
論文一作李放,美國(guó)伊利諾伊大學(xué)香檳分校 (UIUC) 博二學(xué)生,研究方向?yàn)?4D 視覺定位、重建/新視角合成以及理解。第二作者為美國(guó)伊利諾伊大學(xué)香檳分校博四學(xué)生張昊。通訊作者是 Narendra Ahuja, 美國(guó)伊利諾伊大學(xué)香檳分校 Donald Biggar Willet Professor(Ming-hsuan Yang, Jia-bin Huang 博士導(dǎo)師)。這篇工作為作者在博一期間完成。
研究背景
在三維重建、NeRF 訓(xùn)練、視頻生成等任務(wù)中,相機(jī)參數(shù)是不可或缺的先驗(yàn)信息。傳統(tǒng)的 SfM/SLAM 方法(如 COLMAP)在靜態(tài)場(chǎng)景下表現(xiàn)優(yōu)異,但在存在人車運(yùn)動(dòng)、物體遮擋的動(dòng)態(tài)場(chǎng)景中往往力不從心,并且依賴額外的運(yùn)動(dòng)掩碼、深度或點(diǎn)云信息,使用門檻較高,而且效率低下。
縱使在 3R 時(shí)代下,三維與四維前饋模型可以高效產(chǎn)出相機(jī)相對(duì)位姿與點(diǎn)云結(jié)構(gòu),但 3R 模型本質(zhì)上仍存在很多痛點(diǎn)。3R 模型對(duì)部署硬件容量需求大 (大 GPU), 對(duì)豐富高精度訓(xùn)練數(shù)據(jù)需求大,易發(fā)生場(chǎng)景漂移。而且目前基于 3R 模型的衍生品們?nèi)詿o法做到同時(shí)解決這些問題。Per-scene optimization 的方法常常依賴多種監(jiān)督和先驗(yàn),同時(shí)優(yōu)化效率低下。
這讓作者重新思考:有沒有一種方法可以從動(dòng)態(tài)場(chǎng)景視頻準(zhǔn)確、高效、穩(wěn)定地預(yù)測(cè)相機(jī)參數(shù),不受前景運(yùn)動(dòng)物體的影響,且僅用一段 RGB 視頻作為監(jiān)督呢?
方法概覽
為了實(shí)現(xiàn)這一目的,他們提出了 ROS-Cam(RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes),已被 NeurIPS 2025 接收為 Spotlight 論文。代碼即將開源。

- 論文標(biāo)題:RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes
- 論文鏈接: https://arxiv.org/abs/2509.15123
- Github鏈接:https://github.com/fangli333/ROS-Cam

從第一性原理出發(fā),作者分析并將這個(gè)挑戰(zhàn)拆解為幾部分:
- 如何高效、準(zhǔn)確地建立幀與幀之間的聯(lián)系?
- 如何有效降低動(dòng)態(tài)場(chǎng)景中移動(dòng)點(diǎn)對(duì)視覺定位損失回歸的影響?
- 能否做到僅用 RGB 視頻進(jìn)行監(jiān)督(理論上所需的最少監(jiān)督),且不加入其他任何先驗(yàn),但依舊高效和準(zhǔn)確?

基于上述思考,作者提出了一種僅 RGB 監(jiān)督,高效,準(zhǔn)確的動(dòng)態(tài)場(chǎng)景相機(jī)參數(shù)估計(jì)的新方法。該方法涵蓋了三個(gè)部分:
1)補(bǔ)丁式跟蹤濾波器
他們發(fā)現(xiàn)現(xiàn)有方法都依賴預(yù)訓(xùn)練的密集預(yù)測(cè)模型(深度,光流,點(diǎn)跟蹤)建立幀間聯(lián)系作為偽監(jiān)督。但這種密集預(yù)測(cè)模型經(jīng)常由于準(zhǔn)確性無法保證而引入噪聲偽監(jiān)督,影響模型損失回歸。但是,準(zhǔn)確且魯棒的幀間關(guān)系的建立理論上并不需要密集預(yù)測(cè),相反,密集預(yù)測(cè)除了引入噪聲外還會(huì)增加模型處理數(shù)據(jù)的負(fù)擔(dān),降低模型優(yōu)化效率。因此,他們提出補(bǔ)丁式跟蹤濾波器,用來高效,準(zhǔn)確的建立視頻幀之間的鉸鏈?zhǔn)较∈椟c(diǎn)跟蹤聯(lián)系。

2)異常值感知聯(lián)合優(yōu)化
由于不使用任何運(yùn)動(dòng)先驗(yàn),部分偽監(jiān)督會(huì)包含移動(dòng)點(diǎn)(outlier)軌跡,對(duì)模型損失回歸造成負(fù)面影響。不同于與現(xiàn)有方法對(duì)每一幀的每一個(gè)像素賦予一個(gè)不確定性參數(shù)不同,作者認(rèn)為每一條提取出的點(diǎn)跟蹤軌跡表示場(chǎng)景中的一個(gè)點(diǎn)(他們稱之為校準(zhǔn)點(diǎn)),且對(duì)每一個(gè)校準(zhǔn)點(diǎn)賦予一個(gè)不確定性參數(shù)。相比較現(xiàn)有工作,他們所提出的方法可以使模型需要學(xué)習(xí)的不確定性參數(shù)量隨著幀數(shù)增加趨于線性增長(zhǎng),從而加快優(yōu)化效率。
作者用柯西分布中的 scale 參數(shù)來代表不確定性參數(shù),并引入 softplus 來保證不確定參數(shù)大于 0。此外,他們引入全新的「平均積累誤差」和「柯西損失函數(shù)」來對(duì)模型進(jìn)行監(jiān)督,有效避免移動(dòng)點(diǎn)對(duì)相機(jī)參數(shù)回歸的影響。

3)雙階段訓(xùn)練策略。
由于不確定性參數(shù)的引入,同時(shí)優(yōu)化所有參數(shù)會(huì)導(dǎo)致模型傾向于收斂至局部最小值。為了避免這種情況,經(jīng)過對(duì)新引入損失函數(shù)中的 Softplus 的極限與凸最小值分析,作者設(shè)計(jì)了雙階段訓(xùn)練策略,在第一階段實(shí)現(xiàn)模型快速收斂,在第二階段實(shí)現(xiàn)模型穩(wěn)定高效 fine-optimization。
實(shí)驗(yàn)結(jié)果
- 運(yùn)行時(shí)間趨勢(shì)對(duì)比(隨幀數(shù)增加呈線性增長(zhǎng))

- 不同相機(jī)參數(shù)估計(jì)的新視角合成效果對(duì)比(iphone 數(shù)據(jù)集)

- 不同相機(jī)參數(shù)估計(jì)的新視角合成效果對(duì)比(nerf-ds 數(shù)據(jù)集)

- 相機(jī) pose 對(duì)比(mpi-sintel 數(shù)據(jù)集)

- 其他 quantitative 結(jié)果 (更多結(jié)果請(qǐng)見論文及 Appendix)































