CVPR 2025 | 解決XR算力瓶頸,F(xiàn)ovealSeg框架實(shí)現(xiàn)毫秒級(jí)IOI分割
本文共同第一作者為紐約大學(xué)研究生 Hongyi Zeng 和Wenxuan Liu。合作作者為 Tianhua Xia、Jinhui Chen、Ziyun Li。通訊作者為紐約大學(xué)電子工程系和計(jì)算機(jī)系教授 Sai Qian Zhang,研究方向?yàn)楦咝斯ぶ悄?,硬件加速和增?qiáng)現(xiàn)實(shí)。
在 XR 正逐步從概念走向落地的今天,如何實(shí)現(xiàn) “按用戶所視,智能計(jì)算” 的精準(zhǔn)理解,一直是視覺計(jì)算領(lǐng)域的核心挑戰(zhàn)之一。
最近,一項(xiàng)來自紐約大學(xué)和 Meta Reality Labs 的聯(lián)合研究引發(fā)了行業(yè)關(guān)注:Foveated Instance Segmentation —— 一種結(jié)合眼動(dòng)追蹤信息進(jìn)行實(shí)例分割的新方法,已被 CVPR 2025 正式接收。

- 代碼連接:https://github.com/SAI-Lab-NYU/Foveated-Instance-Segmentation
- 論文連接:https://arxiv.org/pdf/2503.21854
1. 從算力瓶頸談起
在當(dāng)下主流的 AR / VR 頭顯中,內(nèi)置相機(jī)往往具備 720 P、1080 P 乃至 1440 P 的拍攝能力,但要想在如此高分辨率的畫面上做實(shí)例分割,推理延遲常常飆升至數(shù)百毫秒甚至秒級(jí),遠(yuǎn)超人眼在交互中對(duì)時(shí)延(50–100 ms)所能接受的舒適閾值。論文 Foveated Instance Segmentation 便是從 “為什么一定要整幅圖都分割” 這一疑問切入,指出絕大多數(shù)計(jì)算其實(shí)浪費(fèi)在用戶根本不關(guān)注的區(qū)域上。Figure 1 里的臥室示例就說明,用戶目光僅停留在床或衣柜等極小區(qū)域,而 Figure 3 則量化了分辨率與延遲的關(guān)系:當(dāng)輸入從 640 × 640 縮到 64 × 64 時(shí),延遲能從 300 ms 量級(jí)驟降到十毫秒級(jí)。


2. 人眼注視模式帶來的靈感
與桌面視覺任務(wù)不同,XR 用戶的視線呈 “凝視 — 掃視” 交替:每秒 1–3 次掃視,每次 20–200 ms;掃視期間視覺輸入被大腦抑制,凝視期間只有注視點(diǎn)周圍擁有高視覺敏銳度。Figure 2 直觀展示了凝視 / 掃視節(jié)奏,而作者在 Aria Everyday Activities 數(shù)據(jù)集上的統(tǒng)計(jì)進(jìn)一步揭示:只需像素差分即可將視頻切成 “視段”,段內(nèi)幀間差異極??;若注視點(diǎn)位移低于 0.1 的閾值,上一幀的分割結(jié)果即可直接復(fù)用(Figure 4)。這為跨幀掩碼復(fù)用和區(qū)域限定分割奠定了扎實(shí)的人因與統(tǒng)計(jì)基礎(chǔ)。


3. 系統(tǒng)總覽:FovealSeg 框架
作者據(jù)此提出 FovealSeg:內(nèi)向攝像頭以 120 Hz 捕獲眼部圖像,經(jīng)眼動(dòng)追蹤 5–10 ms 就能得出注視坐標(biāo);外向攝像頭同步采集前向高分辨率畫面??蚣苁紫葯z測(cè)是否發(fā)生掃視(閾值 α),再判斷場(chǎng)景是否突變(閾值 β),若兩者皆否,就把分割任務(wù)限制在當(dāng)前 gaze 坐標(biāo)附近的 IOI 區(qū)域,并復(fù)用歷史掩碼。流程圖見 Figure 5。

4. 算法核心:FSNet
FovealSeg 的核心網(wǎng)絡(luò)模塊是 FSNet:
1. 顯著性自適應(yīng)下采樣 —— 把 gaze 坐標(biāo)編碼成距離圖,與原圖拼成四通道張量;Saliency DNN 依據(jù)距離圖按需放大 IOI、壓縮背景。
2. 分割 / 分類雙分支 —— 前支路輸出二值 IOI 掩碼,后支路輸出類別向量,二者外積得最終掩碼。
3. 階段式訓(xùn)練 —— 先固定分割網(wǎng)訓(xùn)練 Saliency DNN,再反向微調(diào)分割 / 分類分支;Dice Loss + 面積加權(quán) Focal Loss 解決小目標(biāo)易被背景淹沒的頑疾。
Figure 6 依次展示了 IOI 局部放大策略的可視化示意、網(wǎng)絡(luò)結(jié)構(gòu)圖和交替訓(xùn)練流程。

5. 效果驗(yàn)證:速度與精度雙贏
在 ADE20K、LVIS、Cityscapes 等數(shù)據(jù)集上,作者用 Jetson Orin NX 做測(cè)試:
- FSNet 將輸入縮到 64 × 64 仍能把 IoU 提到 0.36 以上,比統(tǒng)一下采樣基線高 ≥ 0.14;
- FovealSeg 進(jìn)一步利用跨幀重用,在 α=0.1、β=0.01 設(shè)置下把 FLOPs 降到 ND(無下采樣 baseline)基線的 1?75,比 NS(無幀復(fù)用 baseline)進(jìn)一步降低近兩倍。
Figure 7 的柱狀圖直觀呈現(xiàn)了不同 α、β 組合下三種方案的 FLOPs 差距,端到端延遲僅 84 ms,重回實(shí)時(shí)交互紅線。

6. 消融與討論
論文還就下采樣倍率、Gaussian Kernel 大小、gaze 輸入等因素做了消融:
- 下采樣過猛雖降精度,但 FSNet 依舊顯著優(yōu)于平均池化基線;
- Kernel 越大,顯著區(qū)域權(quán)重越高,精度隨之提升。
- 將 gaze 坐標(biāo)替換成隨機(jī)噪聲,IoU 至少掉 0.3,說明注視信息是方法立足之本。
這些對(duì)比雖以表格呈現(xiàn)(Table 3–5),但也佐證了 “人因驅(qū)動(dòng) + 統(tǒng)計(jì)約束” 在模型設(shè)計(jì)中的必要性。

7. 小結(jié)與展望
FovealSeg 以人眼生理特征為鑰匙,把‘中央精細(xì)處理、周邊壓縮簡(jiǎn)化’的 foveated 思想真正落到實(shí)例分割上:
- FSNet 巧用顯著性采樣,把計(jì)算集中在 IOI,兼顧分割和分類;
- FovealSeg 又用掃視檢測(cè)與幀間復(fù)用,把冗余推理壓到極致。
在當(dāng)前 XR 終端算力有限的背景下,它為 “毫秒級(jí) IOI 分割” 提供了切實(shí)可落地的方案;隨著更高精度、低延遲的眼動(dòng)傳感器普及,以及多 IOI 并行、多任務(wù)融合的需求升溫,foveated 視覺計(jì)算或?qū)⒊蔀?XR 生態(tài)里的 “默認(rèn)范式”,也為更多實(shí)時(shí)計(jì)算密集型任務(wù)(如場(chǎng)景理解、三維重建)提供新的能效平衡思路。


























