首個統一「圖像/視頻」自適應語義分割框架來了!QuadMix刷榜多項基準
在語義分割領域,無監督領域自適應(Unsupervised Domain Adaptive Semantic Segmentation,UDA-SS)旨在將有標簽的源域知識遷移到無標簽的目標域。隨著數據規模和多樣性的迅速提升,該任務日益重要。
目前主流研究集中于圖像UDA-SS,視頻UDA-SS近年來逐漸開始受到關注。
然而,兩者的研究路徑幾乎完全割裂,存在如下挑戰:
- 研究割裂:圖像與視頻任務各自為政,導致方法碎片化、認知零散;
- 方法難遷移:圖像方法無法有效遷移到視頻,視頻方法無法泛化至圖像;
- 知識利用低效:兩類任務間經驗難以共享,降低整體研究效率。
最近,東北大學、武漢大學、英國薩里大學、新加坡南洋理工大學的研究人員首次提出統一處理圖像與視頻UDA-SS的框架,通過統一特征空間建模和統一訓練路徑,有效解決上述割裂與低效問題。

論文鏈接:https://ieeexplore.ieee.org/document/10972076
代碼鏈接:https://github.com/ZHE-SAPI/UDASS
為此,研究人員設計了全新機制QuadMix(四向混合),構建連續、穩健、豐富的中間域表示,從而大幅縮小跨域差異。并進一步引入光流引導的時空聚合模塊,用于細粒度特征的分布對齊。
統一不是簡單地「通用化」,而是一種深入語義建模的能力提升。QuadMix作為橋梁,不僅使圖像和視頻任務共享表征基礎,更通過可擴展的路徑結構,有望實現跨模態、跨場景的泛化能力,從而為未來多模態感知系統奠定了范式基礎。

圖1 相較于分別研究圖像和視頻的無監督域適應語義分割(UDA-SS),提出了統一研究二者的研究框架
方法詳解:從四向混合到時空對齊
研究人員將圖像視為無時間依賴的視頻特例,提出統一建模圖像與視頻的視覺感知領域自適應語義分割新范式。
QuadMix:首創四向混合機制,跨域特征更穩定
研究人員在顯式特征空間中同時引入以下四種混合路徑:
(a) S → S:源域內部混合;
(b) T → T:目標域內部混合;
(c) T → (S → S):目標域融合到源內部混合中;
(d) S → (T → T):源域融合到目標內部混合中。
這種設計不僅打破了傳統一階/雙向Mixup的限制,更是首次在特征空間中引入交叉式路徑結構,最大限度地提升了域內連續性與語義對齊能力。
實驗表明,四向混合路徑在t-SNE可視化中呈現更緊致、更均衡的分布,顯著提升了遷移穩定性與泛化魯棒性。

圖2 不同領域混合范式的對比。與現有方法相比(存在如域內不連續性,特征泛化性差,以及特征分布不一致問題),研究人員提出的QuadMix方法在空間(時間)維度的像素級與特征級上,同時對域內混合和跨域混合進行了泛化與增強。其中符號「*」表示樣本模板

圖3 所提出的QuadMix用于UDA-SS的整體框架概覽。圖像領域自適應語義分割(Image UDA-SS)遵循一條并行流程,唯一的區別在于不包含時間線索,如圖中虛線所示。圖(a):QuadMix包含四條全面的域內/跨域混合路徑,在時空像素層與特征層上橋接域間差異。像素級混合作用于相鄰幀、光流和標簽/偽標簽,旨在迭代生成兩個增強的跨域中間域:T→(S→S)和S→(T→T)。這些中間域克服了源域S與目標域T內部的非連續性,并展現出更具泛化性的特征,從而有效彌合域間差異。此外,在quad-mixed域之間進行的特征級混合,有助于緩解因不同視頻上下文導致的特征不一致問題。圖(b):光流引導的時空特征聚合模塊將跨域視頻特征壓縮至一個緊湊的類別感知空間中,有效最小化類內差異,并提升類間判別能力,從而增強目標域的語義表征能力。整個訓練過程是端到端的。在圖(c)中,目標域測試階段需要輸入相鄰幀堆疊的序列和光流
類別感知Patch模板生成
QuadMix的混合質量高度依賴于Patch模板的生成機制。為此,研究人員創新性地引入「在線類別感知Patch模板」機制:
- 針對圖像和視頻,分別提取語義一致的類別區域作為模板;
- 在每個訓練迭代中自適應更新,避免固定模板帶來的標簽漂移問題;
- Patch模板不僅包含像素,還包括偽標簽和光流信息,覆蓋圖像+視頻兩個維度;
這些模板為每個iteration中QuadMix路徑構建提供高質量輸入,確保跨域混合具備一致的語義表征。

圖4 展示了在視頻UDA-SS中,QuadMix的多種混合策略示例:(a)為源域S和目標域T的原始樣本(QuadMix之前);(b)顯示了源模板S*(如人物、騎手)與目標模板T*(如交通標志、天空);(c)展示了域內混合路徑S→S與T→T的結果;(d)展示了進一步的跨域混合路徑S→(T→T)與T→(S→S),即QuadMix后的結果。這些混合策略分別作用于視頻幀、光流與標簽/偽標簽。需要特別說明的是,每一輪訓練中所需的Patch模板均通過在線機制根據前一輪(n?1)自適應生成
像素級+特征級雙層混合
輸入級混合解決圖像構成層次的差異,特征級混合則進一步對語義表征層進行融合與對齊。
- 輸入級QuadMix:通過Hadamard運算疊加幀、標簽與光流模板;
- 特征級QuadMix:構建共享類別掩碼區域,在特征圖中動態拼接并共享表示;
研究人員還使用輕量化的1x1卷積模塊實現特征融合,從而減少語義漂移區域,提高模型魯棒性,并有效降低了計算成本。
時空聚合機制:讓視頻特征對齊更加細粒度
與圖像不同,視頻數據包含時序信息,如何充分利用時間結構進行語義對齊,是提升視頻UDA性能的關鍵。
研究人員提出的「光流引導的時空聚合模塊」,圍繞三個維度展開:
光流引導的偽標簽傳播
- 使用ACCEL網絡結構獲取光流;
- 將光流用于偽標簽warp操作,獲得跨幀偽標簽;
- 保證語義一致性與時序魯棒性;
該模塊顯著提高了偽標簽在視頻中的質量,為后續聚合與對齊奠定基礎。
類別感知的空間聚合
- 按類別構建特征子空間;
- 對每類特征進行平均聚合,獲得「類別代表向量」;
- 使用該向量進行空間重構,提升類別判別力;
時間維度的信息聚合
- 多幀空間聚合結果通過信息熵加權方式融合;
- 構建時序一致的語義表示;
最終,整個模塊實現類別–空間–時間三重維度的精細化特征對齊,為目標域提供了堅實的泛化支持。

圖5 展示了用于領域對齊的光流引導時空特征聚合過程,其中t′表示前一時間步,ω^T_{t′→t}表示目標幀的時間聚合權重。???{t′→t}表示從前一時間步t′通過光流引導warp得到的幀特征,其中「→」表示沿時間維度的warp方向。
實驗驗證:全面評估四大數據集,全面領先
研究人員在四個經典的UDA-SS benchmark上進行了嚴格驗證,涵蓋圖像與視頻兩大類任務:

視頻域適應語義分割任務


圖像域適應語義分割任務
在各種任務上,該方法均顯著超過現有SOTA方法,如DACS、ProDA、DAFormer、SAC、CMOM等。其中最引人注目的是:在SYNTHIA-Seq→Cityscapes-Seq視頻遷移任務上,研究人員使用Vision Transformer架構(QuadMix ViT)實現了67.2的mIoU,刷新歷史最好結果,領先前SOTA(PAT、TPL-SFC)近12個百分點。


此外,在GTAV→Cityscapes圖像遷移任務中,QuadMix實現66.8的mIoU,超過DAFormer、SePiCo等先進方法,展現統一方法在圖像上的強大適應能力。
消融實驗

可視化結果分析

圖6 來自Cityscapes-Seq驗證集的三個連續幀的定性結果。結果展示順序如下:目標圖像、真實標簽、僅源域模型的語義分割結果、DA-VSN[16]、TPS[17]、CMOM[2]以及提出的方法
該方法在分割精度上表現最佳,邊緣更平滑、細節更精細。
特征空間分布TSNE分析

圖7 展示了不同混合范式在t-SNE空間中的可視化效果,分別以sign(第一行)和pole(第二行)兩個類別為例。子圖(a)到(e)的實驗設置對應表VI中的消融實驗編號:Exp.ID 0*、ID 6、ID 1、ID 3和ID 12。請注意,子圖(b)、(d)和(e)中的點數相同。子圖(b)展示的是域內混合(intra-mixed)后的特征嵌入,呈現出較為連續的分布;而子圖(e)展示的 四向混合(quad-mixed) 域則表現出更具泛化性的特征分布,而非聚集式的形式。這種分布更有效地緩解了域內不連續性問題,并更好地實現知識遷移中的細粒度特征分布拉近。
理論支持+可復現性+工業可落地性
理論支撐
QuadMix的有效性不僅體現在性能指標上,還獲得了充分的理論與可視化支撐:
- 使用t-SNE對比QuadMix與傳統Mixup的特征分布,發現QuadMix特征分布更均勻、類別邊界更清晰;
- 通過類別交叉可視化,展示quad-mixed域具備更強的語義一致性與邊界準確性;
可復現性
- 所有實驗代碼已開源
- 支持主流框架(PyTorch)和多種分割backbone(CNN/ViT)
- 訓練腳本、預處理流程、模型參數均一鍵調用
工業部署潛力
由于QuadMix可以不依賴offline warm-up模型和固定偽標簽生成器,具備如下優勢:
- 易于部署到邊緣設備或實時視頻處理系統;
- 可無縫集成至現有工業語義分割pipeline;
- 支持城市感知、AR導航、智能制造等多種場景;
未來研究:從統一分割邁向跨模態感知新方向
研究人員認為,統一研究視頻和圖像UDASS不是融合的終點,而是跨模態泛化的起點。
QuadMix所提出的「四向混合」不僅服務于圖像與視頻的統一語義分割,更提供了未來跨模態建模的結構性范式:
- 可推廣至圖文融合(Image-Text UDA)、點云+圖像聯合建模(Multi-Sensor Fusion);
- 可用于大模型預訓練中的中間域設計,如Diffusion模型數據生成優化;
- 甚至可拓展到Reinforcement Learning場景中的策略遷移與經驗對齊;
整體而言,QuadMix代表的是從數據空間結構建模出發,構建統一泛化表示的全新路徑。


































