NeurIPS 2025 Spotlight | 香港大學提出無需數據標記的ViT密集表征增強方法
本文共同第一作者為陳寅杰、顏子鵬,相關研究工作于香港大學科研實習期間完成;通訊作者 Andrew F. Luo 為香港大學助理教授。該工作已經被 NeurIPS 2025 會議接受為 Spotlight。
在視覺處理任務中,Vision Transformers(ViTs)已發展成為主流架構。然而,近期研究表明,ViT 模型的密集特征中會出現部分與局部語義不一致的偽影(artifact),進而削弱模型在精細定位類任務中的性能表現。因此,如何在不耗費大量計算資源的前提下,保留 ViT 模型預訓練核心信息并消除密集特征中的偽影?
香港大學團隊提出一種無需數據標記的 ViT 密集表征增強方法 PH-Reg(Post Hoc Registers),為該挑戰提供了全新且高效的解決方法。該方法融合測試時增強(test-time augmentation)的去噪策略,去除教師模型密集特征中的偽影;并通過自蒸餾方法,在無需額外數據標記的條件下,得到能夠輸出無偽影密集特征的學生模型。
PH-Reg 具備良好的架構適配性,可靈活應用于 CLIP、DINOv2 等不同模型架構,能夠高效去除密集特征的偽影,以此顯著提升模型在下游任務中的性能表現。

- 論文標題:Vision Transformers with Self-Distilled Registers
- 論文地址:https://arxiv.org/abs/2505.21501
- 代碼地址:https://github.com/0raiser0/PH-Reg
偽影破壞模型密集特征的語義一致性
盡管當前 ViT 模型基于數據驅動的注意力機制具備強大表示能力,但模型密集特征中存在的偽影往往會破壞其精細定位能力,而該能力對于語義分割等需高空間精度的任務而言至關重要。傳統的優化方法,如在模型架構中添加 register tokens 并從頭開始訓練,需要消耗大量的計算資源,導致現有模型的性能提升既昂貴又耗時。
為解決上述問題,該論文提出一種高效的 PH-Reg 自蒸餾框架。該框架無需數據標記,且不再依賴 “從頭開始” 的全量訓練,而是通過巧妙結合測試時(test-time)密集特征增強和自蒸餾策略,僅優化學生模型中少量解鎖的權重參數,即可實現無偽影的密集特征增強。

自蒸餾框架結合免訓練實現去除偽影,無需數據標記實現無偽影的密集特征
1. 免訓練去噪算法
研究發現,偽影并非相對于圖像內容保持靜態,因此當圖像經過增強處理(如隨機偏移、水平翻轉等)時,密集特征中的偽影并不會以相同方式或幅度同步偏移。受此啟發,此算法在無需梯度反向傳播的情況下,能夠生成去噪且無偽影的密集特征。
2. 自蒸餾框架
PH-Reg 采用自蒸餾策略,無需依賴數據標記,僅通過引入 register tokens,以最小侵入性方式對學生模型架構進行增強。在蒸餾過程中,僅對 register tokens、卷積層、位置嵌入(positional embeddings)及最后一個 Transformer 模塊進行針對性更新,既最大限度保留了 ViT 模型預訓練權重的核心信息,又顯著節省了計算資源。
實驗結果
本文應用該方法對多個 ViT 主干模型在多種密集特征預測任務上進行了系統驗證,實現結果表明在不同模型與任務類型下均展現出一致且穩定的替身效果,體現了該方法的魯棒性的廣泛適用性。主要實驗結果如下:
1. 開放詞匯語義分割任務
- 在 VOC、COCO、ADE20K 等八個開放詞匯語義分割基準數據集上,PH-Reg 在其中七個數據集上的性能超越了 MaskCLIP、SCLIP、NACLIP、ClearCLIP 等主流方法。
- 此外,與 DVT 這一相似去噪方法相比,PH-Reg 能為 MaskCLIP 與 NACLIP 帶來更加顯著的性能提升。

2. 線性探測任務
- 在語義分割任務中,該方法為所有 ViT 骨干模型帶來了實質性性能增益。特別對于 CLIP 模型,其在 VOC21 數據集上的 mIoU 顯著提升 5.04%,在 ADE20k 數據集上的 mIoU 提升 3.64%。
- 在深度估計任務中,該方法同樣為預訓練 ViT 骨干模型帶來了穩定的性能提升,且僅通過引入 register tokens,便在參數量增加可忽略不計的前提下,取得了更優結果。

3. 高效的蒸餾過程
- 該方法的核心優勢在于無需依賴基于梯度的神經場學習,因此采用單階段蒸餾方式訓練學生模型,與 DVT 相比,訓練時間節省超 58.9%。
- 此外,DVT 在訓練過程中需存儲 1.4 TB 的神經場特征數據,而該方法可實時計算所有蒸餾目標,全程無需額外存儲空間。

總結與展望
PH-Reg 框架包含了一種無需重訓、即插即用的 ViT 模型去噪方案,在無需數據標記的條件下,通過自蒸餾能夠高效修復 CLIP、DINOv2 等現有預訓練模型中的偽影問題。
該研究不僅有效提升了 ViT 主干模型中密集特征的語義一致性,更為未來大規模視覺模型的快速微調與蒸餾機制探索提供了全新思路與研究方向。


































