CVPR 2025 | 低層交互破局!GIFNet實現多模態融合通用模型,單一框架橫掃多任務場景

文章鏈接:https://arxiv.org/pdf/2502.19854
項目鏈接:https://github.com/AWCXV/GIFNet
亮點直擊
- 證明了低層次融合任務之間的協作訓練(這一策略的重要性此前未被認識到)通過利用跨任務協同效應,能夠顯著提升性能。
- 引入了重建任務和基于RGB的增強聯合數據集,以對齊不同融合任務的特征并解決數據支持問題。
- 本文的方法顯著增強了融合系統的多功能性,消除了耗時的任務特定適配需求。
- GIFNet 率先將圖像融合與單模態增強過程集成,將圖像融合模型的應用范圍擴展到多模態領域之外。
本文的第一作者同期還發表了其他關于圖像融合的工作FusionBooster(融合通用助推器)和MMDRFuse(蒸餾實現超輕量化),分別發表在IJCV 25' 和ACM MM 24' (Oral) 上。代碼倉庫:
- FusionBooster: https://github.com/AWCXV/FusionBooster
- MMDRFuse: https://github.com/yanglinDeng/MMDRFuse
總結速覽
解決的問題
- 高層次任務與圖像融合之間的語義鴻溝:現有的高級圖像融合方法通常依賴于高層次視覺任務(如目標檢測、語義分割)來提供監督信號,但這些高層次任務與像素級的圖像融合之間存在語義不匹配,導致需要復雜的橋接機制。
- 模型泛化能力差:由于不同融合任務需要不同的模型,導致模型在小設備(如手機)上部署困難,且難以在不同融合場景中有效泛化。
- 計算資源消耗大:現有方法依賴于計算密集型預訓練模型或復雜的橋接模塊,導致計算成本高,難以在資源有限的設備上運行。
提出的方案
- 低層次視覺任務驅動的融合:提出利用低層次的數字攝影融合任務(如多焦點圖像融合、多曝光圖像融合)來提供監督信號,避免高層次語義的干擾,增強任務共享的特征學習。
- GIFNet網絡架構:設計了一個三分支網絡架構(GIFNet),包括主任務分支、輔助任務分支和調和分支。主任務分支和輔助任務分支分別處理多模態和數字攝影特征,調和分支通過共享的重建任務促進通用特征表示的學習。
- 跨任務特征融合機制:引入跨融合門控機制,迭代優化每個任務特定的分支,整合多模態和數字攝影特征,生成融合結果。
- RGB聯合數據集:通過數據增強技術創建基于RGB的聯合數據集,減少多模態和數字攝影任務之間的數據域差距,使模型能夠在統一上下文中提取一致的特征。
應用的技術
- 低層次視覺任務監督:利用數字攝影融合任務(如多焦點圖像融合、多曝光圖像融合)提供像素級監督信號。
- 三分支網絡架構:GIFNet網絡包含主任務分支、輔助任務分支和調和分支,分別處理多模態特征、數字攝影特征和共享重建任務。
- 跨融合門控機制:通過門控機制迭代優化多模態和數字攝影特征的融合。
- 數據增強與聯合數據集:通過數據增強技術創建RGB聯合數據集,減少多模態和數字攝影任務之間的數據域差距。
達到的效果
- 高效的特征學習:通過低層次任務監督,GIFNet能夠在不依賴高層次語義的情況下,有效學習任務共享的基礎特征,增強了模型的泛化能力。
- 廣泛的應用場景:GIFNet能夠支持多種融合任務(如多模態融合、數字攝影融合),并且在未見過的場景中也能表現出色,實現了單一模型的廣泛適用性。
- 計算成本大幅降低:與現有高級圖像融合方法相比,GIFNet的計算成本降低了96%以上,適合在資源有限的設備上部署。
- 單模態增強能力:GIFNet不僅支持多模態融合,還能夠對單模態輸入進行增強,提供了更高的應用靈活性。
提出的 GIFNet
公式化
圖像融合范式通常可以定義為:




本文提出了一種新穎的方法,引入了兩個創新點。第一個是跨任務交互機制,利用各種融合任務中的低層次處理操作。本文使用數字攝影圖像融合任務為無監督的 IVIF 任務提供額外的任務特定特征和監督信號,從而提高融合模型的泛化能力和魯棒性。選擇多焦點圖像融合(MFIF)作為數字攝影融合的代表性示例來展示GIFNet 模型,因為它在我們的交互消融實驗中表現最佳。
本文方法的第二個創新點是引入了單模態圖像增強能力。通過引入數字攝影融合任務(一張圖像具有不同的設置),模型學會在不依賴多模態輸入的情況下增強特征。通過將兩個輸入設置為同一張圖像,模擬了一種類似融合的增強過程,專注于優化單張圖像中的細節。這一推理過程公式化為:


緩解域差距和任務差異的措施
本文的多任務學習框架要求模型從輸入圖像中提取并學習每個任務的獨特特征。如果不采取明確措施,這種多樣性可能會導致模型的學習目標不一致,從而難以開發出在所有任務中都能有效執行的統一表示。
為了解決這個問題,本文采用數據增強技術從 IVIF 基準數據集生成一個以 RGB 為中心的聯合數據集。這個增強數據集包括對齊的 RGB、紅外、遠焦和近焦圖像。多焦點數據是通過部分模糊清晰的 RGB 圖像獲得的(詳細信息見補充材料)。由于數據來自同一場景的單個數據集,域差距得到了有效減少。此外,在跨任務交互中引入了重建(REC)任務。
REC 任務通過關注對多個任務都有益的特征,促進了不同任務之間的特征對齊。這種方法確保為一個任務學習的特征在其他任務中仍然相關且兼容,從而促進任務之間更一致和有效的交互。
模型架構
當前的圖像融合方法由于其單一的網絡設計(多個任務依賴于單一的編碼器-解碼器結構),在協作學習方面常常遇到困難。為了解決這個問題,我們的框架引入了一種三分支架構(如下圖 3 (a) 所示),該架構解耦了特征提取過程,并促進了低層次任務之間的交互。在我們的模型中,只有基礎特征提取部分在不同任務之間共享。

通過專注于低層次任務之間的交互,我們的方法允許任務特定特征直接在網絡內組合,從而無需額外的模塊來橋接特征或語義差距。這種交互發生在多模態(MM)和數字攝影(DP)分支之間,其中跨任務機制交替主分支和輔助分支的角色(圖 3 (d))。然后,門控模塊選擇性地將主分支的混合特征路由到全局解碼器(G-Dec)以生成融合結果。重建(REC)分支通過提取任務無關的特征來支持這一過程。
重建分支:如圖 3 (b) (II) 所示,REC 分支采用自編碼器從各種圖像融合任務中提取通用特征。通過針對增強數據中的共同 RGB 模態進行重建,我們確保有效提取任務共享特征。共享編碼器(S-Enc)中的密集連接最大化特征利用率,使原始視覺信號能夠傳輸到其他分支。
跨融合門控機制:在獲得這些共享特征后,MM 和 DP 分支繼續提取不同融合類型的任務特定特征(圖 3 (b) (I))。提出的跨融合門控機制(CFGM)作為控制這些分支的核心技術,使它們能夠融合任務特定特征并自適應地穩定跨任務交互。鑒于其眾所周知的魯棒全局特征提取能力及其在捕獲任務感知特征方面的成功,使用高效的 SwinTransformer 模塊來構建 CFGM。
在 CFGM 中,主分支和輔助分支通過交替更新一個分支并凍結另一個分支來進行訓練(圖 3 (c))。在每個訓練步驟中:


訓練與推理


如下圖 4 所示,在推理過程中,與訓練過程不同,單個融合任務只需要一對圖像。我們首先提取共享圖像特征,使用跨融合門控機制(CFGM)融合兩組特定表示,最后通過全局解碼器重建融合圖像。

實驗結果
實驗設置
訓練:在訓練過程中,僅使用 IVIF 數據集(LLVIP的訓練集)和 DP 任務對應的增強數據。評估:訓練完成后,直接將模型應用于各種已見和未見的圖像融合任務,無需任何適配或微調。使用的任務和數據集包括:
- IVIF 任務:LLVIP 和 TNO數據集
- MFIF 任務:Lytro 和 MFI-WHU 數據集
- 醫學圖像融合任務:Harvard 數據集
- 近紅外和可見光圖像融合任務:VIS-NIR Scene 數據集
- 多曝光圖像融合任務:SCIE 數據集
- 遙感圖像融合任務:Quickbird 數據集此外,還在 CIFAR100 數據集 上驗證了 GIFNet 在分類任務中的有效性。
評估指標:
- 圖像融合:使用兩種常用的基于相關性的指標——視覺信息保真度(VIF)和相關性差異總和(SCD),以及無參考圖像質量評估指標——邊緣強度(EI)和平均梯度(AG)來衡量融合結果的清晰度。
- 分類任務:使用 top-1 和 top-5 準確率。
消融實驗
本節在 IVIF 任務上進行了消融實驗,以驗證 GIFNet 的有效性。主要研究了多任務學習(MTL)策略、跨融合門控機制(CFGM)和重建分支(REC)的影響。更多消融實驗將在補充材料中提供。
主要組件:如下表 1 所示,將單任務訓練策略與 REC 結合(案例 (e)),所提出的模型已經取得了令人印象深刻的結果。然而,在沒有引入所提出組件的情況下添加另一個任務會導致融合網絡無法收斂(案例 (g))。單獨引入 CFGM 或 REC 可以使網絡生成有效的融合結果(案例 (h) 和 (i))。兩者的結合優化了跨任務交互并增強了特征對齊,從而使 GIFNet 達到最佳性能。

任務組合:數字攝影任務的額外監督信號有助于提升融合性能。通過使用有監督的 MEIF 任務進一步驗證了這一結論。關于訓練數據,使用 FusionBooster中的信息探測模塊分解 LLVIP 數據集中的可見光圖像,以獲得過曝光和欠曝光圖像(示例見補充材料)。原始可見光圖像被視為 GT 圖像。如案例 (j) 所示,與單任務范式(設置 (d))相比,額外的有監督任務可以持續提升多模態融合的性能。然而,MEIF 任務作為輔助任務,其性能不如使用 MFIF 任務。這種現象的原因可能是生成更高清晰度的圖像提供了更兼容的像素級監督,因為強制融合圖像感知更高清晰度的內容與盡可能保留信息之間沒有沖突。相比之下,MEIF 任務僅涉及整體曝光度的調整,并不總是與 IVIF 任務的目標一致。
CFGM 模塊:如下圖 5 和圖 6 所示,將自適應的 CFGM 策略(通過可學習參數 控制混合比例)替換為傳統的融合操作,定量和定性結果表明,我們的自適應方法在交互過程中提供了更優的控制,生成了更魯棒的融合圖像。

特征可視化
本文展示了來自不同組件的特征圖可視化結果,包括共享編碼器(S-Enc)、多模態分支(MM)和數字攝影分支(DP),如下圖 7 所示。由圖像重建目標驅動的 S-Enc 捕捉了基礎圖像特征,例如目標輪廓和結構細節,這些特征對于高質量圖像融合至關重要。

MM 和 DP 分支的可視化結果揭示了每個分支對融合過程的不同貢獻。例如,在第一個案例中,MM 特征專注于保留源輸入中的顯著信息(如熱目標),而 DP 特征則增強了更精細的細節,捕捉了更清晰的邊緣和更明確的紋理,以及地面上更清晰的陰影。在其他已見和未見的融合任務中也觀察到了類似的模式。值得注意的是,數字攝影特征的額外學習通過生成視覺魯棒輸出所需的特征,持續為各種融合任務帶來益處,如第三個示例(MEIF 任務)中增強的紋理細節所示。
多模態 - 已見任務
本節展示了 GIFNet 在與訓練數據相關的任務(即 MFIF 和 IVIF 任務)上的融合結果。將所提出的方法與針對這兩個任務的專用算法進行了比較,包括 Text-IF、CDDFuse、DDFM、LRRNet、ZMFF 和 UNIFusion。還與廣義圖像融合方法進行了比較,包括 MURF、MUFusion、U2Fusion 和 SDNet。
MFIF 任務:如下表 2 (a1) 和 (a2) 所示,GIFNet 在各種圖像融合評估指標上取得了顯著成果。例如,在 VIF 指標上表現最佳,提升了 25%,表明我們的融合結果能夠有效增強源信息,如下圖 8 第一行所示。


IVIF 任務:對于 IVIF 任務,如圖 8 第二行所示,得益于協作訓練,我們的融合結果能夠更好地調整源模態的混合比例。RGB 圖像中的豐富紋理細節得到了很好的保留,熱輻射信息則使場景外觀更加明亮。因此,在低光和普通條件下,GIFNet 在所有定量實驗中普遍表現最佳(表 2 (b1) 和 (b2))。在 LLVIP 數據集上 VIF 指標相對較差的結果可以歸因于 CDDFuse 和 Text-IF 中的“選擇最大值”融合策略,該策略保留了輸入中像素值較高的源內容。雖然這種方法確保了高視覺保真度(VIF),但融合圖像往往偏向于一種輸入模態,而忽略了另一種模態的信息(見 Text-IF 的可視化結果)。
多模態 - 未見過任務
本節展示了GIFNet 在未參與訓練的任務上的融合結果,包括多曝光圖像融合、近紅外與可見光圖像融合、遙感圖像融合和醫學圖像融合任務。同樣,進一步將我們的方法與專門為這四項任務設計的算法進行了比較,包括 MEF-GAN 、SPD-MEF、IID-MEF、MURF、P2Sharpen、ZeroSharpen、CoCoNet、TextFusion(在圖像融合領域引入文本信息的方法)以及廣義方法 IFCNN。
MEIF 任務:GIFNet 在 MEIF 任務中對曝光不良的圖像表現良好。如前面圖 8 第三行所示,在整體曝光度(該任務的重要標準)方面,我們的結果具有更合適的亮度,且沒有嚴重的顏色失真(見高亮區域)。在定量評估中(表 2 (c)),與先進方法相比,我們在所有圖像融合指標上均取得了更高的性能,例如 VIF(+46.7%)和 AG(+37.8%)。
NIR-VIS 任務:該任務與 IVIF 類似,但將中遠紅外模態替換為近紅外圖像。如圖 8 第四行所示,現有融合方法利用 NIR 模態信息持續改善了 RGB 圖像的低光條件,而我們的 GIFNet 則表現出最清晰的紋理細節。定量結果也表明,GIFNet 優于現有算法(表 2 (d))。值得注意的是,盡管 MURF 在該任務上進行了訓練,但其更側重于解決配準問題,導致性能相對較差。
遙感任務:該任務也稱為全色銳化,旨在同時保持全色和多光譜圖像的空間和光譜分辨率。如圖 8 倒數第二行所示,與之前的任務類似,GIFNet 獲得了具有更清晰邊緣信息和更高成像質量的融合圖像。相比之下,其他方法未能保持高分辨率全色模態中物體的形狀。盡管 P2Sharpen 和 ZeroSharpen 專門為該任務設計,但在多個指標上均被我們的方法超越,如表 2 (e) 的定量結果所示。
醫學任務:醫學圖像融合任務旨在保留磁共振成像(MRI)中的顯著器官結構和正電子發射斷層掃描(PET)中的清晰功能信息。如表 2 (f) 所示,盡管未專門針對該任務進行訓練,GIFNet 在其融合結果中表現出強大的視覺信息保真度(VIF)并保持了與源輸入的高相關性(SCD)。這一性能與圖 8 最后一行的可視化結果一致,即細節增強,清楚地表明 GIFNet 的結果很好地呈現了 MRI 模態的局部結構。
單模態:分類任務
GIFNet 的多功能性涵蓋了多模態圖像處理和單模態任務。本實驗評估了 GIFNet 通過增強圖像作為輸入來提升 RGB 圖像分類的能力。使用原始 CIFAR100 訓練集和通過不同圖像融合方法獲得的增強數據從頭訓練 ResNet56 網絡。訓練完成后,ResNet56 分類器用于評估在原始測試集上的性能。
如下圖 9 所示,展示了原始 CIFAR100 RGB 圖像以及通過不同方法生成的增強版本。GIFNet 在圖像質量上表現出顯著提升。例如,在第一行中,原始數據中的模糊現象得到了緩解,保留了更清晰的信息。在第二個示例中,我們的方法在邊緣增強方面表現出色,優于其他技術。

定量評估結果(下表 3)表明,某些融合方法在不提高圖像質量的情況下,其分類性能與原始數據集相當,例如 SDNet 和 MUFusion。需要注意的是,U2Fusion 雖然利用了更多的融合任務,但由于其順序訓練策略缺乏有效交互,導致增強效果不佳。相比之下,利用跨任務交互中的任務無關表示,GIFNet 是唯一超越原始訓練設置的方法。

關鍵模型大小對比和與更先進方法的性能比較


結論
本文提出了一種新穎的低層次任務交互方法,用于廣義圖像融合,解決了該領域一個長期被忽視的問題。通過整合共享重建任務和基于 RGB 的聯合數據集,我們有效減少了任務和領域差異,建立了一個協作訓練框架。模型在跨融合門控機制的支持下,展示了卓越的泛化能力和魯棒的融合性能。此外,GIFNet 率先將融合技術應用于單模態增強,代表了圖像融合研究領域的重要進展。
本文轉自AI生成未來 ,作者:AI生成未來

















