CVPR'24 | LightDiff:低光照場景下的擴散模型,直接照亮夜晚!
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
原標題:Light the Night: A Multi-Condition Diffusion Framework for Unpaired Low-Light Enhancement in Autonomous Driving
論文鏈接:https://arxiv.org/pdf/2404.04804.pdf
作者單位:克利夫蘭州立大學 德克薩斯大學奧斯汀分校 A*STAR 紐約大學 加州大學洛杉磯分校

論文思路:
自動駕駛的視覺中心感知系統由于其成本效益和可擴展性,特別是與激光雷達系統相比,最近受到了相當多的關注。然而,這些系統在低光照條件下常常會遇到困難,可能會影響其性能和安全性。為了解決這個問題,本文介紹了LightDiff ,這是一個為自動駕駛應用中提升低光照圖像質量而設計的定制化框架。具體來說,本文采用了一個多條件控制的擴散模型。LightDiff 無需人工收集的成對數據,而是利用動態數據退化過程(dynamic data degradation process)。它結合了一個新穎的多條件適配器(multi-condition adapter),該適配器能夠自適應地控制來自不同模態的輸入權重,包括深度圖、RGB圖像和文本標題,以有效地照亮黑暗場景的同時保持內容的一致性。此外,為了使增強的圖像與檢測模型的知識相匹配,LightDiff 使用特定于感知的評分作為獎勵,通過強化學習指導擴散訓練過程。在 nuScenes 數據集上進行的廣泛實驗表明,LightDiff 能夠顯著提高多個最新的3D檢測器在夜間條件下的性能,同時實現高視覺質量評分,凸顯了其在保障自動駕駛安全方面的潛力。
主要貢獻:
? 本文提出了 Lighting Diffusion (LightDiff) 模型,以增強自動駕駛中的低光照相機圖像,減少了對大量夜間數據收集的需求,并保持了白天的性能。
? 本文整合了包括深度圖和圖像標題在內的多種輸入模態,并提出了一個多條件適配器,以確保圖像轉換中的語義完整性,同時保持高視覺質量。本文采用了一種實用的過程,從白天數據生成晝夜圖像對,以實現高效的模型訓練。
? 本文為 LightDiff 提出了一種使用強化學習的微調機制,結合了為感知定制的領域知識(可信的激光雷達和統計分布的一致性),以確保擴散過程既有利于人類視覺感知,也有利于感知模型。
? 在 nuScenes 數據集上進行的廣泛實驗表明,LightDiff 顯著提高了夜間3D車輛檢測的性能,并在多個視覺指標上超越了其他生成模型。
網絡設計:

圖1。夜間駕駛場景比白天更具有致命威脅。夜間的致命率要高得多[4]。本文旨在增強夜間圖像,以提高夜間駕駛的整體安全性。
如圖1所示,夜間駕駛對于人類來說是具有挑戰性的,對于自動駕駛汽車來說更是如此。2018年3月18日,一起災難性的事件突顯了這一挑戰,當時 Uber Advanced Technologies Group 的一輛自動駕駛汽車在亞利桑那州撞擊并致死了一名行人[37]。這起事件是由于車輛未能在低光照條件下準確檢測到行人而引起的,它將自動駕駛汽車的安全問題推到了前沿,尤其是在這樣要求苛刻的環境中。隨著以視覺為中心的自動駕駛系統越來越多地依賴于相機傳感器,解決低光照條件下的安全隱患已經變得越來越關鍵,以確保這些車輛的整體安全。
一種直觀的解決方案是收集大量的夜間駕駛數據。然而,這種方法不僅勞動密集、成本高昂,而且由于夜間與白天圖像分布的差異,還有可能損害白天模型的性能。為了應對這些挑戰,本文提出了 Lighting Diffusion (LightDiff )模型,這是一種新穎的方法,它消除了手動數據收集的需求,并保持了白天模型的性能。
LightDiff 的目標是增強低光照相機圖像,提高感知模型的性能。通過使用動態的低光照衰減過程,LightDiff 從現有的白天數據生成合成的晝夜圖像對進行訓練。接著,本文采用了 Stable Diffusion [44]技術,因為它能夠產生高質量的視覺效果,有效地將夜間場景轉換成白天的等效物。然而,在自動駕駛中保持語義一致性至關重要,這是原始 Stable Diffusion 模型面臨的一個挑戰。為了克服這一點,LightDiff 結合了多種輸入模態,例如估計的深度圖和相機圖像標題,配合一個多條件適配器。這個適配器智能地確定每種輸入模態的權重,確保轉換圖像的語義完整性,同時保持高視覺質量。為了引導擴散過程不僅朝著對人類視覺更亮的方向,而且對感知模型也是如此,本文進一步使用強化學習對本文的 LightDiff 進行微調,循環中加入了為感知量身定制的領域知識。本文在自動駕駛數據集nuScenes [7]上進行了廣泛的實驗,并證明了本文的 LightDiff 可以顯著提高夜間3D車輛檢測的平均精度(AP),分別為兩個最先進模型BEVDepth [32]和BEVStereo [31]提高了4.2%和4.6%。

圖2. 本文的 Lighting Diffusion 模型(LightDiff )的架構。在訓練階段,一個訓練數據生成流程使得無需任何人工收集的配對數據就能獲取三模態數據。本文的 LightDiff 使用了一個多條件適配器來動態加權多種條件,結合激光雷達和分布獎勵建模(LDRM),允許以感知為導向的控制。

圖3. 本文的訓練數據生成流程。低光照退化轉換[9]僅在訓練階段實施。訓練好的深度估計網絡將被凍結,用于本文 Lighting Diffusion 模型的訓練和測試階段。

圖4. 循環照明推理(Recurrent Lighting Inference)的示意圖。其設計旨在提高生成文本提示和深度圖的精確度,從而減輕對暗圖像的不利影響。
實驗結果:

圖5. 在 nuScenes 驗證集中的夜間圖像示例上的視覺對比。

圖6. 在 nuScenes 驗證集中的夜間圖像示例上的三維檢測結果可視化。本文使用 BEVDepth [32] 作為三維檢測器,并可視化相機的正視圖和鳥瞰圖(Bird’s-Eye-View)。

圖7. 展示本文的 LightDiff 在有無多條件適配器(MultiCondition Adapter)的情況下的視覺效果。ControlNet [55]的輸入保持一致,包括相同的文本提示和深度圖。多條件適配器在增強過程中實現了更好的顏色對比和更豐富的細節。

圖8. 不同模態輸入的注意力圖示例。

圖9. 通過循環照明推理(Recurrent Lighting Inference, ReLI)增強多模態生成的示意圖。通過調用一次 ReLI,提高了文本提示和深度圖預測的準確性。




總結:
本文介紹了 LightDiff ,這是一個為自動駕駛應用設計的、針對特定領域的框架,旨在提高低光照環境下圖像的質量,減輕以視覺為中心的感知系統所面臨的挑戰。通過利用動態數據退化過程(dynamic data degradation process)、針對不同輸入模態的多條件適配器,以及使用強化學習的感知特定評分引導獎勵建模,LightDiff 顯著提升了 nuScenes 數據集夜間的圖像質量和3D車輛檢測性能。這一創新不僅消除了對大量夜間數據的需求,還確保了圖像轉換中的語義完整性,展示了其在提高自動駕駛場景中的安全性和可靠性方面的潛力。在沒有現實的成對晝夜圖像的情況下,合成帶有車燈的暗淡駕駛圖像是相當困難的,這限制了該領域的研究。未來的研究可以集中在更好地收集或生成高質量訓練數據上。
引用:
@ARTICLE{2024arXiv240404804L,
author = {{Li}, Jinlong and {Li}, Baolu and {Tu}, Zhengzhong and {Liu}, Xinyu and {Guo}, Qing and {Juefei-Xu}, Felix and {Xu}, Runsheng and {Yu}, Hongkai},
title = "{Light the Night: A Multi-Condition Diffusion Framework for Unpaired Low-Light Enhancement in Autonomous Driving}",
journal = {arXiv e-prints},
keywords = {Computer Science - Computer Vision and Pattern Recognition},
year = 2024,
month = apr,
eid = {arXiv:2404.04804},
pages = {arXiv:2404.04804},
doi = {10.48550/arXiv.2404.04804},
archivePrefix = {arXiv},
eprint = {2404.04804},
primaryClass = {cs.CV},
adsurl = {https://ui.adsabs.harvard.edu/abs/2024arXiv240404804L},
adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}


































