RV融合!自動駕駛中基于毫米波雷達(dá)視覺融合的3D檢測綜述
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
自主駕駛在復(fù)雜場景下的目標(biāo)檢測任務(wù)至關(guān)重要,而毫米波雷達(dá)和視覺融合是確保障礙物精準(zhǔn)檢測的主流解決方案。本論文詳細(xì)介紹了基于毫米波雷達(dá)和視覺融合的障礙物檢測方法,從任務(wù)介紹、評估標(biāo)準(zhǔn)和數(shù)據(jù)集三方面展開。
并對毫米波雷達(dá)和視覺融合過程的傳感器部署、傳感器標(biāo)定和傳感器融合(融合方法分為數(shù)據(jù)級、決策級和特征級融合方法)三個部分進(jìn)行了匯總討論。
此外,還介紹了三維(3D)目標(biāo)檢測、自動駕駛中的激光雷達(dá)和視覺融合以及多模態(tài)信息融合,并進(jìn)行了展望。
背景介紹
較高level的自動駕駛車輛面臨的挑戰(zhàn)之一是復(fù)雜場景中的精確目標(biāo)檢測,當(dāng)前的視覺目標(biāo)檢測算法已經(jīng)達(dá)到了性能上限,因?yàn)闄z測算法在實(shí)踐中面臨非常復(fù)雜的情況。
對于自動駕駛場景,障礙物主要包括行人、汽車、卡車、自行車和摩托車,視覺范圍內(nèi)的障礙物具有不同的尺度和長寬比。此外,障礙物之間可能存在不同程度的遮擋,并且由于暴雨、大雪和大霧等極端天氣,障礙物的外觀可能會模糊,從而導(dǎo)致檢測性能大大降低[13]。研究表明,CNN對未經(jīng)訓(xùn)練的場景泛化能力較差[14]。
camera不足以獨(dú)立完成自動駕駛感知任務(wù),與視覺傳感器相比,毫米波雷達(dá)的檢測性能受極端天氣的影響較小[15]、[16]。此外,毫米波雷達(dá)不僅測量距離,還可以利用運(yùn)動物體反射信號的多普勒效應(yīng)測量速度矢量[17]、[18]。然而,毫米波雷達(dá)無法提供目標(biāo)的輪廓信息,并且難以區(qū)分相對靜止的目標(biāo)。從這個方面看,視覺傳感器和毫米波雷達(dá)的探測能力可以相互補(bǔ)充。基于毫米波雷達(dá)和視覺融合的檢測算法可以顯著提高自主車輛的感知能力,幫助車輛更好地應(yīng)對復(fù)雜場景中的目標(biāo)檢測任務(wù)。
基于毫米波雷達(dá)和視覺融合的目標(biāo)檢測過程如下圖所示,毫米波雷達(dá)與視覺融合過程包括三個部分:傳感器選擇、傳感器標(biāo)定和傳感器融合,為了實(shí)現(xiàn)毫米波雷達(dá)和視覺融合目標(biāo)檢測的預(yù)期性能,需要解決以下挑戰(zhàn):
- 同一時間和空間的標(biāo)定校準(zhǔn);
- 融合不同傳感器的數(shù)據(jù)以實(shí)現(xiàn)best性能的目標(biāo)檢測;

最近幾年,大部分綜述集中在視覺檢測上,很少有radar-camera融合相關(guān)的paper,對雷達(dá)和視覺融合缺乏深入分析,本論文將重點(diǎn)介紹低成本毫米波雷達(dá)和視覺融合解決方案。
檢測任務(wù)定義
二維(2D)目標(biāo)檢測使用2D box在車輛的視覺圖像中選擇檢測到的障礙物目標(biāo),然后對目標(biāo)進(jìn)行分類和定位。這里的定位指的是圖像中目標(biāo)的定位,而不是真實(shí)世界中目標(biāo)相對于車輛的定位。
在三維(3D)目標(biāo)檢測中,使用3D box定位目標(biāo),不僅是圖像中確定目標(biāo)的位置,而且還確定了現(xiàn)實(shí)世界中目標(biāo)的姿態(tài)和位置。
評價標(biāo)準(zhǔn)
主要使用AP和AR權(quán)衡目標(biāo)檢測中的準(zhǔn)確度和召回率,通過將召回值和精度值分別作為水平軸和垂直軸,可以獲得精度召回(PR)曲線,平均精度(mAP)表示檢測模型的合并結(jié)果,可通過計(jì)算所有類別的平均AP值獲得。
以自動駕駛KITTI數(shù)據(jù)集為例,對于2D對象檢測,通過比較檢測邊界框和gt邊界框之間的IoU是否大于閾值來確定目標(biāo)定位的正確性[22]。然而在自主駕駛的研究中,三維目標(biāo)檢測目前更具吸引力。KITTI正式規(guī)定,對于車輛,正確預(yù)測要求預(yù)測的3D框與真實(shí)3D框重疊70%以上,而對于行人和自行車,則要求3D框重疊50%[24]。
相關(guān)數(shù)據(jù)集
相關(guān)數(shù)據(jù)集主要包括:Apolloscape、KITTI、Cityscapes、Waymo Open Dataset、nuScenes等;

Apolloscape
百度在2017年創(chuàng)建的阿波羅開放平臺的part,它使用Reigl激光雷達(dá)收集點(diǎn)云,Reigl生成的三維點(diǎn)云比Velodyne生成的點(diǎn)云更精確、密度更高。目前,ApolloScape已經(jīng)打開了147000幀像素級語義標(biāo)注圖像,包括感知分類和道路網(wǎng)絡(luò)數(shù)據(jù)等。
KITTI
KITTI數(shù)據(jù)集[22],由德國卡爾斯魯厄理工學(xué)院和美國豐田學(xué)院建立,是目前最常用的自動駕駛數(shù)據(jù)集。該團(tuán)隊(duì)使用了一輛配備camera和Velodyne激光雷達(dá)的大眾汽車在德國卡爾斯魯厄開車6小時,記錄交通信息。數(shù)據(jù)集為每個序列提供原始圖像和精確的三維box以及類標(biāo)簽。類主要包括汽車、面包車、卡車、行人、自行車和電車。
Cityscapes
由三個德國實(shí)驗(yàn)室聯(lián)合提供:戴姆勒、馬克斯·普朗克信息研究所和達(dá)姆施塔特科技大學(xué)。它是一個語義理解圖像-城市街道場景數(shù)據(jù)集,主要包含來自50多個城市的5000張城市環(huán)境中駕駛場景的高質(zhì)量像素級標(biāo)注圖像(2975張用于training,500張用于val,1525張用于test,共19個類別)。此外,它還有20000張粗略的標(biāo)注圖像。
Waymo Open Dataset
Waymo數(shù)據(jù)集是Alphabet股份有限公司旗下自動駕駛公司W(wǎng)aymo的開源項(xiàng)目。它由Waymo自動駕駛汽車在各種條件下收集的標(biāo)定數(shù)據(jù)組成,包括覆蓋25個城市的1000多萬英里自動駕駛里程數(shù)據(jù)。數(shù)據(jù)集中包括激光雷達(dá)點(diǎn)云和視覺圖像。車輛、行人、騎自行車的人和標(biāo)志都經(jīng)過了精心標(biāo)記,該團(tuán)隊(duì)完成了1200多萬條3D標(biāo)注和120萬條2D標(biāo)注。
nuScenes
nuTonomy建立的Nuscene數(shù)據(jù)集[29]是現(xiàn)有最大的自動駕駛數(shù)據(jù)集,這是第一個配備全自動車輛傳感器的數(shù)據(jù)集。該數(shù)據(jù)集不僅提供相機(jī)和激光雷達(dá)數(shù)據(jù),還包含radar數(shù)據(jù),是目前唯一一個包含雷達(dá)數(shù)據(jù)的數(shù)據(jù)集。nuScenes提供的三維邊界框標(biāo)注不僅包含23個類,還包含8個屬性,包括行人姿勢、車輛狀態(tài)等。
傳感器部署
絕大多數(shù)汽車制造商采用了radar和攝像頭相結(jié)合的傳感器配置方案,除了特斯拉,其他制造商也使用了融合傳感技術(shù),將激光雷達(dá)、毫米波雷達(dá)和camera結(jié)合起來。可以得出結(jié)論,使用radar和視覺融合的傳感解決方案是當(dāng)前自主駕駛車輛障礙物檢測領(lǐng)域的主流趨勢,主要因?yàn)閞adar和camera具有互補(bǔ)的特性。
領(lǐng)域方案傳感器部署匯總:

Lidar、Radar、Camera三類傳感器性能對比:

毫米波雷達(dá)作為自動駕駛車輛上常見和必要的傳感器,具有遠(yuǎn)距離探測、低成本和動態(tài)目標(biāo)可探測性的特點(diǎn)。由于這些優(yōu)點(diǎn),車輛的感應(yīng)能力和安全性得到了提高[37]。與激光雷達(dá)相比,毫米波雷達(dá)的優(yōu)勢主要體現(xiàn)在應(yīng)對惡劣天氣和低部署成本方面[36]。此外,它還有以下優(yōu)點(diǎn):
- 毫米波雷達(dá)可以探測250米范圍內(nèi)的障礙物,這對自主駕駛的安全至關(guān)重要,而激光雷達(dá)的探測范圍在150米范圍內(nèi)[41]。
- 毫米波雷達(dá)可以基于多普勒效應(yīng)測量目標(biāo)車輛的相對速度,分辨率為0.1m/s,這對于自主駕駛中的車輛決策至關(guān)重要[41]。
與毫米波雷達(dá)相比,激光雷達(dá)具有以下優(yōu)點(diǎn)[38]、[39]:
- 激光雷達(dá)比毫米波雷達(dá)具有相對較高的角度分辨率和檢測精度。此外,毫米波雷達(dá)數(shù)據(jù)更稀疏;
- 激光雷達(dá)的測量包含語義信息,并滿足先進(jìn)自主駕駛的感知要求,而毫米波雷達(dá)缺乏這一點(diǎn);
- 無法從毫米波雷達(dá)測量中完全濾除雜波,導(dǎo)致雷達(dá)信號處理中出現(xiàn)錯誤;
radar是探測距離和徑向速度的最佳傳感器。它具有“全天候”功能,特別是考慮到它在夜間仍能正常工作。然而,雷達(dá)無法區(qū)分顏色,目標(biāo)分類能力較差[36]。camera具有良好的顏色感知和分類能力,角度分辨率能力不弱于激光雷達(dá)[36]。然而,它們在估計(jì)速度和距離方面受到限制[40]。此外,圖像處理依賴于車載芯片算力,而不需要毫米波雷達(dá)的信息處理。充分利用雷達(dá)感應(yīng)信息可以大大節(jié)省計(jì)算資源[36]。通過比較radar和攝像機(jī)的特性,可以發(fā)現(xiàn)它們之間有許多互補(bǔ)的特性。因此,將radar和視覺融合感知技術(shù)應(yīng)用于障礙物檢測領(lǐng)域,可以有效提高感知精度,增強(qiáng)自主車輛的目標(biāo)檢測能力。毫米波雷達(dá)或激光雷達(dá)和視覺融合都很有用。
傳感器標(biāo)定
不同傳感器的空間位置和采樣頻率不同,同一目標(biāo)的不同傳感器的傳感信息可能不匹配。因此,校準(zhǔn)不同傳感器的傳感信息非常必要,毫米波雷達(dá)返回的檢測信息是雷達(dá)點(diǎn),camera接收視覺圖像。以nuScenes[29]的相機(jī)和毫米波雷達(dá)數(shù)據(jù)作為示例。該數(shù)據(jù)集提供的數(shù)據(jù)已通過幀同步處理,因此不需要時間同步,下圖效果可通過空間坐標(biāo)變換獲得。雷達(dá)點(diǎn)的RGB值由橫向速度、縱向速度和距離這三個物理量轉(zhuǎn)換而來,雷達(dá)點(diǎn)的顏色表示與雷達(dá)點(diǎn)對應(yīng)的對象的物理狀態(tài)。一般而言,傳感器校準(zhǔn)包括坐標(biāo)標(biāo)定[42]–[48]、雷達(dá)點(diǎn)濾波[43]、[45]和誤差校準(zhǔn)[49]–[51]。

坐標(biāo)系標(biāo)定
坐標(biāo)標(biāo)定的目的是將雷達(dá)點(diǎn)與圖像中的目標(biāo)進(jìn)行匹配。對于坐標(biāo)標(biāo)定,最常用的方法分為坐標(biāo)變換方法[45]、[46]、傳感器驗(yàn)證方法[42]、[44]、[47]和基于視覺的方法[43]、[52]。
坐標(biāo)變換法通過矩陣運(yùn)算將同一坐標(biāo)系下的雷達(dá)信息和視覺信息統(tǒng)一起來。[46]根據(jù)毫米波雷達(dá)和視覺傳感器的空間位置坐標(biāo),通過坐標(biāo)變換方法完成空間校準(zhǔn)。針對不同傳感器采樣率引起的時間不一致性,采用線程同步方法實(shí)現(xiàn)圖像幀和毫米波雷達(dá)數(shù)據(jù)的同時采集。[45]使用了基于偽逆的點(diǎn)對齊方法,該方法使用最小二乘法獲得坐標(biāo)變換矩陣。傳統(tǒng)的坐標(biāo)變換無法生成目標(biāo)的精確位置,給最終結(jié)果帶來誤差。[53]Wang等人提出了一個校準(zhǔn)實(shí)驗(yàn),在不使用專用工具和雷達(dá)反射強(qiáng)度的情況下,將真實(shí)坐標(biāo)投影到雷達(dá)探測圖中,這削弱了對校準(zhǔn)誤差的依賴性。
傳感器驗(yàn)證方法利用同一物體上不同傳感器的檢測信息相互校準(zhǔn)多個傳感器。在[42]中,傳感器驗(yàn)證包括兩個步驟。首先通過雷達(dá)生成目標(biāo)列表,然后通過視覺信息對列表進(jìn)行驗(yàn)證。[47]經(jīng)過radar坐標(biāo)變換后,首先粗略搜索圖像,然后與雷達(dá)信息進(jìn)行比較。比較結(jié)果將目標(biāo)分為兩類:匹配目標(biāo)和非匹配目標(biāo)。在[44]中,Streubel等人設(shè)計(jì)了一種融合時隙方法,匹配雷達(dá)和視覺在同一時隙中檢測到的對象。
基于視覺的方法:[52]使用運(yùn)動立體技術(shù)實(shí)現(xiàn)雷達(dá)目標(biāo)和圖像目標(biāo)的匹配。[43]Huang等人使用自適應(yīng)背景減法來檢測圖像中的運(yùn)動目標(biāo),生成候選區(qū)域,并通過判斷目標(biāo)是否存在來驗(yàn)證目標(biāo)雷達(dá)點(diǎn)是否位于候選區(qū)域。
Radar點(diǎn)濾波
雷達(dá)點(diǎn)濾波的目的是濾除噪聲和無用的檢測結(jié)果,以避免這些雷達(dá)點(diǎn)造成的誤判。[45]Guo等人提出了一種利用幀內(nèi)聚類和幀間跟蹤信息進(jìn)行噪聲濾波和有效目標(biāo)提取的方法。在[43]中,通過毫米波雷達(dá)獲得的速度和角速度信息對雷達(dá)點(diǎn)進(jìn)行濾波。然后對無效雷達(dá)點(diǎn)進(jìn)行濾波,從而減少樹木和橋梁等固定目標(biāo)對毫米波雷達(dá)的影響。
誤差校準(zhǔn)
由于傳感器或數(shù)學(xué)計(jì)算中的誤差,校準(zhǔn)的雷達(dá)點(diǎn)可能存在誤差。一些文章提出了糾正這些錯誤的方法。在[50]中,提出了一種基于交互式微調(diào)的方法,對投影在視覺圖像上的雷達(dá)點(diǎn)進(jìn)行最終校正。[51]中的作者提出了一種改進(jìn)的擴(kuò)展卡爾曼濾波(EKF)算法,用于建模不同傳感器的測量誤差。在[49]中,分析了各種坐標(biāo)對檢測結(jié)果的影響,并提出了一種半積分笛卡爾坐標(biāo)表示方法,將所有信息轉(zhuǎn)換為隨宿主車輛移動的坐標(biāo)系。目前使用開源數(shù)據(jù)集時,不需要進(jìn)行誤差校準(zhǔn)。然而,如果數(shù)據(jù)集是自制的,則雷達(dá)濾波和糾錯是必要的技術(shù)步驟。
基于傳感器融合的檢測任務(wù)
一般來說,毫米波雷達(dá)和視覺融合分為三個層次,包括數(shù)據(jù)層、決策層和特征層。數(shù)據(jù)級融合是毫米波雷達(dá)和攝像機(jī)檢測到的數(shù)據(jù)的融合,具有最小的數(shù)據(jù)丟失和最高的可靠性。決策級融合是毫米波雷達(dá)和攝像機(jī)檢測結(jié)果的融合。特征級融合需要提取雷達(dá)特征信息,然后將其與圖像特征融合。

數(shù)據(jù)層融合
數(shù)據(jù)級融合是一種成熟的融合方案,目前還不是主流的研究趨勢。然而,其融合不同傳感器信息的想法仍有參考價值。如下表所示,數(shù)據(jù)級融合首先基于雷達(dá)點(diǎn)[42]、[45]、[54]、[55]生成感興趣區(qū)域(ROI)。然后根據(jù)ROI提取視覺圖像的對應(yīng)區(qū)域。最后,使用特征提取器和分類器對這些圖像進(jìn)行目標(biāo)檢測[45]、[47]、[53]、[55]–[61]。

一些文獻(xiàn)使用神經(jīng)網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測和分類[61]、[62]。對于數(shù)據(jù)級融合,有效雷達(dá)點(diǎn)的數(shù)量直接影響最終的檢測結(jié)果。如果圖像的某一部分中沒有雷達(dá)點(diǎn),則該部分將被忽略。該方案縮小了目標(biāo)檢測的搜索空間,節(jié)省了計(jì)算資源,同時留下了安全隱患。數(shù)據(jù)級融合過程如圖4所示。

ROI的生成
ROI是圖像中的選定區(qū)域,與純圖像處理方案相比,數(shù)據(jù)級融合方案使用雷達(dá)點(diǎn)生成ROI,這可以顯著提高ROI生成的速度[42]。初始ROI的大小由障礙物和毫米波雷達(dá)之間的距離決定[45]。
目標(biāo)檢測
由于圖像中目標(biāo)位置和大小的不確定性,基于視覺的目標(biāo)檢測通常采用滑動窗口和多尺度策略,產(chǎn)生大量候選框,導(dǎo)致檢測效率低。毫米波雷達(dá)與視覺融合方案避免了滑動窗口方法,降低了計(jì)算成本,提高了檢測效率。
決策層融合
決策級融合是目前主流的融合方案,該過程如下表所示:

雷達(dá)的優(yōu)勢在于縱向距離,視覺傳感器的優(yōu)勢在于水平視野。決策級融合可以兼顧這兩方面的優(yōu)點(diǎn),充分利用傳感信息。決策級融合濾波算法的挑戰(zhàn)是建模兩種檢測信息的聯(lián)合概率密度函數(shù),決策級融合主要包括兩個步驟:傳感信息處理[65]–[69]、[71]和決策融合[66]、[72]–[78]、[84]。

傳感信息處理
傳感信息的處理包括雷達(dá)信息和視覺信息。雷達(dá)探測結(jié)果生成一個物體列表,并包含物體的速度和距離等信息[65]、[66];視覺信息處理對圖像執(zhí)行目標(biāo)檢測算法,定位2D位置。
決策融合
車輛檢測的決策級融合融合不同傳感器的檢測結(jié)果,主流濾波算法應(yīng)用貝葉斯理論[72]、[73]、卡爾曼濾波框架[74]–[76]和Dempster-Shafer理論[66]。在一些文獻(xiàn)中,雷達(dá)檢測目標(biāo)列表用于驗(yàn)證視覺檢測結(jié)果[77]、[78],此外,參考文獻(xiàn)[84]提出了運(yùn)動立體算法來調(diào)整和細(xì)化最終檢測結(jié)果。
基于貝葉斯理論的融合方法
參考文獻(xiàn)[72]提出了一種基于貝葉斯理論的方法,通過使用概率推理方法來解決多傳感器數(shù)據(jù)融合問題,稱為貝葉斯規(guī)劃。當(dāng)添加新的傳感器時,傳統(tǒng)的多傳感器融合算法不再適用。融合算法在[73]中進(jìn)行了模塊化和推廣,并提出了一種基于貝葉斯網(wǎng)絡(luò)的動態(tài)融合方案,以提高每個融合算法的可重用性。
基于卡爾曼濾波的融合方法
[74]基于李群的EKF框架,提出了一種使用特殊歐幾里德群的決策級融合濾波器。參考文獻(xiàn)[75]提出了一種融合框架,可以在3D空間和2D圖像平面中同時跟蹤檢測對象。類似于卡爾曼濾波器的不確定性驅(qū)動機(jī)制用于均衡不同質(zhì)量的傳感結(jié)果。在[76]中,雷達(dá)首先檢測到給定圖像,以粗略搜索目標(biāo)。然后使用經(jīng)過訓(xùn)練的點(diǎn)檢測器來獲得對象的邊界框。采用基于卡爾曼濾波的信息融合方法,證明了集中式和分散式信息融合方案的功能等價性。
基于Dempster-Shafer理論的融合方法
參考文獻(xiàn)[66]提出了基于Dempster-Shafer理論的決策級融合,將多個傳感器的檢測列表作為輸入,使用其中一個作為臨時evidence 網(wǎng)格,并將其與當(dāng)前evidence 網(wǎng)格融合,最后執(zhí)行聚類處理,在evidence 網(wǎng)格中確定了目標(biāo)。
基于雷達(dá)驗(yàn)證的融合方法
參考文獻(xiàn)[77]將視覺檢測和雷達(dá)檢測生成的目標(biāo)列表重疊,以生成唯一的車輛列表。雷達(dá)數(shù)據(jù)用于驗(yàn)證視覺檢測結(jié)果,如果存在與雷達(dá)數(shù)據(jù)中的視覺檢測結(jié)果匹配的目標(biāo),則藍(lán)色框?qū)⒈粯?biāo)記為強(qiáng)假設(shè)。否則,如果沒有目標(biāo),它不會被丟棄:一個綠框?qū)⒈粯?biāo)記為弱假設(shè)。參考文獻(xiàn)[78]提出了一種多目標(biāo)跟蹤(MTT)算法,該算法可以通過評估雷達(dá)散射中心的跟蹤分?jǐn)?shù)來實(shí)時校正被跟蹤目標(biāo)列表。利用立體視覺信息擬合目標(biāo)車輛的輪廓,并利用與目標(biāo)車輛匹配的雷達(dá)目標(biāo)校正其位置。
特征級融合
特征級融合是近年來出現(xiàn)的一種新方案,該過程如下表所示:

在特征級融合方法[79]–[83]中,使用額外的雷達(dá)輸入分支是一種常見的方法,基于CNN的目標(biāo)檢測模型可以有效地學(xué)習(xí)圖像特征信息。通過將雷達(dá)檢測信息轉(zhuǎn)化為圖像形式,檢測模型可以同時學(xué)習(xí)雷達(dá)和視覺特征信息,實(shí)現(xiàn)特征級融合,特征級融合過程如下圖所示:

基于CNN的融合框架
雷達(dá)特征提取的目的是變換雷達(dá)信息,因?yàn)槔走_(dá)信息不能與圖像信息直接融合。雷達(dá)特征提取主要采用將雷達(dá)點(diǎn)轉(zhuǎn)換到圖像平面生成雷達(dá)圖像的方法。多通道變換后的雷達(dá)圖像包含雷達(dá)檢測到的所有環(huán)境特征,每個通道表示一個物理量,如距離、縱向速度、橫向速度等。參考文獻(xiàn)[83]提出了一種新的條件多生成器生成對抗網(wǎng)絡(luò)(CMGGAN),該網(wǎng)絡(luò)利用雷達(dá)傳感器的測量數(shù)據(jù)生成類似camera圖像,包括雷達(dá)傳感器檢測到的所有環(huán)境特征。[80]提出了一種新的雷達(dá)特征描述方法,稱為雷達(dá)稀疏圖像,雷達(dá)稀疏圖像是416×416三通道圖像,其大小直接對應(yīng)于視覺圖像的大小,這三個通道包含雷達(dá)點(diǎn)速度和深度特征信息。在[82]中,Chang等人將雷達(dá)點(diǎn)處的深度、水平和垂直信息轉(zhuǎn)換為不同通道的真實(shí)像素值。對于沒有雷達(dá)點(diǎn)的區(qū)域,他們將像素值設(shè)置為0,并使用以雷達(dá)點(diǎn)為中心的圓圈渲染雷達(dá)圖像。在[81]中,考慮到雷達(dá)檢測結(jié)果中缺乏高度信息,Nobis等人在垂直方向上拉伸投影雷達(dá)點(diǎn),以便更好地將其與圖像整合。雷達(dá)信息的特征以像素值的形式存儲在增強(qiáng)圖像中。此外,還提出了一種地面真值噪聲濾波器來濾除無效雷達(dá)點(diǎn)。
特征融合
基本特征融合方法可分為兩類:級聯(lián)和元素相加。前者將雷達(dá)特征矩陣和圖像特征矩陣連接成多通道矩陣,而后者將兩個矩陣合并成一個矩陣。
[79]設(shè)置了兩種融合方法:級聯(lián)和逐元素相加,實(shí)驗(yàn)結(jié)果表明這兩種融合方式都提高了檢測性能。按逐元素添加方法在手動標(biāo)注的測試集上性能更好,而級聯(lián)方法在生成的測試集中性能更好。[82]中提出了一種用于傳感器特征融合的新塊,稱為空間注意融合(SAF)。使用SAF塊生成注意力權(quán)重矩陣,以融合雷達(dá)和視覺特征。同時,[82]將SAF方法與三種逐元素加法、乘法和級聯(lián)方法進(jìn)行了比較,結(jié)果表明,SAF具有最佳性能。此外,[82]在Faster R-CNN上進(jìn)行了泛化實(shí)驗(yàn),SAF模型也提高了檢測性能。
挑戰(zhàn)和未來趨勢
Challenges
對于目標(biāo)檢測任務(wù),目前的研究成果已經(jīng)取得了優(yōu)異的性能,然而,這些成果大多是二維目標(biāo)檢測。在真實(shí)的自動駕駛場景中,復(fù)雜的交通環(huán)境通常需要3D目標(biāo)檢測來更準(zhǔn)確地感知環(huán)境信息,當(dāng)前3D對象檢測網(wǎng)絡(luò)的性能遠(yuǎn)低于2D檢測的水平。因此,提高三維目標(biāo)檢測的精度不僅是自動駕駛領(lǐng)域的一項(xiàng)挑戰(zhàn),也是目標(biāo)檢測任務(wù)中的一項(xiàng)重大挑戰(zhàn)。
毫米波雷達(dá)和視覺的融合仍然存在挑戰(zhàn),這是本文的重點(diǎn)。毫米波雷達(dá)的最大缺點(diǎn)是雷達(dá)特征稀疏,與視覺圖像相比,毫米波雷達(dá)提供的信息非常少,無法帶來顯著的性能改進(jìn)。此外,毫米波雷達(dá)和視覺的特征信息是否可以進(jìn)一步整合,以及它們之間的相關(guān)互信息是否已經(jīng)挖掘出來,還有待研究。因此,毫米波雷達(dá)視覺融合仍然面臨兩大挑戰(zhàn):稀疏感知信息和更有效的融合,這也是多傳感器融合領(lǐng)域的兩大挑戰(zhàn)!
Future Trends
作者認(rèn)為有三個主要趨勢,其中之一是3D對象檢測:提高三維目標(biāo)檢測的精度將是一個主要的研究趨勢。其余兩個趨勢涉及雷達(dá)視覺融合。一方面,有必要整合新的傳感信息,即增加新的傳感器,如激光雷達(dá),它在自動駕駛方面取得了優(yōu)異的性能;另一方面,有必要探索傳感信息融合的新方法,如多模態(tài)融合。
基于多傳感器融合的三維目標(biāo)檢測還在基于視覺的目標(biāo)檢測網(wǎng)絡(luò)的基礎(chǔ)上增加了雷達(dá)輸入分支和信息融合模塊。參考文獻(xiàn)[91]使用了一種類似于特征級融合的方案,首先通過2D檢測將雷達(dá)點(diǎn)繪制成矩形區(qū)域,然后執(zhí)行3D檢測。此外,由于激光雷達(dá)具有豐富的特征,可以重建物體輪廓,更容易估計(jì)三維box,因此,利用激光雷達(dá)進(jìn)行多傳感器融合三維物體檢測的研究較多。
隨著激光雷達(dá)成本的降低,配備激光雷達(dá)的自動駕駛車輛已成為一種趨勢。然而,激光雷達(dá)不能替代毫米波雷達(dá),毫米波雷達(dá)有其獨(dú)特的優(yōu)勢。激光雷達(dá)具有更高的探測精度,它們相輔相成,激光雷達(dá)和視覺的融合在自動駕駛中正變得很有價值。無論是毫米波雷達(dá)還是激光雷達(dá),其傳感信息在不同模式下都是相同的環(huán)境信息。雷達(dá)感測信息和視覺信息也是不同模態(tài)的信息。將雷達(dá)視覺融合視為多模態(tài)信息融合,可能有更好的解決方案。此外,在自動駕駛領(lǐng)域,數(shù)據(jù)集提供的毫米波雷達(dá)數(shù)據(jù)是后處理數(shù)據(jù)。然而,從信息保護(hù)的角度來看,后處理雷達(dá)數(shù)據(jù)中包含的信息量必須相對于原始數(shù)據(jù)丟失。如果將原始雷達(dá)檢測數(shù)據(jù)和視覺圖像視為兩種不同的傳感信息模式進(jìn)行融合,則可以獲得更豐富的傳感信息。多模態(tài)信息融合的挑戰(zhàn)在于如何完美地組合不同模態(tài)的信息及其攜帶的噪聲,以及如何挖掘相關(guān)信息以幫助理解同一事物。

原文鏈接:https://mp.weixin.qq.com/s/Oc_rKRgxiYdA8JkJGILHVg



































