自動(dòng)駕駛中多模態(tài)三維目標(biāo)檢測(cè)研究綜述

發(fā)布人：計(jì)算機(jī)視覺(jué)工坊時(shí)間：2021-07-10 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

摘要：過(guò)去幾年，我們見(jiàn)證了自動(dòng)駕駛的快速發(fā)展。然而，由于復(fù)雜和動(dòng)態(tài)的駕駛環(huán)境，目前實(shí)現(xiàn)完全自動(dòng)駕駛?cè)匀皇且豁?xiàng)艱巨的任務(wù)。因此，自動(dòng)駕駛汽車配備了一套傳感器來(lái)進(jìn)行強(qiáng)大而準(zhǔn)確的環(huán)境感知。隨著傳感器的數(shù)量和類型不斷增加，將它們?nèi)诤蟻?lái)更好地感知環(huán)境正在成為一種趨勢(shì)。到目前為止，還沒(méi)有文章對(duì)基于多傳感器融合的3D目標(biāo)檢測(cè)進(jìn)行深入調(diào)研。為了彌合這一差距并推動(dòng)未來(lái)的研究，本文致力于回顧最近利用多個(gè)傳感器數(shù)據(jù)源（尤其是相機(jī)和 LiDAR）的基于融合的 3D 檢測(cè)深度學(xué)習(xí)模型。首先，本文介紹了自動(dòng)駕駛汽車中常用的傳感器，包括它們的通用數(shù)據(jù)表示以及基于每種類型的傳感器數(shù)據(jù)的3D目標(biāo)檢測(cè)網(wǎng)絡(luò)。接下來(lái)，我們討論一些多模態(tài)3D目標(biāo)檢測(cè)中流行的數(shù)據(jù)集，重點(diǎn)介紹每個(gè)數(shù)據(jù)集中包含的傳感器數(shù)據(jù)。然后我們從三個(gè)方面來(lái)深入回顧最近的多模態(tài)3D檢測(cè)融合網(wǎng)絡(luò)：融合位置、融合數(shù)據(jù)表示和融合粒度。最后，本文總結(jié)了現(xiàn)有的開(kāi)放式挑戰(zhàn)并指出可能的解決方案。

1. 引言

自動(dòng)駕駛感知模塊

如圖1，自動(dòng)駕駛汽車（AV）通常配備一個(gè)感知子系統(tǒng)來(lái)實(shí)時(shí)檢測(cè)和跟蹤運(yùn)動(dòng)目標(biāo)。感知子系統(tǒng)是將來(lái)自一組傳感器的數(shù)據(jù)作為輸入，經(jīng)過(guò)一系列的處理步驟后，輸出關(guān)于環(huán)境、其他物體（如汽車）以及自動(dòng)駕駛汽車本身的知識(shí)。如圖2所示，AV上的傳感器通常包括攝像頭、激光雷達(dá)（Light Detection And Ranging sensor，LiDAR）、雷達(dá)（Radio detection and ranging，Radar）、GPS（Global Positioning System）、慣性測(cè)量單元(inertial measurement units)等。

具體來(lái)說(shuō)，感知子系統(tǒng)有三個(gè)基本要求。

首先，它需要是準(zhǔn)確的，并給出了駕駛環(huán)境的準(zhǔn)確描述。

其次，具有魯棒性。能在惡劣天氣下、甚至當(dāng)一些傳感器退化甚至失效時(shí)保證AV的穩(wěn)定與安全。

第三，實(shí)時(shí)性，能提供快速的反饋。

為了滿足上述需求，感知子系統(tǒng)同時(shí)執(zhí)行多個(gè)重要任務(wù)，如3D目標(biāo)檢測(cè)、跟蹤、同步定位與映射(SLAM)等。

圖1：一個(gè)典型的自動(dòng)駕駛感知子系統(tǒng)

圖2：自動(dòng)駕駛汽車Sonic

3D目標(biāo)檢測(cè)

3D目標(biāo)檢測(cè)是感知子系統(tǒng)的一項(xiàng)重要任務(wù)，其目的是在傳感器數(shù)據(jù)中識(shí)別出所有感興趣的物體，并確定它們的位置和類別(如車輛、自行車、行人等)。在3D目標(biāo)檢測(cè)任務(wù)中，需要輸出參數(shù)來(lái)指定物體周圍的面向3d的邊界框。如圖3所示，為了繪制紅色的三維包圍盒，我們需要預(yù)測(cè)中心三維坐標(biāo)c，長(zhǎng)度l，寬度w，高度h，物體偏轉(zhuǎn)角度θ。顯然，2D目標(biāo)檢測(cè)無(wú)法滿足自動(dòng)駕駛環(huán)境感知的需求，因?yàn)槿鄙佻F(xiàn)實(shí)三維空間下的目標(biāo)位置。接下來(lái)介紹自動(dòng)駕駛的3D目標(biāo)檢測(cè)任務(wù)，根據(jù)傳感器的使用類型，包括使用相機(jī)、使用LiDAR以及使用Radar等一些單模態(tài)方法。在第二章中會(huì)詳細(xì)介紹。

結(jié)果例子（分別對(duì)應(yīng)綠框、紅框）

多模態(tài)目標(biāo)檢測(cè)

在現(xiàn)實(shí)的自動(dòng)駕駛情況下，通過(guò)單一類型的傳感器進(jìn)行目標(biāo)檢測(cè)是遠(yuǎn)遠(yuǎn)不夠的。首先，每種傳感器都有其固有的缺點(diǎn)。例如，Camera only方法易遭受物體遮擋；LiDAR only方法的缺點(diǎn)是輸入數(shù)據(jù)的分辨率比圖像低，特別是在遠(yuǎn)距離時(shí)點(diǎn)過(guò)于稀疏。圖4清楚地展示了兩種單模態(tài)檢測(cè)失效的情況。其次，要實(shí)現(xiàn)真正的自動(dòng)駕駛，我們需要考慮廣泛的天氣、道路和交通條件。感知子系統(tǒng)必須在所有不同的條件下都能提供良好的感知結(jié)果，這是依靠單一類型的傳感器難以實(shí)現(xiàn)的。

圖4：?jiǎn)文B(tài)探測(cè)器典型問(wèn)題的說(shuō)明。對(duì)于場(chǎng)景#1，(a)表示Camera only無(wú)法避免遮擋問(wèn)題，(b)中LiDAR only檢測(cè)器檢測(cè)結(jié)果正確；而在場(chǎng)景2中，(c)中Camera only的檢測(cè)器表現(xiàn)良好，而(d)中LiDAR only檢測(cè)器顯示了遠(yuǎn)處點(diǎn)云稀疏時(shí)檢測(cè)的難度。請(qǐng)注意，虛線紅框表示未探測(cè)目標(biāo)

為了解決這些挑戰(zhàn)，多模態(tài)融合的3D檢測(cè)方法被提出。雖然傳感器融合帶來(lái)了可觀的好處，但如何進(jìn)行高效的融合對(duì)底層系統(tǒng)的設(shè)計(jì)提出了嚴(yán)峻的挑戰(zhàn)。一方面，不同類型的傳感器在時(shí)間和空間上不同步;在時(shí)域上，由于不同傳感器的采集周期是相互獨(dú)立的，很難保證同時(shí)采集數(shù)據(jù)。在空間領(lǐng)域，傳感器在部署時(shí)具有不同的視角。另一方面，在設(shè)計(jì)融合方法時(shí)，我們需要密切關(guān)注幾個(gè)問(wèn)題。下面我們列舉了一些問(wèn)題作為例子。

多傳感器校準(zhǔn)和數(shù)據(jù)對(duì)齊：由于多模態(tài)數(shù)據(jù)的異質(zhì)性(如表1所示)，無(wú)論是在原始輸入空間還是在特征空間，都很難對(duì)它們進(jìn)行精確對(duì)齊。

信息丟失：我們以計(jì)算為代價(jià)，將傳感器數(shù)據(jù)轉(zhuǎn)換為一種可以對(duì)齊的處理格式，信息丟失是不可避免的。

跨模態(tài)數(shù)據(jù)增強(qiáng)：數(shù)據(jù)增強(qiáng)在3D目標(biāo)檢測(cè)中起著至關(guān)重要的作用，可以防止模型過(guò)擬合。全局旋轉(zhuǎn)和隨機(jī)翻轉(zhuǎn)等增強(qiáng)策略在單模態(tài)融合方法中得到了廣泛的應(yīng)用，但由于多傳感器一致性的問(wèn)題，許多多傳感器融合方法都缺少這種增強(qiáng)策略。

數(shù)據(jù)集與評(píng)價(jià)指標(biāo)：高質(zhì)量、可公開(kāi)使用的多模態(tài)數(shù)據(jù)集數(shù)量有限。即使是現(xiàn)有的數(shù)據(jù)集也存在規(guī)模小、類別不平衡、標(biāo)記錯(cuò)誤等問(wèn)題。此外，目前還沒(méi)有針對(duì)多傳感器融合模型的評(píng)價(jià)指標(biāo)，這給多傳感器融合方法之間的比較帶來(lái)了困難。

本文貢獻(xiàn)

我們對(duì)最近基于深度學(xué)習(xí)的多模態(tài)融合3D目標(biāo)檢測(cè)方法進(jìn)行了系統(tǒng)的總結(jié)。特別地，由于攝像頭和LiDAR是自動(dòng)駕駛中最常見(jiàn)的傳感器，我們的綜述重點(diǎn)關(guān)注這兩種傳感器數(shù)據(jù)的融合。

根據(jù)輸入傳感器數(shù)據(jù)的不同組合，對(duì)基于多模態(tài)的3D目標(biāo)檢測(cè)方法進(jìn)行分類。特別是range image(點(diǎn)云的一種信息完整形式)、pseudo-LiDARs (由相機(jī)圖像生成)，在過(guò)去的綜述文章中沒(méi)有進(jìn)行討論。

從多個(gè)角度仔細(xì)研究了基于多模態(tài)的3D目標(biāo)檢測(cè)方法的發(fā)展。重點(diǎn)關(guān)注這些方法如何實(shí)現(xiàn)跨模態(tài)數(shù)據(jù)對(duì)齊，如何減少信息損失等關(guān)鍵問(wèn)題。

對(duì)基于深度學(xué)習(xí)的相機(jī)-LiDAR融合的方法進(jìn)行詳細(xì)對(duì)比總結(jié)。同時(shí)，我們還介紹了近年來(lái)可用于3D目標(biāo)檢測(cè)的多模態(tài)數(shù)據(jù)集。

仔細(xì)探討具有挑戰(zhàn)性的問(wèn)題，以及可能的解決方案，希望能夠啟發(fā)一些未來(lái)的研究。

2. 背景

在本節(jié)中，我們將提供自動(dòng)駕駛中使用的典型傳感器的背景概述，包括基于于每種傳感器的數(shù)據(jù)表示和3D目標(biāo)檢測(cè)方法。其中，我們主要討論相機(jī)和激光雷達(dá)傳感器。最后，介紹了其他的一些傳感器。

基于相機(jī)的3D目標(biāo)檢測(cè)

相機(jī)的得到的數(shù)據(jù)是圖像。在多模態(tài)融合方法中，對(duì)于圖像的處理形式，有以下幾種表示。

1）Feature map

2）Mask

3）Pseudo-LiDAR

圖5：RGB圖像及其典型數(shù)據(jù)表示。原始圖像來(lái)自KITTI訓(xùn)練集。對(duì)于(b)，使用預(yù)先訓(xùn)練的AlexNet獲取64個(gè)通道的特征圖。對(duì)于(d)，我們采用偽點(diǎn)云的BEV來(lái)更好的顯示

基于LiDAR的3D目標(biāo)檢測(cè)

由于點(diǎn)云數(shù)據(jù)是不規(guī)則的和稀疏的，找到一個(gè)合適的點(diǎn)云表示對(duì)于高效的處理是很重要的。大多數(shù)現(xiàn)有的處理形式可以分為三大類:體素、點(diǎn)和視圖。

1）Voxel-based

2）Point-based

3）View-based

圖6：原始點(diǎn)云及其典型數(shù)據(jù)表示。我們從KITTI訓(xùn)練集中得到原始點(diǎn)云

基于其他傳感器的3D目標(biāo)檢測(cè)

AV其他的傳感器包括如Radar，紅外相機(jī)等等。這里我們主要介紹毫米波雷達(dá)（mmRadar）。我們使用原始收集的雷達(dá)數(shù)據(jù)進(jìn)行可視化。如圖7所示，對(duì)原始數(shù)據(jù)進(jìn)行兩次快速傅里葉變換，得到圖像對(duì)應(yīng)的距離-方位熱圖。(b)中的亮度表示該位置的信號(hào)強(qiáng)度，也表明物體出現(xiàn)的概率很高。

圖7：同一場(chǎng)景上的RGB圖像(a)和毫米波雷達(dá)熱圖(b)。數(shù)據(jù)是在中國(guó)科學(xué)技術(shù)大學(xué)西校區(qū)北門收集的。

3. 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

數(shù)據(jù)集是有效進(jìn)行深度學(xué)習(xí)研究的關(guān)鍵。特別是，像3D目標(biāo)檢測(cè)這樣的任務(wù)需要精細(xì)標(biāo)記的數(shù)據(jù)。在這一部分，我們討論了一些廣泛使用的自動(dòng)駕駛3D目標(biāo)檢測(cè)數(shù)據(jù)集。并且進(jìn)行了詳細(xì)地比較，包括年份，激光雷達(dá)數(shù)量，激光雷達(dá)通道數(shù)量、攝像頭的數(shù)量，是否帶有雷達(dá)，2D盒子的數(shù)量(不區(qū)分2D盒子和2D實(shí)例分割注釋)，3D盒子的數(shù)量，標(biāo)注的類的數(shù)量，以及位置。具體如表2所展示。

另外，大多數(shù)基于深度學(xué)習(xí)的多模態(tài)融合方法都是在KITTI、nuSecenes、Waymo上進(jìn)行實(shí)驗(yàn)的。從圖8，我們觀察到三個(gè)流行的數(shù)據(jù)集的大小從只有15,000幀到超過(guò)230,000幀。與圖像數(shù)據(jù)集相比，這里的數(shù)據(jù)集仍然相對(duì)較小，對(duì)象類別有限且不平衡。圖8也比較了汽車類、人類和自行車類的百分比。有更多的物體被標(biāo)記為“汽車”比“行人”或“自行車”。

圖8：KITTI、nuScenes和Waymo開(kāi)放數(shù)據(jù)集的比較

4. 基于深度學(xué)習(xí)的多模態(tài)3D檢測(cè)網(wǎng)絡(luò)

在本節(jié)中，我們介紹了基于多模態(tài)融合的3D檢測(cè)網(wǎng)絡(luò)。我們通過(guò)考慮以下三個(gè)融合策略中的重要因素來(lái)組織我們的文章：(1)融合位置，即多模態(tài)融合在整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)中發(fā)生的位置；(2)融合輸入，即每個(gè)傳感器使用什么數(shù)據(jù)表示進(jìn)行融合；(3)融合粒度，即多個(gè)傳感器的數(shù)據(jù)在什么粒度進(jìn)行融合檢測(cè)。

其中，融合位置是區(qū)分融合方法的最重要因素。一般來(lái)說(shuō)，我們有兩種可能的融合位置，如圖9所示：特征融合和決策融合。特征融合是將不同模態(tài)的特征組合起來(lái)得到檢測(cè)結(jié)果，而決策融合則是將每個(gè)單獨(dú)的檢測(cè)結(jié)果組合起來(lái)。下面，我們首先回顧了特征融合方法，然后討論了決策融合方法。注意，由于融合方法的設(shè)計(jì)與數(shù)據(jù)集的選擇是正交的，因此我們將一起討論KITTI、Waymo和nuScenes數(shù)據(jù)集的融合方法。其中，大多數(shù)多模態(tài)三維檢測(cè)方法都是在KITTI上進(jìn)行評(píng)價(jià)的。從表3的評(píng)價(jià)總結(jié)中，可以清楚地看出該方法適用于哪些數(shù)據(jù)集。

圖9：特征融合與決策融合

特征融合

特征融合在神經(jīng)網(wǎng)絡(luò)層中分層混合模態(tài)。它允許來(lái)自不同模式的特性在層上相互交互。特征融合方法需要特征層之間的相互作用，如圖9 (a)所示。這些方法首先對(duì)每個(gè)模態(tài)分別采用特征提取器，然后結(jié)合這些特征實(shí)現(xiàn)多尺度信息融合。最后，將融合后的特征輸入神經(jīng)網(wǎng)絡(luò)層，得到檢測(cè)結(jié)果。

許多融合方法都屬于這一類。我們基于傳感器數(shù)據(jù)的不同組合，將這些方法分成以下幾類。

Point cloud view & image feature map

point cloud voxels & image feature map

LiDAR points & image feature map

LiDAR points & image mask:

point cloud voxels & image mask

point cloud voxels & point cloud view & image feature map

point cloud voxels & image feature map & image pseudo-LiDAR

此外，在特征融合方法中，我們還需要關(guān)注融合粒度。具體來(lái)說(shuō)，特征融合可以在不同粒度上進(jìn)行，即RoI-wise、voxel-wise、point-wise和pixel-wise。圖10總結(jié)了基于深度學(xué)習(xí)的多模態(tài)三維檢測(cè)方法出現(xiàn)的年份，并對(duì)每種方法的融合粒度進(jìn)行了標(biāo)記。我們觀察到，早期方法融合粒度比較粗糙，主要使用RoI和voxel。隨著多模態(tài)目標(biāo)檢測(cè)技術(shù)的快速發(fā)展，融合粒度越來(lái)越細(xì)，融合種類越來(lái)越多，檢測(cè)性能不斷提高。

圖10：特征融合3D目標(biāo)檢測(cè)方法的時(shí)間軸。用不同的顏色來(lái)標(biāo)記它們的融合粒度。

決策融合

在決策融合中，多模態(tài)數(shù)據(jù)被單獨(dú)、獨(dú)立地處理，融合發(fā)生在最后的決策階段。這種方法的思想通常是利用神經(jīng)網(wǎng)絡(luò)對(duì)傳感器數(shù)據(jù)進(jìn)行并行處理，然后將得到的所有決策輸出進(jìn)行融合，得到最終結(jié)果。與特征融合相比，決策融合可以更好地利用現(xiàn)有網(wǎng)絡(luò)對(duì)每個(gè)模態(tài)的影響，并且我們可以很容易地知道每個(gè)模態(tài)的結(jié)果是否正確。然而，從表4可以看出，一個(gè)不能忽視的嚴(yán)重缺點(diǎn)是不能使用豐富的中間層特征。因此，決策融合直到最近才受到人們的重視。

相機(jī)-LiDAR融合方法總結(jié)

綜上所述，大多數(shù)融合方法都是基于KITTI 3D基準(zhǔn)，但在KITTI 3D目標(biāo)檢測(cè)排行榜上排名靠前的方法主要是LiDAR-only方法。在KITTI數(shù)據(jù)集上，多模態(tài)方法的效果并不好。相反，在最新數(shù)據(jù)集如nuScenes和Waymo Open Dataset上，排名靠前的方法主要是多模態(tài)融合的方法。一個(gè)可能的原因是這些數(shù)據(jù)集中使用的LiDAR傳感器具有不同的分辨率。KITTI使用一個(gè)64通道的LiDAR，nuScenes使用一個(gè)32光束的LiDAR。因此，當(dāng)點(diǎn)云相對(duì)稀疏時(shí)，多模態(tài)方法更有用。更重要的是，最近的融合方法有一些共同的特點(diǎn)。一方面，它們都采用point-wise的融合粒度來(lái)有效地建立激光雷達(dá)點(diǎn)與圖像像素之間的精確映射；另一方面，在訓(xùn)練融合網(wǎng)絡(luò)的過(guò)程中，都進(jìn)行了精心設(shè)計(jì)的跨模態(tài)數(shù)據(jù)增強(qiáng)，不僅加快了網(wǎng)絡(luò)的收斂速度，而且緩解了類間的不平衡問(wèn)題

其他傳感器融合方式

我們還簡(jiǎn)單討論了針對(duì)其他類型傳感器的融合方法，如Radar-相機(jī)，LiDAR-Radar等。

5. 開(kāi)放式挑戰(zhàn)與可能的解決方案

在本節(jié)中，我們將討論多模態(tài)3D目標(biāo)檢測(cè)的開(kāi)放式挑戰(zhàn)和可能的解決方案。我們重點(diǎn)討論了如何提高多傳感器感知系統(tǒng)的準(zhǔn)確性和魯棒性，并同時(shí)實(shí)現(xiàn)系統(tǒng)的實(shí)時(shí)性。表6總結(jié)了我們的討論。包括以下幾個(gè)關(guān)鍵問(wèn)題。

多傳感器聯(lián)合標(biāo)定

數(shù)據(jù)對(duì)齊

跨模態(tài)數(shù)據(jù)增強(qiáng)

數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

6. 總結(jié)

由于3D視覺(jué)在自動(dòng)駕駛等應(yīng)用中的重要性日益增加，本文綜述了近年來(lái)的多模態(tài)3D目標(biāo)檢測(cè)網(wǎng)絡(luò)，特別是相機(jī)圖像和激光雷達(dá)點(diǎn)云的融合。我們首先仔細(xì)比較了常用的傳感器，討論了它們的優(yōu)缺點(diǎn)，總結(jié)了單模態(tài)方法的常見(jiàn)問(wèn)題。然后，我們提供了幾個(gè)常用的自動(dòng)駕駛數(shù)據(jù)集的深入總結(jié)。為了給出一個(gè)系統(tǒng)的回顧，我們考慮以下三個(gè)維度對(duì)多模態(tài)融合方法進(jìn)行分類：(1)融合在管道中發(fā)生的位置；(2)每個(gè)融合輸入使用什么數(shù)據(jù)表示；(3)融合算法的粒度是什么。最后，我們討論了在多模態(tài)3D目標(biāo)檢測(cè)中的開(kāi)放式挑戰(zhàn)和潛在的解決方案。

文章鏈接：https://arxiv.org/abs/2106.12735

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

国产肉体XXXX裸体137大胆,国产成人久久精品流白浆,国产乱子伦视频在线观看,无码中文字幕免费一区二区三区国产成人手机在线-午夜国产精品无套-swag国产精品-国产毛片久久国产

博客專欄

自動(dòng)駕駛中多模態(tài)三維目標(biāo)檢測(cè)研究綜述

相關(guān)推薦

技術(shù)專區(qū)

国产肉体XXXX裸体137大胆,国产成人久久精品流白浆,国产乱子伦视频在线观看,无码中文字幕免费一区二区三区 国产成人手机在线-午夜国产精品无套-swag国产精品-国产毛片久久国产

博客專欄

自動(dòng)駕駛中多模態(tài)三維目標(biāo)檢測(cè)研究綜述

相關(guān)推薦

技術(shù)專區(qū)

国产肉体XXXX裸体137大胆,国产成人久久精品流白浆,国产乱子伦视频在线观看,无码中文字幕免费一区二区三区国产成人手机在线-午夜国产精品无套-swag国产精品-国产毛片久久国产