国产肉体XXXX裸体137大胆,国产成人久久精品流白浆,国产乱子伦视频在线观看,无码中文字幕免费一区二区三区 国产成人手机在线-午夜国产精品无套-swag国产精品-国产毛片久久国产

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > CVPR 2020 | 基于深度引導(dǎo)卷積的單目3D目標(biāo)檢測(cè)

CVPR 2020 | 基于深度引導(dǎo)卷積的單目3D目標(biāo)檢測(cè)

發(fā)布人:計(jì)算機(jī)視覺(jué)工坊 時(shí)間:2021-07-10 來(lái)源:工程師 發(fā)布文章

參考論文:D4LCN:Learning Depth-Guided Convolutions for Monocular 3D Object Detection(CVPR2020)

論文、代碼地址:在公眾號(hào)「計(jì)算機(jī)視覺(jué)工坊」,后臺(tái)回復(fù)「D4LCN」,即可直接下載。

參考paddle復(fù)現(xiàn):3D目標(biāo)檢測(cè)(單目)D4LCN論文復(fù)現(xiàn)(https://aistudio.baidu.com/aistudio/projectoverview/public)

Abstract

單目3D目標(biāo)檢測(cè)最大的挑戰(zhàn)在于無(wú)法得到精確的深度信息,傳統(tǒng)的二維卷積算法不適合這項(xiàng)任務(wù),因?yàn)樗荒懿东@局部目標(biāo)及其尺度信息,而這對(duì)三維目標(biāo)檢測(cè)至關(guān)重要.為了更好地表示三維結(jié)構(gòu),現(xiàn)有技術(shù)通常將二維圖像估計(jì)的深度圖轉(zhuǎn)換為偽激光雷達(dá)表示,然后應(yīng)用現(xiàn)有3D點(diǎn)云的物體檢測(cè)算法.因此他們的結(jié)果在很大程度上取決于估計(jì)深度圖的精度,從而導(dǎo)致性能不佳.在本文中,作者通過(guò)提出一種新的稱(chēng)為深度引導(dǎo)的局部卷積網(wǎng)絡(luò)(LCN),更改了二維全卷積  (D4LCN),其中的filter及其感受野可以從基于圖像的深度圖中自動(dòng)學(xué)習(xí),使不同圖像的不同像素具有不同的filter.克服了傳統(tǒng)二維卷積的局限性,縮小了圖像表示與三維點(diǎn)云表示的差距.D4LCN對(duì)于最先進(jìn)的KITTI的相對(duì)改進(jìn)是9.1%,單目3D檢測(cè)的SOTA方法.

Introduction

3D目標(biāo)檢測(cè)有許多應(yīng)用,如自動(dòng)駕駛和機(jī)器人技術(shù).LiDAR設(shè)備可以獲得三維點(diǎn)云,從而獲得精確的深度信息.但是,LiDAR高成本和稀疏輸出的特點(diǎn)讓人們希望尋找到更便宜的替代品,這些替代品的其中之一維單目相機(jī).雖然單目相機(jī)引起了人們的廣泛關(guān)注,但在很大程度上不能夠解決3D目標(biāo)檢測(cè)問(wèn)題.實(shí)現(xiàn)上述目標(biāo)的方法通常是分為基于2圖像的方法和基于偽激光雷達(dá)點(diǎn)的方法兩種.基于圖像的方法通常利用幾何體約束,包括對(duì)象形狀、地平面和關(guān)鍵點(diǎn).這些約束條件在損失函數(shù)中用不同的項(xiàng)表示,以提高檢測(cè)結(jié)果.基于偽激光雷達(dá)的圖像深度變換方法是通過(guò)模擬激光雷達(dá)信號(hào)的點(diǎn)云表示.如圖1所示,這兩種方法各有缺點(diǎn),都導(dǎo)致了性能不理想.

1、.png

圖1.(a)和(b)分別顯示了監(jiān)督深度估計(jì)器DORN和無(wú)監(jiān)督單深度生成的偽激光雷達(dá)點(diǎn).綠色框表示groundtruth(GT)3D框.如(b)所示,由于深度不準(zhǔn)確而產(chǎn)生的偽激光雷達(dá)點(diǎn)與GTbox有較大的偏移量(c)和(d)顯示了我們的方法和偽激光雷達(dá)使用粗深度圖的探測(cè)結(jié)果.效果在很大程度上取決于估計(jì)深度圖的精度,而我們的方法在缺少精確深度圖的情況下可以獲得準(zhǔn)確的檢測(cè)結(jié)果

基于圖像的方法通常無(wú)法獲取有意義的局部對(duì)象尺度和結(jié)構(gòu)信息,這主要是由于以下兩個(gè)因素,遠(yuǎn)近距離的單眼視覺(jué)會(huì)引起物體尺度的顯著變化.傳統(tǒng)的二維卷積核很難同時(shí)處理不同尺度的對(duì)象(見(jiàn)圖2).二維卷積的局部鄰域定義在攝像機(jī)平面上,其中深度維數(shù)丟失.在這個(gè)非度量空間(e像素之間的距離沒(méi)有一個(gè)明確的物理意義),過(guò)濾器無(wú)法區(qū)分對(duì)象和背景.在這種情況下,汽車(chē)區(qū)域和背景區(qū)域?qū)⒈煌葘?duì)待.

雖然基于偽激光雷達(dá)點(diǎn)的方法已經(jīng)取得了一些進(jìn)展,但它們?nèi)匀淮嬖趦蓚€(gè)關(guān)鍵問(wèn)題,這些方法的性能在很大程度上依賴(lài)于估計(jì)深度圖的精度(見(jiàn)圖1).從單目圖像中提取的深度圖通常是粗糙的(使用它們估計(jì)的點(diǎn)云具有錯(cuò)誤的坐標(biāo)),導(dǎo)致不準(zhǔn)確的三維預(yù)測(cè).換句話說(shuō),深度圖的精度限制了三維目標(biāo)檢測(cè)的性能.偽激光雷達(dá)方法不能有效地利用從RGB圖像中提取的高層語(yǔ)義信息,導(dǎo)致大量的虛警,這是因?yàn)辄c(diǎn)云提供了空間信息,卻丟失了語(yǔ)義信息.

為了解決上述問(wèn)題,我們提出了一種新的卷積網(wǎng)絡(luò)D4LCN,其中卷積核由深度映射生成,并局部應(yīng)用于單個(gè)圖像樣本的每個(gè)像素和通道,而不是學(xué)習(xí)全局內(nèi)核來(lái)應(yīng)用于所有圖像.如圖2所示,D4LCN以深度圖為指導(dǎo),從RGB圖像中學(xué)習(xí)局部動(dòng)態(tài)深度擴(kuò)展核,以填補(bǔ)二維和三維表示之間的空白,其中每個(gè)核都有自己的擴(kuò)張率.

2.png

圖2.不同卷積方法的比較(a)是傳統(tǒng)的二維卷積,它在每個(gè)像素上使用一個(gè)卷積核來(lái)卷積整個(gè)圖像(b)對(duì)圖像的不同區(qū)域(切片)應(yīng)用多個(gè)固定卷積核.(c)使用深度圖為每個(gè)像素生成具有相同接收?qǐng)龅膭?dòng)態(tài)核(d)表示我們的方法,其中濾波器是動(dòng)態(tài)的,深度圖為每個(gè)像素和通道特性圖具有自適應(yīng)接收?qǐng)?它可以用比(C)更少的參數(shù)更有效地實(shí)現(xiàn).

我們的貢獻(xiàn)(1)提出了一種新的三維目標(biāo)檢測(cè)組件D4LCN,其中深度圖指導(dǎo)了單目圖像的動(dòng)態(tài)深度擴(kuò)展局部卷積的學(xué)習(xí)(2)設(shè)計(jì)了一個(gè)基于D4LCN的單級(jí)三維物體檢測(cè)框架,以更好的學(xué)習(xí)三維特征,以縮小二維卷積和基于三維點(diǎn)云的運(yùn)算之間的差距(3)大量實(shí)驗(yàn)表明,D4LCN優(yōu)于最先進(jìn)的單眼3D檢測(cè)方法,并在KITTIbenchmark上取得第一名.

網(wǎng)絡(luò)結(jié)構(gòu)

我們的框架由三個(gè)關(guān)鍵組件組成:網(wǎng)絡(luò)主干、深度引導(dǎo)濾波模塊和2D-3D head

3.png

圖3.單目三維物體檢測(cè)框架.首先從RGB圖像中估計(jì)出深度圖,并與RGB圖像一起作為輸出兩個(gè)分支網(wǎng)絡(luò)的輸入.然后利用深度引導(dǎo)濾波模塊對(duì)每個(gè)殘差塊的信息進(jìn)行融合.最后,采用一級(jí)非最大抑制探測(cè)頭(NMS)進(jìn)行預(yù)測(cè)

損失函數(shù)

4.png

比較結(jié)果

我們?cè)趉itti數(shù)據(jù)集的官方測(cè)試集和兩組驗(yàn)證集上進(jìn)行了實(shí)驗(yàn).表一包括排名前14位的方法,其中我們的方法排名第一.可以觀察到:

(1)我們的方法比第二個(gè)最好的競(jìng)爭(zhēng)對(duì)手三維汽車(chē)檢測(cè)的提高9.1%

(2)大多數(shù)競(jìng)爭(zhēng)對(duì)手在COCO/KITTI上預(yù)先訓(xùn)練的檢測(cè)器(例如更快的rcnn)或采用多階段訓(xùn)練來(lái)獲得更好的2D檢測(cè)和穩(wěn)定的3D結(jié)果.而我們的模型是使用標(biāo)準(zhǔn)的ImageNet預(yù)訓(xùn)練模型進(jìn)行端到端訓(xùn)練的.然而,我們?nèi)匀蝗〉昧俗顑?yōu)異的三維檢測(cè)結(jié)果,驗(yàn)證了我們的D4LCN學(xué)習(xí)三維結(jié)構(gòu)的有效性.

5.png

表1.KITTI 3D目標(biāo)檢測(cè)數(shù)據(jù)集的比較結(jié)果.

因?yàn)槿耸欠莿傮w.其形狀多變,深度信息難以準(zhǔn)確估計(jì).因此,對(duì)行人和騎自行車(chē)的人進(jìn)行三維檢測(cè)變得尤為困難,所有基于偽激光雷達(dá)的方法都無(wú)法檢測(cè)到這兩種類(lèi)型的傳感器,如表2所示.該方法在行人和騎車(chē)人的三維檢測(cè)中仍取得了令人滿意的效果.此外,我們還在圖4中顯示了與我們的D4LCN的不同濾波器相對(duì)應(yīng)的活動(dòng)映射.我們模型的同一層上的不同濾波器使用不同大小的感受野來(lái)處理不同規(guī)模的物體,包括行人(小)和汽車(chē)(大),以及遠(yuǎn)處的汽車(chē)(?。┖透浇钠?chē)(大).

6.png

表2.D4LCN在三個(gè)數(shù)據(jù)分割上的多類(lèi)3D檢測(cè)結(jié)果.

7.png

圖4.D4LCN的不同濾波器對(duì)應(yīng)的活動(dòng),分別表示1,2,3的擴(kuò)張率.不同的濾波器在模型中有不同的函數(shù)來(lái)自適應(yīng)地處理尺度問(wèn)題.

總結(jié)

本文提出了一種用于單眼三維目標(biāo)檢測(cè)D4LCN,其卷積核和感受野(擴(kuò)張率)對(duì)于不同圖像的不同像素和通道是不同的.這些核是在深度映射的基礎(chǔ)上動(dòng)態(tài)生成的,以彌補(bǔ)二維卷積的局限性,縮小二維卷積與基于點(diǎn)云的三維算子之間的差距.結(jié)果表明,該算法不僅能解決二維卷積的尺度敏感和無(wú)意義的局部結(jié)構(gòu)問(wèn)題,而且能充分利用RGB圖像的高級(jí)語(yǔ)義信息.而且D4LCN能更好地捕獲KITTI數(shù)據(jù)集上的三維信息,并能在KITTI數(shù)據(jù)集上進(jìn)行單目三維目標(biāo)檢測(cè).

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

助聽(tīng)器原理相關(guān)文章:助聽(tīng)器原理




關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉