基于改進SSD算法的小目標(biāo)檢測研究*

作者：何杰林,劉興超黃凌霄(寧夏大學(xué)信息工程學(xué)院,銀川 750021) 時間：2021-10-26 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

編者按：本文提出了一種改進SSD（Single Shot MultiBox Detection）算法的小目標(biāo)場景檢測算法，并且系統(tǒng)闡述了目標(biāo)檢測算法的研究現(xiàn)狀。在SSD首創(chuàng)算法的網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上，引入改進特征金字塔結(jié)構(gòu)SFPN融合不同層特征語義信息提高小目標(biāo)檢測性能，將原特征網(wǎng)絡(luò)VggNet16替換成網(wǎng)絡(luò)層數(shù)更深的ResNet50，加深網(wǎng)絡(luò)結(jié)構(gòu)提高整體網(wǎng)絡(luò)性能，并且引進BN、全局平均池化等結(jié)構(gòu)，加快收斂速度和降低參數(shù)量，提高實時性，設(shè)計得到RFG_SSD網(wǎng)絡(luò)。結(jié)果表明，該網(wǎng)絡(luò)的檢測精度與速度都具有很好的表現(xiàn)，實現(xiàn)多

*基金項目：寧夏高等學(xué)校科學(xué)研究項目（NGY2020009）；寧夏重點研發(fā)計劃（引才專項）項目（2020BEB04018）；寧夏自然科學(xué)基金項目（2021AAC03096）

本文引用地址：http://m.ptau.cn/article/202110/429083.htm

0 引言

近年來，常用的目標(biāo)檢測算法在小目標(biāo)應(yīng)用場景中也已證明了其卓越的性能。目標(biāo)檢測場景中小目標(biāo)識別檢測一直是熱點研究問題，基于此問題提出改進SSD算法的圖像小目標(biāo)檢測模型及其應(yīng)用。首先在原SSD主干部分和檢測部分之間引入改進特征金字塔網(wǎng)絡(luò)，融合不同層感受野特征信息提升小目標(biāo)檢測性能。其次使用深層特征提取網(wǎng)絡(luò)ResNet50 替換VggNet16 提升整體網(wǎng)絡(luò)精度。最后在檢測層使用全局平均池化層替換全連接層，降低參數(shù)從而提高檢測速度，設(shè)計得到改進網(wǎng)絡(luò)RFG_SSD 算法。通過使用改進SSD 算法和其他的一些主流檢測方法，在小目標(biāo)檢測數(shù)據(jù)集上進行3 種評價指標(biāo)的對比實驗，包括平均精度、速度以及小目標(biāo)檢測個數(shù)。結(jié)果表明，改進算法平均精度達到98.05%，F(xiàn)PS達到85.56，小目標(biāo)檢測個數(shù)相較原SSD 檢測個數(shù)高出3倍多，小目標(biāo)檢測性能效果顯著提升。

1 目標(biāo)檢測研究方法綜述

目標(biāo)檢測的目的是從所需要檢測的目標(biāo)圖像中找到需要檢測的目標(biāo)，目標(biāo)檢測包含定位與識別兩個過程，目標(biāo)定位是在需要檢測的目標(biāo)圖像中找到需要檢測的目標(biāo)位置，目標(biāo)識別是在目標(biāo)圖像中識別出，并且定位到需要檢測的目標(biāo)類別。目標(biāo)檢測的任務(wù)可以分成3 個部分，①先建立一個提取候選區(qū)域的模型，運用建立的模型從真實的目標(biāo)檢測應(yīng)用場景中提取出需要的候選區(qū)域；②在提取出的候選區(qū)域中識別出其分類模型；③對識別出的分類模型的參數(shù)作出進一步的精確調(diào)整，并對提取到的有用的候選框的位置進一步精確調(diào)修，從而使之達到較滿意的檢測效果。目前，對于目標(biāo)檢測的算法主要分成兩大類，一類是傳統(tǒng)的目標(biāo)檢測算法^[1-10]，另一類是基于深度學(xué)習(xí)的目標(biāo)檢測算法^[11-12]。

1.1 基于傳統(tǒng)視覺的目標(biāo)檢測算法

基于傳統(tǒng)視覺的目標(biāo)檢測算法的目標(biāo)檢測過程主要使用3 個步驟：①目標(biāo)圖像中的候選區(qū)域的選取主要使用窗口生成；②在候選區(qū)域中特征的提取是在這些候選區(qū)域上提取到對目標(biāo)圖像檢測有用的特征；③使用分類器對所需要檢測的目標(biāo)圖像進行分類，從而確定需要檢測的目標(biāo)圖像中的目標(biāo)類別。對于目標(biāo)檢測的工作很早就已經(jīng)展開。2001 年，Viola 和Jones 與其關(guān)目標(biāo)圖像中的所有滑動窗口，不如關(guān)注所需檢測的目標(biāo)圖像中可能會有檢測目標(biāo)圖像的某些區(qū)域，過濾滑動窗口減少了整個目標(biāo)發(fā)現(xiàn)任務(wù)所需的時間；2002 年，Papageorgiou 等人提出了用于靜態(tài)目標(biāo)檢測場景中需要檢測的目標(biāo)圖像所通用的框架，使用這個框架不需要有任何的先驗知識，運動分割或者模型，就可以從這個框架中直接學(xué)習(xí)到我們所需要的特征；2004 年，Lowe 對SIFT 尺度不變特征進一步改進，改進之后的運動目標(biāo)是由獲取目標(biāo)圖像的關(guān)鍵點及其鄰近的梯度信息來描述的；2005 年，Dalai 等人提出了HOG梯度方向直方圖，HOG 是在需要檢測的目標(biāo)圖像的一些局部區(qū)域做特定動作，也是對行人進行目標(biāo)檢測的一種特征描述子，并且可以使光線變化以及圖像形狀都可以具有好的魯棒性，由于其不會被需要檢測的行人的一些細(xì)小肢體動作干擾，所以HOG 非常適合做一些人體檢測任務(wù)；2010 年，F(xiàn)elzenszwalb 等將SVM 與HOG特征兩者的功能結(jié)合，提出了一種DPM 可變形部件模型，DPM 是利用滑動窗口來提取目標(biāo)圖像所需要的特征，檢測行人的輪廓信息時，使用了多尺度DPM 檢測。

1.2 基于深度學(xué)習(xí)的目標(biāo)檢測方法

基于深度學(xué)習(xí)的目標(biāo)檢測方法可以分為以下3 類，①基于區(qū)域建議的目標(biāo)檢測算法，例如Faster R-CNN算法，R.CNN 算法等；②基于回歸的目標(biāo)檢測算法，例如KittiBox 算法、SSD 算法、YOLO 算法等；③基于搜索的目標(biāo)檢測算法，例如基于視覺注意的AttentionNet和基于強化學(xué)習(xí)的算法。

1）基于區(qū)域建議的目標(biāo)檢測算法。2013 年，Ross Girshick 等人提出了R-CNN 算法，R-CNN 是一種基于深度學(xué)習(xí)的目標(biāo)檢測算法。2015 年，何凱明等人提出了SPP.Net，SPP.Net 對R-CNN 算法做了改進，在全連接層與卷積層之間添加了特征空間金字塔層級網(wǎng)絡(luò)結(jié)構(gòu)，從而在訓(xùn)練過程中解決了R-CNN 算法只能輸入一些固定尺寸的圖像的缺陷，進一步改進實現(xiàn)了輸入任意尺寸的圖片都可以進行訓(xùn)練，而且也實現(xiàn)了共享特征提取層的特點，使訓(xùn)練速度進一步加快。SPP.Net 和R-CNN 算法相比，兩者都存在缺陷，一是有很多計算重復(fù)，二是訓(xùn)練過程也相對復(fù)雜。2015 年，R.CNN 作者Ross Girshickt 提出了Fast R-CNN 算法，F(xiàn)ast R-CNN 算法中使用新的網(wǎng)絡(luò)，新的網(wǎng)絡(luò)中融合了后續(xù)的SVM 分類和CNN 特征提取來實現(xiàn)分類和回歸，改進了R-CNN 算法。2016 年，Shaoqing Ren 等人通過對Fast R-CNN 算法的優(yōu)化改進，提出了Faster R-CNN算法，F(xiàn)aster R-CNN 算法創(chuàng)造了一個RPN，用RPN 替代了Fast R-CNN 算法以及R-CNN 算法中運用的選擇性搜索方法。2016 年，Dai J 等人提出R-FCN 方法，R-FCN 方法是在Faster R-CNN 算法的網(wǎng)絡(luò)結(jié)構(gòu)上改進得到的，R-FCN 方法是通過在目標(biāo)RoI pooling Layer感興趣區(qū)域池化層，即在RoI pooling Layer 前加入目標(biāo)的位置信息，讓不同的特征圖可以檢測出目標(biāo)圖像中的不同位置。2019 年杜雪、廖泓舟、張勛等人提出水下目標(biāo)智能識別方法，它是基于深度卷積特征提出的，加入了VGGNet 視覺幾何組網(wǎng)絡(luò)的逐層遞增的卷積層思想，同時加入遷移學(xué)習(xí)以及數(shù)據(jù)增強技術(shù)進行二次學(xué)習(xí)，學(xué)習(xí)水下目標(biāo)的獨特能力，解決水下數(shù)據(jù)集不足的狀況，并且也防止了過擬合的發(fā)生；2019 年，Wei-Hong lin 等人提出并構(gòu)建了一個有更好泛化能力的模型，在Faster R-CNN 方法的基礎(chǔ)上，通過研究增強策略，從而去模擬重疊、模糊和遮擋的目標(biāo)，也創(chuàng)造了一種稱為ROIMIX 的增強方法，ROIMIX 方法也能夠表示圖像之間的相互作用。

2）基于回歸的目標(biāo)檢測算法，例如SSD 算法，KittiBox 算法等，2015 年Wei Liu 等人提出了基于改進的SSD 算法，在這個改進的SSD 算法中合并了YOLO中的回歸思想以及Faster R-CNN中的錨（anchor）機制。為了能夠達到更快的檢測速度，Joseph 等人在2015 年提出YOLO 算法，模型去掉了兩階段算法中尋找框的步驟，直接設(shè)計網(wǎng)絡(luò)輸出帶有框與分類置信度的圖片，也是第一個一階段目標(biāo)檢測算法，在速度上更是遠超兩階段算法。但YOLO 算法由于沒有對于框的預(yù)先設(shè)定，導(dǎo)致其精度較低。Joseph 受兩階段方法設(shè)定錨框的啟發(fā)，為一階段算法加入預(yù)設(shè)框，提出YOLO v2、YOLO v3，既保持了算法的速度又進一步提升了算法精度。目標(biāo)檢測過程中，在模型最后懲罰預(yù)測框進行位置優(yōu)化時，框回歸損失函數(shù)的設(shè)定直接影響優(yōu)化的速度和定位的準(zhǔn)確度。為了更加準(zhǔn)確預(yù)測出目標(biāo)的位置，框回歸損失函數(shù)的設(shè)定經(jīng)歷了一系列發(fā)展。2015年Girshick 等人在Fast r-cnn 中引入smooth L1 損失函數(shù)，兩階段算法中多沿用此損失函數(shù)作為框回歸優(yōu)化算法。而YOLO 系列中使用的是均方誤差（MSE）函數(shù)。兩種損失函數(shù)的設(shè)計思路均為懲罰預(yù)測框與目標(biāo)框四個坐標(biāo)信息之間的歐式距離，而實際上在評判預(yù)測框定位準(zhǔn)確性和保留預(yù)測框的過程中的指標(biāo)是IOU，但這兩者之間非等價關(guān)系。即多個預(yù)測框可能有相同大小的smooth L1 損失，但他們與真實框的IOU 卻相差很大，導(dǎo)致懲罰損失函數(shù)不能對框之間的IOU 進行直接優(yōu)化。為了解決這個問題，J.Yu 等人引入IOU 損失函數(shù)，最大化預(yù)測框與目標(biāo)框之間的IOU 來優(yōu)化預(yù)測框位置，即拉大兩框之間的重合面積，與評價預(yù)測框的指標(biāo)函數(shù)相符合。但當(dāng)預(yù)測框與目標(biāo)框沒有重疊部分面積時，目標(biāo)損失函數(shù)值為1，無法進行梯度回轉(zhuǎn)，且IOU 也不能完全反應(yīng)兩個框的相交情況。于是，2019 年Rezatofighi H 等人提出廣義的交開比GIOU（Generalized Intersection over Union），它由兩部分組成損失函數(shù)，在最大化兩框相交面積的同時最小化兩框形成的最大框，去掉了兩框之間的面積，模型避免了當(dāng)兩框不相交時梯度消失的問題。目前YOLO 系列算法已經(jīng)更新至第5 代版本，第1 代到第4 代已經(jīng)開源，很多深度學(xué)習(xí)框架都可以很好地實現(xiàn)YOLO系列算法。2021 年，鄒慧海等人提出改進網(wǎng)絡(luò)RFG_SSD 算法，提升了檢測精度和效率。

3）基于搜索的目標(biāo)檢測算法，例如基于視覺注意的AttentionNet 和基于強化學(xué)習(xí)的算法?；谥岛瘮?shù)的DRL 算法采用深度神經(jīng)網(wǎng)絡(luò)對值函數(shù)或者動作值函數(shù)進行近似，通過時間差分（temporal difference，TD）學(xué)習(xí)或者Q 學(xué)習(xí)的方式分別對值函數(shù)或者動作值函數(shù)進行更新。2015 年，DeepMind 團隊在Nature 上發(fā)表了深度Q 網(wǎng)絡(luò)（deep Q-network，DQN）的文章，認(rèn)為DRL可以實現(xiàn)類人水平的控制。2017 年，DeepMind 團隊根據(jù)深度學(xué)習(xí)和策略搜索的方法推出了AlphaGo。2019 年，DeepMind 團隊基于MADRL 推出AlphaStar 方法?？梢钥吹?，DRL 在封閉、靜態(tài)和確定性的環(huán)境（如圍棋、游戲等）下，可以達到甚至超越人類的決策水平。

2 小目標(biāo)檢測使用的評價指標(biāo)與常用數(shù)據(jù)集

2.1 評價指標(biāo)

在小目標(biāo)檢測實驗中，我們使用了要檢測目標(biāo)的真實圖像數(shù)據(jù)作為本課題的實驗數(shù)據(jù)，實驗所用的數(shù)據(jù)集包含1 萬多張小目標(biāo)檢測場景的真實圖像，而且具有與實際應(yīng)用場景一致的詳細(xì)目標(biāo)圖像的標(biāo)注數(shù)據(jù)。對于幾種目標(biāo)檢測算法，都以此數(shù)據(jù)集作為進行實驗的標(biāo)準(zhǔn)數(shù)據(jù)，比較不同的目標(biāo)檢測算法在準(zhǔn)確率、效率等性能指標(biāo)上的異同。在準(zhǔn)確度方面，實驗采用交并比方法評估各個算法的檢測結(jié)果。

2.2 常用數(shù)據(jù)集

為了進一步深入研究小目標(biāo)應(yīng)用場景，國內(nèi)外學(xué)者公開發(fā)表了很多目標(biāo)檢測應(yīng)用領(lǐng)域的數(shù)據(jù)集。數(shù)據(jù)集在整個目標(biāo)檢測領(lǐng)域的發(fā)展史中占有重要地位，而開發(fā)一些高級目標(biāo)檢測算法的關(guān)鍵是具有足夠大，并且有專門的不同應(yīng)用場景所需要的數(shù)據(jù)集，也是比較不同算法的評估基準(zhǔn)。近十年來，目標(biāo)檢測不同應(yīng)用場景中也涌現(xiàn)出了很多著名的公開數(shù)據(jù)集，包括SUN、BDD100K、ImageNet 等。當(dāng)應(yīng)用區(qū)域檢測到很多小目標(biāo)時，也提出了很多相關(guān)的數(shù)據(jù)集，例如特定區(qū)域的目標(biāo)檢測，特別是航拍圖像中的目標(biāo)檢測、遙感衛(wèi)星圖像中的目標(biāo)檢測等，相關(guān)的一些常用目標(biāo)檢測應(yīng)用場景的數(shù)據(jù)集對比如表1 所示。

3 結(jié)束語

實驗通過對幾種算法的對比研究，對基于改進的SSD 算法的小目標(biāo)圖像的目標(biāo)檢測方法進行評估。使用該算法與其他主流檢測方法在小目標(biāo)檢測數(shù)據(jù)集上進行對比實驗，包括平均精度、速度以及小目標(biāo)檢測個數(shù)。使用小目標(biāo)檢測常用數(shù)據(jù)集提供的小目標(biāo)圖像中的目標(biāo)真實圖像數(shù)據(jù)作為本研究的實驗數(shù)據(jù)，同時，每個圖像中都有相應(yīng)的詳細(xì)注釋數(shù)據(jù)。比較幾種不同的目標(biāo)檢測算法，都以此數(shù)據(jù)集作為進行實驗的標(biāo)準(zhǔn)數(shù)據(jù)，比較不同的目標(biāo)檢測算法在準(zhǔn)確率、效率等性能指標(biāo)上的異同。在準(zhǔn)確度方面，實驗采用交并比方法評估各個算法的檢測結(jié)果，用交并比（IOU）計算公式計算。本文還以系統(tǒng)檢測精度、處理時間、檢測時間等指標(biāo)作為評價目標(biāo)檢測算法性能優(yōu)劣的標(biāo)準(zhǔn)。