什么促使了候選目標的有效檢測？

發(fā)布人：CV研究院時間：2021-08-03 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

今天想說的其實也是一個老一點的知識，但是讀了幾遍感覺靈感很大，得到了很多想法和去實踐的思路，所以今天就給大家來分享下這篇經典好文。

1背景

今天想說的其實也是一個老一點的知識，但是讀了幾遍感覺靈感很大，得到了很多想法和去實踐的思路，所以今天就給大家來分享下這篇經典好文。該文錄用于：“ IEEE transactions on pattern analysis and machine intelligence”。

閱讀完全文，您會知道大概基本內容就如下所示：

回顧Object Proposal（以下簡稱為OP）的各種方法，將其分類；

論不同OP在圖片被擾動之后在復現上的魯棒性；

討論不同OP在PASCAL和ImageNet上的Recall，并提出了Average Recall（簡稱AR）的一種新的標準；

討論不同OP對于實際分類的性能比較（用了DPM和RCNN這兩個著名detector進行比較），以及說明了AR是一個跟性能相當相關的標準。

2 各種OP方法的回顧

作者大致將OP方法分成了兩類，一類叫grouping method，一類叫window scoring method。前者是指先將圖片打散，然后再聚合的一種方法，比如selective search。后者是生成大量window并打分，然后過濾掉低分的一種方法，比如objectness。另外還有一些介乎兩者之間的方法，比如multibox。

Grouping proposal methods

作者將grouping的方法繼續(xù)細分為三個小類。SP，對superpixel進行聚合；GC，使用種子點然后groupcut進行分割；EC，從邊緣圖提取proposal。下面分別一一進行介紹：

SelectiveSearch (SP): 無需學習，首先將圖片打散為superpixel，然后根據人為定義的距離進行聚合。

CPMC (GC): 隨機初始化種子點，然后做graphcut進行分割，反復多次，然后定義了某個很長的特征進行排序。（所以速度超級慢）

MCG (EC): 首先用現成方法快速得到一個層次分割的結果，然后利用邊緣信息進行聚合。

Window scoring proposal methods

不同于前者需要通過聚合小塊來生成候選框，這里的方法是先生成候選框，然后直接打分排序來過濾掉低分的候選框。介紹兩種比較出名的方法：

Bing: 訓練了一個簡單的線性分類器來通過類似滑窗的方式來過濾候選框，速度驚人地快。但是被其他文獻攻擊說分類性能不是來自于學習而是幾何學。

EdgeBoxes: 跟selective search一樣，是一個不需要學習的方法，結合滑窗，通過計算窗口內邊緣個數進行打分，最后排序。

Aliternate proposal methods

Multibox，目前所知唯一基于CNN提取proposal的方法，通過CNN回歸N個候選框的位置并進行打分，目前在ImageNet的dectection track上應該是第一的。

Baseline proposal methods

這里用了Uniform，Gaussian，Sliding Window和Superpixels作為baseline，不是重點就不展開說了。

3 各種OP方法對于復現的魯棒性的討論

這里作者提出這樣的假設：一個好的OP方法應該具有比較好的復現能力，也就是相似的圖片中檢索出來的object應該是具有一致性的。驗證的方法是對PASCAL的圖片做了各種擾動（如下圖），然后看是否還能檢測出來相同的object的recall是多少，根據IoU的嚴格與否能夠得到一條曲線，最后計算曲線下面積得到repeatability。

本次推送的圖表很多具體請看原論文，這里直接給出大概重點和結論，Bing和Edgeboxes在repeatability上表現最好。

4 各種OP方法的Recall

這里提出了好的OP方法應該有著較高的recall，不然就要漏掉檢測的物體了。這里討論了三種衡量recall的方式：

Recall versus IoU threshold：固定proposal數量，根據不同的IoU標準來計算recall

Recall versus number of proposal windows：跟1互補，這里先固定IoU，根據不同的proposal數目來計算recall

Average recall(AR)：作者提出的，這里只是根據不同的proposal數目，計算IoU在0.5到1之間Recall。

數據集方面，作者在PASCAL VOC07和ImagNet Detection dataset上面做了測試。

MCG， EdgeBox，SelectiveSearch, Rigor和Geodesic在不同proposal數目下表現都不錯。

如果只限制小于1000的proposal，MCG,endres和CPMC效果最好；

如果一開始沒有較好的定位好候選框的位置，隨著IoU標準嚴格，recall會下降比較快的包括了Bing, Rahtu, Objectness和Edgeboxes。其中Bing下降尤為明顯；

在AR這個標準下，MCG表現穩(wěn)定；Endres和Edgeboxes在較少proposal時候表現比較好，當允許有較多的proposal時候，Rigor和SelectiveSearch的表現會比其他要好；

PASCAL和ImageNet上，各個OP方法都是比較相似的，這說明了這些OP方法的泛化性能都不錯。

5 效果

各種OP方法在實際做detection任務時候的效果

這里作者在OP之后接上了兩種在detection上很出名的detector來進行測試，一個是文獻（Training deformable part models with decorrelated features）的LM-LLDA（一個DPM變種），另外一個自然是R-CNN了，值得注意的是，這兩個detector的作者都是rbg。

這里用了各種OP方法提取了1k個proposal，之后作比較。也是直接給作者結論：

如果OP方法定位越準確，那么對分類器幫助會越大，因為定位越準確，分類器返回的分數會越高：

在LM-LLDA和R-CNN下，使得mAP最高的前5個OP方法都是MCG，SeletiveSearch，EdgeBoxes，Rigor和Geodesic，如下圖。

通過分析，作者發(fā)現AR和mAP有著很強的相關性：

作者用AR作為指導去tuning EdgeBoxes的參數，然后取得了更好的mAP（提高1.7個點）。

6 全文總結和討論

對于repeatability這個標準，目前的OP方法效果都一般。可能通過對噪聲和擾動更加魯棒的特征能夠提高OP方法的repeatablilty。但是repeatability低不代表最后mAP就低，比如SelectiveSearch，所以最后還是看要應用場景。

如果OP方法定位越準確，那么對分類器幫助會越大。所以對于OP方法來說，IoU為0.5的recall不是一個好的標準。高recall但是定位不準確，會傷害到最后的mAP

MCG,Seletive Search,EdgeBoxes,Rigor和Geodesic是目前表現最好的5個方法，其中速度以EdgeBoxes和Geodesic為優(yōu)。

目前的OP方法在VOC 07和ImageNet的表現都差不多，說明它們都有著不錯的泛化性能。

討論

如果計算能力上去了，OP還有用嗎？作者認為如果運算性能允許的話，滑動窗口加上CNN等強分類器會有著更好的效果。

作者觀察到在目前OP中使用的特征（比如object boundary和superpixel），不會在分類器中使用；然后OP方法中除了MultiBox之外就沒有其他OP有使用CNN特征。作者期待會有工作能夠結合下這兩者的優(yōu)勢。

最后，作者對做了三點猜測：之后top down可能會在OP中起到更加重要的作用；以后OP和detector的聯系會更加緊密；OP生成的segmentation mask會起到更加重要的作用。

*博客內容為網友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯系工作人員刪除。

三相變壓器相關文章:三相變壓器原理
熔斷器相關文章:熔斷器原理

国产肉体XXXX裸体137大胆,国产成人久久精品流白浆,国产乱子伦视频在线观看,无码中文字幕免费一区二区三区国产成人手机在线-午夜国产精品无套-swag国产精品-国产毛片久久国产

博客專欄

什么促使了候選目標的有效檢測？

相關推薦

技術專區(qū)

国产肉体XXXX裸体137大胆,国产成人久久精品流白浆,国产乱子伦视频在线观看,无码中文字幕免费一区二区三区 国产成人手机在线-午夜国产精品无套-swag国产精品-国产毛片久久国产

博客專欄

什么促使了候選目標的有效檢測？

相關推薦

技術專區(qū)

国产肉体XXXX裸体137大胆,国产成人久久精品流白浆,国产乱子伦视频在线观看,无码中文字幕免费一区二区三区国产成人手机在线-午夜国产精品无套-swag国产精品-国产毛片久久国产

什么促使了候選目標的有效檢測？