久久在线视频18,黑人Av一二三区,东京av电影免费在线

編者按：Towards Data Science博主Eddie Forson直觀地解釋了SSD多盒目標(biāo)檢測技術(shù)。

端到端目標(biāo)檢測（來源：Microsoft）

本文的目的是構(gòu)建一個SSD多盒目標(biāo)檢測技術(shù)的直觀解釋。我嘗試盡可能少地使用數(shù)學(xué)，相反，緩慢地引導(dǎo)你了解整個架構(gòu)的原則，包括解釋多盒算法的作用。閱讀本文之后，我希望你更好地理解了SSD，并可以自行嘗試使用這一模型。

自從AlexNet在2012年ILSVRC上暴風(fēng)般地占領(lǐng)學(xué)術(shù)界之后，深度學(xué)習(xí)便成為圖像識別任務(wù)的首選方法，遠(yuǎn)超文獻中更傳統(tǒng)的計算機視覺技術(shù)。在計算機視覺領(lǐng)域中，卷積神經(jīng)網(wǎng)絡(luò)在圖像分類（classification）方面表現(xiàn)出色。圖像分類任務(wù)中，給定待分類的圖片和一個分類（class）的集合（例如，貓、狗），然后讓網(wǎng)絡(luò)決定圖像的最強（strongest）分類。

貓狗圖（來源：kaggle）

當(dāng)前，深度學(xué)習(xí)網(wǎng)絡(luò)在圖像分類方面的表現(xiàn)已經(jīng)超過人類，這表明這一技術(shù)是多么強大。然而，我們?nèi)祟愑^察世界和與世界交互時所做的遠(yuǎn)不止分類圖片。我們同時定位（localize）和分類（classify）視野內(nèi)的每個元素。這些復(fù)雜得多的任務(wù)，機器仍在艱辛地努力達到和人類相當(dāng)?shù)谋憩F(xiàn)。事實上，我主張，表現(xiàn)良好的目標(biāo)檢測將使機器更接近真實場景理解。

圖像顯示了貓、狗，還是兩者皆有？（來源：kaggle）

基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)（R-CNN）

幾年前，研究人員提出了R-CNN，以應(yīng)對目標(biāo)檢測、定位、分類任務(wù)。大體上說，R-CNN是一種特殊的CNN，可以定位和檢測圖像中的目標(biāo)：輸出基本上是一組匹配檢測到的目標(biāo)的包圍盒，以及對應(yīng)的分類。下圖顯示了一個典型的R-CNN輸出的結(jié)果：

SSD多盒目標(biāo)檢測技術(shù)的直觀解釋

這一領(lǐng)域的論文很多，對有興趣深入的讀者，我推薦從下面的“三部曲”開始：

R-CNN

Fast-R-CNN

Faster-R-CNN

正如你可能猜到的那樣，F(xiàn)ast-R-CNN是對R-CNN的改進，而Faster-R-CNN又是對Fast-R-CNN的改進，以研發(fā)針對實時目標(biāo)檢測的更快的網(wǎng)絡(luò)。上面的“三部曲”達到的成就真的很驚人，不過沒有一個架構(gòu)成功構(gòu)建了一個實時目標(biāo)檢測器。這些網(wǎng)絡(luò)存在以下問題（省略細(xì)節(jié)部分）：

難以訓(xùn)練，并且訓(xùn)練時間過長

需要進行多階段訓(xùn)練（例如，訓(xùn)練候選區(qū)域和分類器）

網(wǎng)絡(luò)在推理階段太慢（即處理非訓(xùn)練數(shù)據(jù)）

幸運的是，最近提出了新的架構(gòu)，以解決R-CNN的瓶頸。其繼任者足以進行實時目標(biāo)檢測。其中最有名的是YOLO（You Only Look Once，你只看一次）和SSD多盒（SSD是Single Shot Detector單次檢測器的縮寫）。本文將討論SSD，因為相比YOLO，目前網(wǎng)上介紹SSD架構(gòu)的文章不多。另外，一旦你理解了SSD，你會更容易理解YOLO.

單次多盒檢測器

C. Szegedy等人在2016年11月底發(fā)表的論文SSD: Single Shot MultiBox Detector在目標(biāo)檢測任務(wù)中創(chuàng)造了新紀(jì)錄，在PascalVOC和COCO這樣的標(biāo)準(zhǔn)數(shù)據(jù)集上取得了74% mAP（mean Average Precision），59幀每秒的成績。為了更好地理解SSD，讓我們先從解釋這一架構(gòu)命名的由來開始：

Single Shot（單次）這意味著目標(biāo)定位和分類任務(wù)通過網(wǎng)絡(luò)的單次前向傳播完成。

MultiBox（多盒）這是由Szegedy等開發(fā)的包圍盒回歸技術(shù)。

Detector（偵測器）該網(wǎng)絡(luò)是一個目標(biāo)偵測器，分類檢測到的目標(biāo)。

架構(gòu)

SSD多盒目標(biāo)檢測技術(shù)的直觀解釋

單次多盒偵測器架構(gòu)（輸入 300x300x3）

如上圖所示，SSD的架構(gòu)基于可敬的VGG-16架構(gòu)，但拋棄了全連接層。使用VGG-16作為基礎(chǔ)網(wǎng)絡(luò)（base network）的原因是其在高畫質(zhì)圖像分類任務(wù)上的強力表現(xiàn)和在遷移學(xué)習(xí)有助于改善結(jié)果的任務(wù)上的流行性。架構(gòu)沒有使用原VGG的全連接層，轉(zhuǎn)而加入了一組輔助卷積層（自conv6開始），從而在不同尺度上提取特征，并逐層遞減輸入的尺寸。

SSD多盒目標(biāo)檢測技術(shù)的直觀解釋

VGG架構(gòu)（輸入 224x224x3）

多盒

SSD的包圍盒回歸技術(shù)受到了Szegedy在多盒方面的工作的啟發(fā)。多盒是一種快速分類不可知（class-agnostic）包圍盒坐標(biāo)提議的方法。有趣的是，多盒使用的是Inception風(fēng)格的卷積神經(jīng)網(wǎng)絡(luò)。下圖中的1x1卷積有助于降維，因為維度將下降（但“寬度”和“高度”將保持不變）。

SSD多盒目標(biāo)檢測技術(shù)的直觀解釋

多盒架構(gòu)

多盒的損失函數(shù)同樣組合了兩個關(guān)鍵的組件，這也為SSD所吸收：

置信度損失（Confidence Loss）衡量網(wǎng)絡(luò)對計算出的包圍盒的objectness的置信度。使用類別交叉熵計算這一損失。

定位損失（Location Loss）衡量網(wǎng)絡(luò)預(yù)測的包圍盒和訓(xùn)練集的標(biāo)準(zhǔn)答案相差多遠(yuǎn)。這里使用了L2正則化。

不過多深究數(shù)學(xué)的話，（如果你很好奇并想了解更嚴(yán)謹(jǐn)?shù)母拍?，請閱讀論文）損失的表達式如下：

multibox_loss = confidence_loss + alpha * location_loss

其中，alpha項幫助我們平衡定位損失的貢獻。

多盒先驗和IoU

涉及包圍盒生成的邏輯實際上比我之前陳述的要復(fù)雜。不過別怕：它仍在能力范圍之內(nèi)。

多盒中的先驗（prior）（Faster-R-CNN術(shù)語中的錨（anchor））是提前計算的固定尺寸包圍盒，匹配原標(biāo)準(zhǔn)答案包圍盒的分布。事實上，這些先驗的選取方式使得它們和標(biāo)準(zhǔn)答案包圍盒的交并比（IoU，有時稱為Jaccard指數(shù)）大于0.5. 從下圖可以推測，0.5的交并比仍然不夠好，但是它確實為包圍盒回歸算法提供了一個強力的開始——這是一個比隨機坐標(biāo)要好得多的策略！因此，多盒從將先驗作為預(yù)測開始，試圖回歸逼近標(biāo)準(zhǔn)答案包圍盒。

IoU示意部分取自維基百科

最終所得的架構(gòu)（參考前文提及的多盒架構(gòu)示意圖），每個特征映射細(xì)胞（8x8、6x6、4x4、3x3、2x2）包含11個先驗，而1x1特征映射僅包含一個先驗，即每張圖像共有1420個先驗，從而在輸入圖像上達到不同比例的穩(wěn)健覆蓋，以檢測不同尺寸的目標(biāo)。

最后，多盒僅僅保留最好的K個預(yù)測，這些預(yù)測同時最小化定位（LOC）損失和置信度（CONF）損失。

SSD的改進

回到SSD，SSD加入了一些調(diào)整，提升了該網(wǎng)絡(luò)定位和分類目標(biāo)的能力。

固定先驗和多盒不同，每個特征映射細(xì)胞關(guān)聯(lián)一組尺寸和長寬比不同的默認(rèn)包圍盒。這些先驗是手工（精心）選擇的，而在多盒中，先驗是基于與相應(yīng)的標(biāo)準(zhǔn)答案包圍盒的交并比超過0.5選擇的。在理論上這使得SSD可以概括任何種類的輸入，無需生成先驗的預(yù)訓(xùn)練階段。例如，假定我們?yōu)槊總€特征映射細(xì)胞的每個默認(rèn)包圍盒b配置了兩個對角點(x1, y1)和(x2, y2)，然后需要基于c個分類進行分類，而給定的特征映射尺寸為f = m * n，那么，SSD將為該特征映射計算f * b * (4 + c)值。

SSD多盒目標(biāo)檢測技術(shù)的直觀解釋

定位損失SSD使用平滑L1正則化（smooth L1-Norm）計算定位損失。盡管不如L2正則化那樣精確，這仍然非常有效，也給了SSD更多取巧的空間，因為SSD的包圍盒預(yù)測并不追求“像素完美”（對許多人而言，一些像素的差異很難察覺）。

分類多盒并不執(zhí)行目標(biāo)分類，而SSD進行分類。因此，SSD為每個預(yù)測的包圍盒、數(shù)據(jù)集中的每個可能的分類計算c分類預(yù)測的集合。

訓(xùn)練并運行SSD

數(shù)據(jù)集

我們將訓(xùn)練和測試帶有標(biāo)準(zhǔn)答案包圍盒及相應(yīng)的分類標(biāo)簽（每個包圍盒有一個分類標(biāo)簽）的數(shù)據(jù)集。Pascal VOC和COCO數(shù)據(jù)集是一個很好的開始。

Pascal VOC數(shù)據(jù)集圖像

默認(rèn)包圍盒

建議配置一組多樣化的包圍盒，包括不同的比例和長寬比，確?？梢圆蹲降酱蠖鄶?shù)目標(biāo)。在SSD論文中，每個特征映射單元有6個包圍盒。

特征映射

特征映射（即卷積塊的結(jié)果）是不同尺度上圖像的主導(dǎo)特征的表示，因此在不同特征映射上運行多盒增加了逐漸檢測、定位、分類任何目標(biāo)（大目標(biāo)和小目標(biāo)）的概率。下圖顯示了網(wǎng)絡(luò)是如何在特征映射上“看到”給定圖像的：

SSD多盒目標(biāo)檢測技術(shù)的直觀解釋

VGG特征映射可視化（圖片來源 Brown Uni）

Hard Negative Mining

在訓(xùn)練中，由于大多數(shù)包圍盒的IoU較低，會被視作負(fù)面訓(xùn)練樣本，我們最終的訓(xùn)練集可能會有不成比例的負(fù)面樣本。因此，建議不要使用所有的負(fù)面預(yù)測，將負(fù)面樣本和正面樣本的比例保持在3:1. 我們需要保留負(fù)面樣本的原因是網(wǎng)絡(luò)同樣需要學(xué)習(xí)什么構(gòu)成了錯誤檢測。

SSD多盒目標(biāo)檢測技術(shù)的直觀解釋

圖片來源 Jamie Kang

數(shù)據(jù)增強

SSD的作者說，和許多深度學(xué)習(xí)應(yīng)用一樣，數(shù)據(jù)增強是非常重要的部分，使網(wǎng)絡(luò)能夠?qū)W習(xí)更穩(wěn)健地應(yīng)對輸入中的不同目標(biāo)尺寸。為了達到這一目標(biāo)，他們生成了額外的訓(xùn)練樣本，包括不同IoU的補?。ɡ纾?.1、0.3、0.5等），以及隨機補丁。此外，每張圖像基于0.5的概率隨機水平翻轉(zhuǎn)，從而確保潛在目標(biāo)出現(xiàn)在左側(cè)和右側(cè)的概率相同。

水平翻轉(zhuǎn)的圖像，來源：Behavioural Cloning

非極大值抑制（NMS）

在推理階段，SSD的前向傳播中生成了數(shù)量巨大的包圍盒，因此應(yīng)用非極大值抑制（non-maximum suppression）技術(shù)修剪大多數(shù)包圍盒很有必要：置信度損失低于閾值ct（例如，0.01），IoU低于閾值lt（例如，0.45）的包圍盒被拋棄了，僅保留最高的N個預(yù)測。這確保只有最可能的預(yù)測被網(wǎng)絡(luò)保留，而移除了大多數(shù)噪聲。

NMS的例子（來源：DeepHub）

SSD的補充說明

SSD提出了以下觀察：

更多的默認(rèn)包圍盒導(dǎo)致更精確的檢測，不過這會影響速度。

在多層上使用多盒同樣能帶來更好的檢測效果，這是因為檢測器在不同尺度的特征上運行。

80%的時間花在基礎(chǔ)VGG-16網(wǎng)絡(luò)上：這意味著使用一個速度更快的同樣精確的網(wǎng)絡(luò)，SSD的性能會更好。

相似類別的目標(biāo)會迷惑SSD（例如，動物）。這大概是因為不同分類的位置相同。

SSD-500（使用512x512輸入圖像的SSD最高分辨率變體）在Pascal VOC2007上達到了最佳mAP（76.8%），不過相應(yīng)的代價是速度，幀率降至22 fps. 因此，SSD-300是一個更好的折衷（74.3% mAP、59 fps）。

SSD在較小的目標(biāo)上表現(xiàn)較差，因為較小的目標(biāo)可能不在所有特征映射上出現(xiàn)。增加輸入圖像分辨率緩解了這一問題，但并沒有完全解決它。

嘗試SSD

網(wǎng)上有一些SSD實現(xiàn)，包括論文作者的Caffe代碼。我選用的是Paul Balan?a的TensorFlow實現(xiàn)。代碼和論文都值得一讀，以便更好地理解所有東西是如何結(jié)合在一起的。

我最近決定基于SSD重新實現(xiàn)一個基于傳統(tǒng)計算機視覺技術(shù)的車輛檢測項目。下面的gif表明SSD的效果非常好：

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

SSD

SSD

+關(guān)注

關(guān)注
21

文章
3147

瀏覽量
122583
計算機視覺

計算機視覺

+關(guān)注

關(guān)注
9

文章
1715

瀏覽量
47703

原文標(biāo)題：SSD多盒實時目標(biāo)檢測教程

文章出處：【微信號：jqr_AI，微信公眾號：論智】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

搜索歷史

SSD多盒目標(biāo)檢測技術(shù)的直觀解釋

評論