一二线视频,亚洲婷婷久密桃,字幕久久超碰

在Google主辦的最大規(guī)模開放圖像目標檢測競賽中，中國團隊再次獲得冠軍。獲獎技術(shù)采用了FPN，cascade-rcnn等最新的檢測算法，并面向復(fù)雜實際場景數(shù)據(jù)集對算法進行了改進，模型性能實現(xiàn)了大幅提升。

眼睛是人類接觸外部世界的第一感官，對于機器而言，計算機視覺技術(shù)就是它們的“眼睛”。近日，百度視覺團隊在全球最大規(guī)模目標檢測競賽Google AI Open Images-Object Detection Track中從全球450多支參賽隊伍中脫穎而出，獲得世界第一，并在ECCV 2018上進行分享。

Google AI Open Images-Object Detection Track是大規(guī)模目標檢測任務(wù)的權(quán)威挑戰(zhàn)賽事，由Google AI Research舉辦，賽事遵循 PASCAL VOC、ImageNet和COCO等賽事傳統(tǒng)，但數(shù)據(jù)規(guī)模遠大于這些賽事。

Open Images V4數(shù)據(jù)集

據(jù)介紹，大賽采用Google今年5月份發(fā)布的Open Images V4數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集，包含超過170萬的圖片數(shù)據(jù)，500個類別以及超過1200萬物體框，數(shù)據(jù)沒有完全精細標注，屬于弱監(jiān)督任務(wù)，框選類別數(shù)目不均衡且有非常廣泛的類別分布，這更符合實際情況，也意味著參加競賽的團隊需要考慮到類別的分布，而不能統(tǒng)一對所有類別做處理，因此更具挑戰(zhàn)性。這項賽事有助于復(fù)雜模型的研究，同時對評估不同檢測模型的性能有積極的促進作用。下圖為Open Image V4 與 MS COCO 和 ImageNet 檢測任務(wù)數(shù)據(jù)對比情況。

Open Image V4 與 MS COCO及ImageNet 檢測數(shù)據(jù)對比情況

與傳統(tǒng)的檢測數(shù)據(jù)集合相比，該賽事除了數(shù)據(jù)規(guī)模大、更真實之外，還存在一系列的挑戰(zhàn)。具體來說，主要集中在以下三個方面：

數(shù)據(jù)分布不均衡：最少的類別框選只有14個，而最多的類別框選超過了140w，數(shù)據(jù)分布嚴重不均衡。

類別框數(shù)量分布

漏標框：很多圖片存在只標注主體類別，其他小物體或者非目標物體沒有標注出來。

漏標注圖片舉例

尺度變化大：大部分物體框只占整個圖片的0.1以下，而有些框選卻占了整個圖片區(qū)域。如圖所示，Open Image V4集合存在更多的小物體，參賽者也會在檢測數(shù)據(jù)中遇到更大的挑戰(zhàn)。

框尺度大小分布對比

解決方案

在比賽過程中百度視覺團隊采用了不同復(fù)雜度、不同骨架網(wǎng)絡(luò)進行模型的訓(xùn)練，并對這些模型進行融合。從整體方案框架來看，可分為Fast R-CNN和Faster R-CNN兩種不同的訓(xùn)練模式。Fast R-CNN版本是該團隊研發(fā)的一套PaddlePaddle版本，在此基礎(chǔ)上Faster R-CNN加入了 FPN、Deformable、Cascade等最新的檢測算法，模型性能實現(xiàn)了大幅度的提升。

整體方案框架流程圖

骨架網(wǎng)絡(luò)為ResNet-101 的Fast R-CNN，模型收斂后可以達到0.481，在測試階段加入Soft NMS以及 Multi-Scale Testing策略，可以達到0.508。研究人員也嘗試了其他骨架網(wǎng)絡(luò)（dpn98,Inception-v4,Se-ResNext101）,并把不同骨架網(wǎng)絡(luò)的檢測算法融合到一起，最終mAP可以達到0.546。在Proposal采樣階段，團隊使用在不同位置進行不同尺度的候選框生成，然后對這些框選進行分類以及調(diào)整他們的位置。

Faster R-CNN: 采用這種框架可以達到略高于Fast R-CNN，mAP為0.495。在測試階段使用Soft NMS以及 Multi-Scale Testing策略后，性能達到0.525。

Deformable Convolutional Networks使用Soft NMS以及 Multi-Scale Testing策略前后，性能分別達到0.528及0.559。

Deformable Cascade R-CNN : 使用Soft NMS以及 Multi-Scale Testing策略前后，性能分別可以達到0.581和0.590.

簡言之，在Fast R-CNN框架下，該團隊采用了不同的骨架網(wǎng)絡(luò)進行訓(xùn)練，而在Faster R-CNN框架下只使用了ResNet101這種骨架網(wǎng)絡(luò)進行訓(xùn)練。在訓(xùn)練過程中，還通過不同的策略有效解決了各種技術(shù)問題。詳情如下：

動態(tài)采樣

Google Open Images V4 數(shù)據(jù)集大概有170w圖片，1220w框選，500個類別信息。最大的類別框選超過了140w,最小的類別只有14個框選，如果簡單使用所有的圖片及框選，需要幾十天才能進行模型訓(xùn)練，而且很難訓(xùn)練出來一個無偏的模型。因此，需要在訓(xùn)練過程中進行動態(tài)采樣，如果樣本數(shù)量多則減少采樣概率，而樣本數(shù)量少則增加采樣概率。研究人員分別進行全集數(shù)據(jù)訓(xùn)練、固定框選子集訓(xùn)練、動態(tài)采樣模型訓(xùn)練三種策略進行。

全集數(shù)據(jù)訓(xùn)練：按照主辦方提供數(shù)據(jù)進行訓(xùn)練，mAP達到0.50。

固定框選子集訓(xùn)練：線下固定對每個類別最多選擇1000個框，mAP達到0.53。

動態(tài)采樣模型訓(xùn)練：對每個GPU、每個Epoch采用線上動態(tài)采樣，每次采集的數(shù)據(jù)都不同，輪數(shù)達到一定數(shù)目后，整個全集的數(shù)據(jù)都能參與整體訓(xùn)練。最后mAp達到0.56。

動態(tài)采樣策略

FPN

基于訓(xùn)練數(shù)據(jù)集的分析，研究人員發(fā)現(xiàn)其中500個類別的尺度有很大的差異。因此他們將FPN引入到檢測模型中，即利用多尺度多層次金字塔結(jié)構(gòu)構(gòu)建特征金字塔網(wǎng)絡(luò)。在實驗中，他們以ResNet101作為骨干網(wǎng)絡(luò)，在不同階段的最后一層添加了自頂向下的側(cè)連接。自頂向下的過程是向上采樣進行的，水平連接是將上采樣的結(jié)果與自底向上生成的相同大小的feature map合并。融合后，對每個融合結(jié)果進行3*3卷積以消除上采樣的混疊效應(yīng)。值得注意的是，F(xiàn)PN應(yīng)該嵌入到RPN網(wǎng)絡(luò)中，以生成不同的尺度特征并整合為RPN網(wǎng)絡(luò)的輸入。最終，引入FPN后的mAP可達到0.528。

Deformable Convolution Networks

該團隊采用可變形卷積神經(jīng)網(wǎng)絡(luò)增強了CNNs的建模能力?？勺冃尉矸e網(wǎng)絡(luò)的思想是在不需要額外監(jiān)督的情況下，通過對目標任務(wù)的學(xué)習(xí)，在空間采樣點上增加額外的偏移量模塊。同時將可變形卷積網(wǎng)絡(luò)應(yīng)用于以ResNet101作為骨架網(wǎng)絡(luò)的Faster R-CNN架構(gòu)，并在ResNet101的res5a、5b、5c層之后應(yīng)用可變形卷積層，并將ROI Pooling層改進為可變形位置敏感ROI Pooling層?？勺冃尉矸e網(wǎng)絡(luò)的mAP性能為0.552。

Cascade R-CNN

比賽中，該團隊使用級聯(lián)的R-CNN來訓(xùn)練檢測模型。除訓(xùn)練基本模型外，還使用包含五個尺度特征金字塔網(wǎng)絡(luò)(FPN)和3個尺度anchors的RPN網(wǎng)絡(luò)。此外，他們還訓(xùn)練了一個針對全類模型中表現(xiàn)最差的150類的小類模型，并對這150類的模型別進行評估。得出的結(jié)論是，500類模型的MAP為0.477，而用150類單模型訓(xùn)練結(jié)果替換500類的后150類的結(jié)果，則模型的MAP提升為0.498。使用以上方法進行訓(xùn)練的單尺度模型的性能為0.573。

Testing Tricks

在后處理階段，團隊使Soft NMS和多尺度測試的方法。用Soft NMS的方法代替NMS后，在不同模型上有0.5-1.3點的改進，而Multi-Scale Testing在不同模型上則有0.6-2個點的提升。

模型融合

對于每個模型，該團隊在NMS后預(yù)測邊界框。來自不同模型的預(yù)測框則使用一個改進版的NMS進行合并，具體如下：

給每個模型一個0～1之間的標量權(quán)重。所有的權(quán)重總和為1；

從每個模型得到邊界框的置信分數(shù)乘以它對應(yīng)的權(quán)重；

合并從所有模型得到的預(yù)測框并使用NMS，此外，除此之外，研究人員采用不同模型的分數(shù)疊加的方式代替只保留最高分模型，在這個步驟中IOU閾值為0.5。

其實，不論是在學(xué)術(shù)圈還是工業(yè)界，大規(guī)模目標檢測都是計算機視覺極為重要的基礎(chǔ)技術(shù)。通過這一技術(shù)，軟硬件應(yīng)用產(chǎn)品可以深度定位圖片中的物體位置以及類別，并用于新零售、通用多物品識別等場景。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

百度

百度

+關(guān)注

關(guān)注
9

文章
2389

瀏覽量
95215
計算機視覺

計算機視覺

+關(guān)注

關(guān)注
9

文章
1715

瀏覽量
47722

原文標題：【ECCV 2018】谷歌AI超大規(guī)模圖像競賽，中國團隊獲目標檢測冠軍

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

搜索歷史

百度視覺團隊在全球最大規(guī)模目標檢測競賽,中國團隊從全球450多支參賽隊伍中脫穎而出

評論