亚洲女同无码,日本不卡五区

看到今天要給大家介紹的論文，也許現(xiàn)在大家已經(jīng)非常熟悉 Ross Girshic、Piotr Dollár 還有我們的大神何愷明的三人組了。沒錯(cuò)，今天這篇重磅新作還是他們的產(chǎn)出，營長感覺剛介紹他們的新作好像沒多久??！想要追趕大神腳步，確實(shí)是不能懈怠??！

不過這次一作是來自 FAIR 的陳鑫磊博士，雖然和三人組合比起來，一作陳鑫磊還沒有那么被大家所熟知，不過其實(shí)力也是不容小覷的（畢竟后面跟著三個(gè)實(shí)力響當(dāng)當(dāng)?shù)娜宋铮I長在陳鑫磊的個(gè)人主頁上看到他的學(xué)習(xí)經(jīng)歷和研究成果，也是忍不住點(diǎn)贊。陳鑫磊在浙江大學(xué)國家重點(diǎn)實(shí)驗(yàn)室 CAD&CG實(shí)驗(yàn)室學(xué)習(xí)時(shí)，師從蔡登教授，隨后在 CMU 攻讀博士學(xué)位，現(xiàn)任職于 FAIR，畢業(yè)前曾在 Google Cloud 李飛飛和李佳組內(nèi)實(shí)習(xí)。在博士研究期間，每年和導(dǎo)師 Abhinav Gupta 教授都有論文發(fā)表在 AAAI、CVPR、ECCV、ICCV 等頂會(huì)上，考慮篇幅，營長就從每年成果中選一篇列舉出來，大家可以前往陳鑫磊的個(gè)人主頁中可以看到全部作品。

2013-2018 年間的主要作品：

[1]、Xinlei Chen, Li-Jia Li, Li Fei-Fei, Abhinav Gupta.Iterative Visual Reasoning Beyond Convolutions. The 31st IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2018.Spotlight

[2]、Xinlei Chen, Abhinav Gupta.Spatial Memory for Context Reasoning in Object Detection. The 15th International Conference on Computer Vision(ICCV), 2017

[3]、Gunnar A. Sigurdsson,Xinlei Chen, Abhinav Gupta.Learning Visual Storylines with Skipping Recurrent Neural Networks. The 14th European Conference on Computer Vision(ECCV), 2016

[4]、Xinlei Chen, Abhinav Gupta.Webly Supervised Learning of Convolutional Networks. The 15th International Conference on Computer Vision(ICCV), 2015.Oral

[5]、Xinlei Chen, C. Lawrence Zitnick.Mind's Eye: A Recurrent Visual Representation for Image Caption Generation. The 28th IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2015

[6]、Xinlei Chen, Alan Ritter, Abhinav Gupta, Tom Mitchell.Sense Discovery via Co-Clustering on Images and Text. The 28th IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2015.

[7]、Xinlei Chen, Abhinav Shrivastava, Abhinav Gupta.Enriching Visual Knowledge Bases via Object Discovery and Segmentation. The 27th IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2014

[8]、Xinlei Chen, Abhinav Shrivastava, Abhinav Gupta.NEIL: Extracting Visual Knowledge from Web Data. The 14th International Conference on Computer Vision(ICCV), 2013.Oral.

這幾個(gè)人從出道至今，都有非常多的佳作，出產(chǎn)率也非常高，最近大家還在重談去年三人組合的論文《Rethinking ImageNet Pre-training》，今天就有了這篇在密集掩碼預(yù)測新突破：《TensorMask: A Foundation for Dense Object Segmentation》，大神們簡直就是快要承包整個(gè) CV 界了！

“CV男團(tuán)”四人的個(gè)人主頁（一到四作的順序）：

http://xinleic.xyz/#

http://www.rossgirshick.info/

http://kaiminghe.com/

http://pdollar.github.io/

接下來，營長就為大家?guī)怼癈V男團(tuán)”這篇最新力作的初解讀，因?yàn)檎撐闹猩婕昂芏嗯c TensorMask 框架相關(guān)的專業(yè)術(shù)語，函數(shù)定義等，還需要大家下來細(xì)細(xì)研究，感興趣的同學(xué)可以從下面的論文地址里下載論文進(jìn)一步學(xué)習(xí)，也歡迎大家在后臺(tái)給我們留言，發(fā)表你的感想。

論文解讀

摘要

在目標(biāo)檢測任務(wù)中，采用滑窗方式生成目標(biāo)的檢測框是一種非常常用的方法。而在實(shí)例分割任務(wù)中，比較主流的圖像分割方法是首先檢測目標(biāo)邊界框，然后進(jìn)行裁剪和目標(biāo)分割，如 Mask RCNN。在這篇工作中，我們研究了密集滑窗實(shí)例分割（dense sliding-window instance segmentation）的模式，發(fā)現(xiàn)與其他的密集預(yù)測任務(wù)如語義分割，目標(biāo)檢測不同，實(shí)例分割滑窗在每個(gè)空間位置的輸出具有自己空間維度的幾何結(jié)構(gòu)。為了形式化這一點(diǎn)，我們提出了一個(gè)通用的框架 TensorMask 來獲得這種幾何結(jié)構(gòu)。

我們通過張量視圖展示了相較于忽略這種結(jié)構(gòu)的 baseline 方法，它可以有一個(gè)大的效果提升，甚至比肩于 Mask R-CNN。這樣的實(shí)驗(yàn)結(jié)果足以說明TensorMask 為密集掩碼預(yù)測任務(wù)提供了一個(gè)新的理解方向，并可以作為該領(lǐng)域新的基礎(chǔ)方法。

引言

滑窗范式（在一張圖的每個(gè)滑動(dòng)窗口里面去尋找目標(biāo)）是視覺任務(wù)里面最早且非常成功的方法，并且可以很自然的和卷積網(wǎng)絡(luò)聯(lián)系起來。雖然像 RCNN 系列方法需要在滑窗的方法上再進(jìn)行精修，但是像 SSD、RetinaNet 的方法就是直接利用滑窗預(yù)測。在目標(biāo)檢測里面非常受歡迎的方法，在實(shí)例分割任務(wù)中卻沒得到足夠的關(guān)注。因此本文的工作就是來填補(bǔ)該缺失。本文主要的 insight 就是定義密集掩碼的表示方式，并且在神經(jīng)網(wǎng)絡(luò)中有效的實(shí)現(xiàn)它。與低維、尺度無關(guān)的檢測框不同，分割掩碼需要一種更具有結(jié)構(gòu)化的表示方式。因此，本文在空域上，采用結(jié)構(gòu)化的 4 維張量定義了掩碼的表示方式，并提出了一個(gè)基于滑窗方法的密集實(shí)例分割框架——TensorMask。在 4 維張量（V,U,H,W）中，H 和 W 表示目標(biāo)的位置，而 V 和 U 表示相關(guān)掩碼的位置。與僅直接在通道上加一個(gè)掩碼分支的方法不同，這種方法是具有幾何意義的，并且可以直接在（V,U）張量上進(jìn)行坐標(biāo)轉(zhuǎn)換，尺度縮放等操作。在 TensorMask 框架中，作者還順手開發(fā)了一個(gè)張量尺度金字塔（tensor bipyramid），用于 4 維的尺度縮放。如下公式所示，其中 K 就是尺度。

? ? ?

掩碼的張量表示

TensorMask 框架的主要想法就是利用結(jié)構(gòu)化的高維張量去表示密集的滑動(dòng)窗口。在理解這樣的一個(gè)框架時(shí)，需要了解幾個(gè)重要的概念。

單位長度（Unit of Length）：在不同的軸和尺度上有不同的單位長度，且 HW 和 VU 的單位長度可以不相等。

? ? ?和 ? ? ? ? ? ? ?分別表示其單位長度。

自然表示(Natural Representation)：在點(diǎn)（y,x）處的滑窗內(nèi)，某點(diǎn)的掩碼值表示，如下截圖所示，其中 alpha 表示 VU 和 HW 的單位長度比率。

對齊表示(Aligned Representation)：由于單位長度中 stride 的存在，自然表示存在著像素偏移的問題，因此這里有一個(gè)同 ROIAlign 相似的想法，需要從張量的角度定義一個(gè)像素級的表示。

坐標(biāo)轉(zhuǎn)換：用于自然表示和對齊表示間的轉(zhuǎn)換，論文給出了兩種情況下的轉(zhuǎn)換公式，一種是簡化版的（ ? ? ?），一種是一般版的（就是任意的單位長度）。

上采樣轉(zhuǎn)換(Upscaling Transformation)：下圖就是上采樣轉(zhuǎn)換的操作集合。實(shí)驗(yàn)證明它可以在不增加通道數(shù)的情況下，有效的生成高分辨率的掩碼。

張量尺度金字塔(Tensor Bipyramid):由于掩碼存在尺度問題，它需要隨目標(biāo)的大小而進(jìn)行縮放，為了保持恒定的分辨率密度，提出了這種基于尺度來調(diào)整掩碼像素?cái)?shù)量的方法。

TensorMask結(jié)構(gòu)

基于 TensorMask 表示的模型，有一個(gè)采用滑窗的掩碼預(yù)測分支和一個(gè)類似于檢測框回歸的分類分支。該結(jié)構(gòu)不需要增加檢測框的分支。掩碼預(yù)測分支可以采用卷積的 backbone，比如 ResNet50。因此，論文提出了多個(gè)基礎(chǔ)（baseline）分支和張量尺度金字塔分支，幫助使用者快速上手 TensorMask。需要指出的是，張量尺度金字塔分支是最有效的一個(gè)模型。在訓(xùn)練時(shí)，作者采用 DeepMask 來幫助標(biāo)記數(shù)據(jù)，以及 focal loss 等等。

實(shí)驗(yàn)

為了說明各分支或者操作的作用，論文做了大量的消融實(shí)驗(yàn)來進(jìn)行論證。具體結(jié)果見下圖表格的數(shù)據(jù)以及與 Mask-RCNN 可視化的對比。實(shí)驗(yàn)結(jié)果證明，TensorMask 能夠定性定量的比肩 MaskR-CNN。

該項(xiàng)工作將滑窗方法與實(shí)例分割任務(wù)直接聯(lián)系了起來，能夠幫助該領(lǐng)域的研究者對實(shí)例分割有新的理解，期待代碼早日開源。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4842

瀏覽量
108177
框架

框架

+關(guān)注

關(guān)注
0

文章
404

瀏覽量
18497
開源

開源

+關(guān)注

關(guān)注
3

文章
4346

瀏覽量
46442