国产精品爽爽久久久久,又黄又爽豹毛

1. 效果展示

MasQCLIP在開放詞匯實例分割、語義分割和全景分割三項任務(wù)上均實現(xiàn)了SOTA，漲點非常明顯。這里也推薦工坊推出的新課程《徹底搞懂視覺-慣性SLAM：VINS-Fusion原理精講與源碼剖析》。

再來看看開放詞匯全景分割的定性效果，圖片來源于ADE20k，可以發(fā)現(xiàn)MasQCLIP分割出的Mask和類別精度更高。

2. 具體原理是什么？

先介紹一下基礎(chǔ)的CLIP模型：ICML-2021的工作，多模態(tài)視覺-語言模型代表。主要用來提取zero-shot目標(biāo)的特征。核心思想是，很多模型需要預(yù)定義圖像類別，但是文本實際上就已經(jīng)提供了未見類別的信息，融合文本就可以極大增強(qiáng)模型的泛化性。

而MasQCLIP的思想是，利用稠密特征與預(yù)訓(xùn)練的CLIP模型無縫集成，從而避免訓(xùn)練大規(guī)模參數(shù)。MasQCLIP在使用CLIP模型構(gòu)建圖像分割時側(cè)重兩方面：

（1）學(xué)生-教師模塊，通過從基礎(chǔ)（已見）類中提取信息來處理新（未見）類的Mask；

（2）更新CLIP模型中查詢的模型參數(shù)的微調(diào)過程。

具體Pipeline是，MasQCLIP由類無關(guān)Mask提議網(wǎng)絡(luò)和基于CLIP的Mask分類模塊組成。在Mask提議網(wǎng)絡(luò)中，應(yīng)用漸進(jìn)蒸餾來分割基類之外的Mask。之后將預(yù)測的Mask送入分類模塊以獲得標(biāo)簽。為了有效利用密集CLIP特征，還提出了MasQ-Tuning策略。

再來看看這個漸進(jìn)蒸餾，就是從教師模型的分割圖中提取和基礎(chǔ)類別沒有重疊的Mask，用來做輔助訓(xùn)練，將這些額外的標(biāo)注蒸餾到學(xué)生模型中，然后不停的迭代循環(huán)來提高泛化性。

3. 再來看看效果如何

開放詞匯通用圖像分割的定量結(jié)果，直接對比了實例分割、語義分割、全景分割三個任務(wù)。三大任務(wù)漲點都非常明顯！

開放詞匯實例分割結(jié)果，分別對比基類和新類別的定量精度，展示了模型的泛化性。這里也推薦工坊推出的新課程《徹底搞懂視覺-慣性SLAM：VINS-Fusion原理精講與源碼剖析》。

開放詞匯實例分割定性對比，可以發(fā)現(xiàn)MasQCLIP分割精度更高！

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴