蜜臀网av,青草视频主播

研究動(dòng)機(jī)

傳統(tǒng)的多模態(tài)預(yù)訓(xùn)練方法通常需要"大數(shù)據(jù)"+"大模型"的組合來(lái)同時(shí)學(xué)習(xí)視覺(jué)+語(yǔ)言的聯(lián)合特征。但是關(guān)注如何利用視覺(jué)+語(yǔ)言數(shù)據(jù)提升視覺(jué)任務(wù)（多模態(tài)->單模態(tài)）上性能的工作并不多。本文旨在針對(duì)上述問(wèn)題提出一種簡(jiǎn)單高效的方法。

在這篇文章中，以醫(yī)療影像上的特征學(xué)習(xí)為例，我們提出對(duì)圖像+文本同時(shí)進(jìn)行掩碼建模（即Masked Record Modeling，Record={Image,Text}）可以更好地學(xué)習(xí)視覺(jué)特征。該方法具有以下優(yōu)點(diǎn)：

簡(jiǎn)單。僅通過(guò)特征相加就可以實(shí)現(xiàn)多模態(tài)信息的融合。此處亦可進(jìn)一步挖掘，比如引入更高效的融合策略或者擴(kuò)展到其它領(lǐng)域。

高效。在近30w的數(shù)據(jù)集上，在4張NVIDIA 3080Ti上完成預(yù)訓(xùn)練僅需要1天半左右的時(shí)間。

性能強(qiáng)。在微調(diào)階段，在特定數(shù)據(jù)集上，使用1%的標(biāo)記數(shù)據(jù)可以接近100%標(biāo)記數(shù)據(jù)的性能。

方法（一句話總結(jié)）

如上圖所示，我們提出的訓(xùn)練策略是比較直觀的，主要包含三步：

隨機(jī)Mask一部分輸入的圖像和文本

使用加法融合過(guò)后的圖像+文本的特征重建文本

使用圖像的特征重建圖像。

性能

如上圖所示，我們?nèi)鎸?duì)比了現(xiàn)有的相關(guān)方法和模型在各類微調(diào)任務(wù)上的性能。

在CheXpert上，我們以1%的有標(biāo)記數(shù)據(jù)接近使用100%有標(biāo)記數(shù)據(jù)的性能。

在RSNA Pneumonia和SIIM (分割)上，我們以較大幅度超過(guò)了之前最先進(jìn)的方法。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴