哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一個(gè)LSTM被分解成垂直和水平的LSTM

OpenCV學(xué)堂 ? 來源:OpenCV學(xué)堂 ? 作者:OpenCV學(xué)堂 ? 2022-05-07 16:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在最近的計(jì)算機(jī)視覺研究中,ViT的出現(xiàn)迅速改變了各種架構(gòu)設(shè)計(jì)工作:ViT利用自然語言處理中的Self-Attention實(shí)現(xiàn)了最先進(jìn)的圖像分類性能,MLP-Mixer利用簡(jiǎn)單的多層感知器也實(shí)現(xiàn)了具有競(jìng)爭(zhēng)性的結(jié)果。相比之下,一些研究也表明,精心設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)(CNNs)可以實(shí)現(xiàn)媲美ViT的先進(jìn)性能,而無需借助這些新想法。在這種背景下,人們對(duì)什么是適合于計(jì)算機(jī)視覺的歸納偏差越來越感興趣。

在這里,作者提出Sequencer,一個(gè)全新且具有競(jìng)爭(zhēng)性的架構(gòu),可以替代ViT,為分類問題提供了一個(gè)全新的視角。與ViT不同,Sequencer使用LSTM(而不是Self-Attention)對(duì)遠(yuǎn)程依賴關(guān)系進(jìn)行建模。

作者還提出了一個(gè)二維的Sequencer模塊,其中一個(gè)LSTM被分解成垂直和水平的LSTM,以提高性能。

雖然結(jié)構(gòu)簡(jiǎn)單,但是經(jīng)過實(shí)驗(yàn)表明,Sequencer的表現(xiàn)令人印象深刻:Sequencer2D-L在ImageNet-1K上僅使用54M參數(shù),實(shí)現(xiàn)84.6%的top-1精度。不僅如此,作者還證明了它在雙分辨率波段上具有良好的可遷移性和穩(wěn)健性。

1背景

Vision Transformer成功的原因被認(rèn)為是由于Self-Attention建模遠(yuǎn)程依賴的能力。然而,Self-Attention對(duì)于Transformer執(zhí)行視覺任務(wù)的有效性有多重要還不清楚。事實(shí)上,只基于多層感知器(MLPs)的MLP-Mixer被提議作為ViTs的一個(gè)有吸引力的替代方案。

此外,一些研究表明,精心設(shè)計(jì)的CNN在計(jì)算機(jī)視覺方面仍有足夠的競(jìng)爭(zhēng)力。因此,確定哪些架構(gòu)設(shè)計(jì)對(duì)計(jì)算機(jī)視覺任務(wù)具有內(nèi)在的有效性是當(dāng)前研究的一大熱點(diǎn)。本文通過提出一種新穎的、具有競(jìng)爭(zhēng)力的替代方案,為這一問題提供了一個(gè)新的視角。

本文提出了Sequencer體系結(jié)構(gòu),使用LSTM(而不是Self-Attention)進(jìn)行序列建模。Sequencer的宏觀架構(gòu)設(shè)計(jì)遵循ViTs,迭代地應(yīng)用Token Mixing和Channel Mixing,但Self-Attention被基于LSTMs的Self-Attention層取代。特別是,Sequencer使用BiLSTM作為一個(gè)構(gòu)建塊。簡(jiǎn)單的BiLSTM表現(xiàn)出一定的性能水平,而Sequencer可以通過使用類似Vision Permutator(ViP)的思想進(jìn)一步提高。ViP的關(guān)鍵思想是平行處理垂直軸和水平軸。

作者還引入了2個(gè)BiLSTM,用于并行處理上/下和左/右方向。這種修改提高了Sequencer的效率和準(zhǔn)確性,因?yàn)檫@種結(jié)構(gòu)減少了序列的長(zhǎng)度,并產(chǎn)生一個(gè)有空間意義的感受野。

在ImageNet-1K數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練時(shí),新的Sequencer架構(gòu)的性能優(yōu)于類似規(guī)模的Swin和ConvNeXt等高級(jí)架構(gòu)。它還優(yōu)于其他無注意力和無CNN的架構(gòu),如MLP-Mixer和GFNet,使Sequencer在視覺任務(wù)中的Self-Attention具有吸引力的新替代方案。

值得注意的是,Sequencer還具有很好的領(lǐng)域穩(wěn)健性以及尺度穩(wěn)定性,即使在推理過程中輸入的分辨率增加了一倍,也能強(qiáng)烈防止精度退化。此外,對(duì)高分辨率數(shù)據(jù)進(jìn)行微調(diào)的Sequencer可以達(dá)到比Swin-B更高的精度。在峰值內(nèi)存上,在某些情況下,Sequencer往往比ViTs和cnn更經(jīng)濟(jì)。雖然由于遞歸,Sequencer需要比其他模型更多的FLOPs,但更高的分辨率提高了峰值內(nèi)存的相對(duì)效率,提高了在高分辨率環(huán)境下的精度/成本權(quán)衡。因此,Sequencer作為一種實(shí)用的圖像識(shí)別模型也具有吸引人的特性。

2全新范式

2.1 LSTM的原理

LSTM是一種特殊的遞歸神經(jīng)網(wǎng)絡(luò)(RNN),用于建模序列的長(zhǎng)期依賴關(guān)系。Plain LSTM有一個(gè)輸入門,它控制存儲(chǔ)輸入,一個(gè)控制前單元狀態(tài)的遺忘的遺忘門,以及一個(gè)輸出門,它控制當(dāng)前單元狀態(tài)的單元輸出。普通LSTM的公式如下:

3c0deb4a-cd29-11ec-bce3-dac502259ad0.png

其中σ是logistic sigmoid function,是Hadamard product。

BiLSTM對(duì)于預(yù)期相互依賴的序列是有利的。一個(gè)BiLSTM由2個(gè)普通的LSTM組成。設(shè)為輸入,為反向重排。和分別是用相應(yīng)的LSTM處理和得到的輸出。設(shè)為按原順序重新排列的輸出,BiLSTM的輸出如下:

3c1be47a-cd29-11ec-bce3-dac502259ad0.png

假設(shè)和具有相同的隱藏維數(shù)D,這是BiLSTM的超參數(shù)。因此,向量h的維數(shù)為二維。

2.2 Sequencer架構(gòu)

1、架構(gòu)總覽

本文用LSTM取代Self-Attention層:提出了一種新的架構(gòu),旨在節(jié)省內(nèi)存和參數(shù),同時(shí)具有學(xué)習(xí)遠(yuǎn)程建模的能力。

3c276110-cd29-11ec-bce3-dac502259ad0.png

圖2a顯示了Sequencer體系結(jié)構(gòu)的整體結(jié)構(gòu)。Sequencer架構(gòu)以不重疊的Patches作為輸入,并將它們投影到特征圖上。Sequencer Block是Sequencer的核心組件,由以下子組件組成:

BiLSTM層可以經(jīng)濟(jì)、全局地Mixing空間信息

MLP用于Channel Mixing

當(dāng)使用普通BiLSTM層時(shí),Sequencer Block稱為Vanilla Sequencer block;當(dāng)使用BiLSTM2D層作為Sequencer Block時(shí),Sequencer Block稱為Sequencer2D block。最后一個(gè)塊的輸出通過全局平均池化層送到線性分類器。

2、BiLSTM2D layer

作者提出了BiLSTM2D層作為一種有效Mixing二維空間信息的技術(shù)。它有2個(gè)普通的BiLSTM,一個(gè)垂直的BiLSTM和一個(gè)水平的BiLSTM。

對(duì)于輸入被視為一組序列,其中是垂直方向上的Token數(shù)量,W是水平方向上的序列數(shù)量,C是通道維度。所有序列都輸入到垂直BiLSTM中,共享權(quán)重和隱藏維度D:

3c57b7de-cd29-11ec-bce3-dac502259ad0.png

用與上述相似的方式,被視為一組序列,所有序列被輸入到水平BiLSTM中,共享權(quán)重和隱藏維度D:

3c664416-cd29-11ec-bce3-dac502259ad0.png

然后將合并到中,同時(shí)將合并到。最后送入FC層。這些流程制定如下:

3c766bca-cd29-11ec-bce3-dac502259ad0.png

偽代碼如下:

3c82a8b8-cd29-11ec-bce3-dac502259ad0.png

3、架構(gòu)變體

為了比較由Sequencer 2D組成的不同深度的模型,本文準(zhǔn)備了3種不同深度的模型:18、24和36。模型的名稱分別為Sequencer2D-S、Sequencer2D-M和Sequencer2D-L。隱藏維度設(shè)置為D=C/4。

3c913946-cd29-11ec-bce3-dac502259ad0.png

3ca309c8-cd29-11ec-bce3-dac502259ad0.png

3實(shí)驗(yàn)

3.1 ImageNet-1K

3cdadf06-cd29-11ec-bce3-dac502259ad0.png

3.2 遷移學(xué)習(xí)

3cf029b0-cd29-11ec-bce3-dac502259ad0.png

3.3 穩(wěn)健性實(shí)驗(yàn)

3cff1d58-cd29-11ec-bce3-dac502259ad0.png

3.4 可視化分析

一般來說,CNN具有局部化的、逐層擴(kuò)展的感受野,而沒有移動(dòng)窗口的ViT捕獲的是全局依賴。相比之下,作者Sequencer不清楚信息是如何處理的。因此作者計(jì)算了ResNet-50、DeiT-S和Sequencer2D-S的ERF,如圖5所示。

3d10d2c8-cd29-11ec-bce3-dac502259ad0.png

Sequencer2D-S的ERFs在所有層中形成十字形。這一趨勢(shì)使其不同于DeiT-S和ResNet-50等著名模型。更值得注意的是,在淺層中,Sequencer2D-S比ResNet-50的ERF更寬,盡管沒有DeiT那么寬。這一觀察結(jié)果證實(shí)了Sequencer中的lstm可以像預(yù)期的那樣建模長(zhǎng)期依賴關(guān)系,并且Sequencer可以識(shí)別足夠長(zhǎng)的垂直或水平區(qū)域。因此,可以認(rèn)為,Sequencer識(shí)別圖像的方式與CNN或ViT非常不同。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 計(jì)算機(jī)視覺
    +關(guān)注

    關(guān)注

    9

    文章

    1715

    瀏覽量

    47707
  • LSTM
    +關(guān)注

    關(guān)注

    0

    文章

    63

    瀏覽量

    4438

原文標(biāo)題:CV全新范式 | LSTM在CV領(lǐng)域殺出一條血路,完美超越Swin與ConvNeXt等前沿算法

文章出處:【微信號(hào):CVSCHOOL,微信公眾號(hào):OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    算法工程師需要具備哪些技能?

    算法工程師需要掌握系列跨學(xué)科的技能,涵蓋數(shù)學(xué)基礎(chǔ)、編程能力、算法理論、工程實(shí)踐以及業(yè)務(wù)理解等多個(gè)方面。 以下是具體技能及學(xué)習(xí)建議: 線性代數(shù)核心內(nèi)容:矩陣運(yùn)算、特征值分解、向量空間等。應(yīng)用場(chǎng)
    發(fā)表于 02-27 10:53

    水平垂直式石英清洗機(jī)工作原理

    在半導(dǎo)體制造、光伏產(chǎn)業(yè)以及光學(xué)元件生產(chǎn)等對(duì)精度和潔凈度要求極高的領(lǐng)域,水平式與垂直式石英清洗機(jī)發(fā)揮著關(guān)鍵作用。以下是兩者工作原理的相關(guān)介紹:水平式石英清洗機(jī)的工作原理多槽分段清洗流程采用酸洗、堿洗
    的頭像 發(fā)表于 12-25 13:38 ?439次閱讀
    <b class='flag-5'>水平</b>與<b class='flag-5'>垂直</b>式石英清洗機(jī)工作原理

    文讀懂LSTM與RNN:從原理到實(shí)戰(zhàn),掌握序列建模核心技術(shù)

    在AI領(lǐng)域,文本翻譯、語音識(shí)別、股價(jià)預(yù)測(cè)等場(chǎng)景都離不開序列數(shù)據(jù)處理。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)作為最早的序列建模工具,開創(chuàng)了“記憶歷史信息”的先河;而長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)則通過創(chuàng)新設(shè)計(jì),突破
    的頭像 發(fā)表于 12-09 13:56 ?1840次閱讀
    <b class='flag-5'>一</b>文讀懂<b class='flag-5'>LSTM</b>與RNN:從原理到實(shí)戰(zhàn),掌握序列建模核心技術(shù)

    ST AEKD-AICAR1:基于邊緣AI的汽車狀態(tài)分類開發(fā)套件解析

    STMicroelectronics AEKD-AICAR1車用AI套件基于長(zhǎng)短期記憶 (LSTM) 循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN)。該套件提供汽車狀態(tài)分類:汽車停車、普通道路行車、崎嶇道路行車、汽車打滑或轉(zhuǎn)彎。AEKD-AICAR1中的創(chuàng)新想法是定義具有嵌入式人工智能處理功能的ECU檢測(cè)節(jié)點(diǎn)。
    的頭像 發(fā)表于 10-28 14:40 ?754次閱讀
    ST AEKD-AICAR1:基于邊緣AI的汽車狀態(tài)分類開發(fā)套件解析

    個(gè)硬件SPI兩個(gè)CS操作兩個(gè)norflash,怎么互斥操作兩個(gè)norflash?

    個(gè)硬件SPI兩個(gè)CS操作兩個(gè)norflash,怎么互斥操作兩個(gè)norflash,有
    發(fā)表于 09-26 06:18

    華盛昌LM-02T/LM-16T激光水平儀介紹

    在木工安裝、水電布管、瓷磚鋪貼及室內(nèi)裝修等作業(yè)中,快速完成位置校準(zhǔn)、垂直水平找平與精準(zhǔn)投點(diǎn),是保障施工質(zhì)量的關(guān)鍵環(huán)節(jié)。
    的頭像 發(fā)表于 08-11 13:59 ?1614次閱讀

    FOC控制和方波控制區(qū)別及分別應(yīng)用場(chǎng)景--【其利天下】

    、控制原理FOC控制:基于電機(jī)的磁場(chǎng)定向控制,將電流分解成與轉(zhuǎn)子磁場(chǎng)方向相關(guān)的直軸(d軸)和交軸(q軸)分量。使用空間矢量脈寬調(diào)制(SVPWM)精確控制電流,優(yōu)化電機(jī)
    的頭像 發(fā)表于 08-01 18:05 ?2846次閱讀
    FOC控制和方波控制區(qū)別及分別應(yīng)用場(chǎng)景--【其利天下】

    垂直GaN迎來新突破!

    電子發(fā)燒友網(wǎng)綜合報(bào)道 最近垂直GaN功率器件又迎來新進(jìn)展。7月10日,廣東致能CEO黎子蘭博士,在瑞典舉辦的全球氮化物半導(dǎo)體頂尖會(huì)議ICNS(國(guó)際氮化物半導(dǎo)體會(huì)議)上發(fā)表邀請(qǐng)報(bào)告,首次報(bào)道了廣東致能
    發(fā)表于 07-22 07:46 ?5118次閱讀
    <b class='flag-5'>垂直</b>GaN迎來新突破!

    泰克示波器MSO44光標(biāo)如何水平垂直切換

    在使用泰克MSO44示波器進(jìn)行信號(hào)測(cè)量與分析時(shí),靈活切換光標(biāo)模式對(duì)于精準(zhǔn)獲取信號(hào)參數(shù)至關(guān)重要。通過水平垂直光標(biāo)的切換,工程師能快速測(cè)量信號(hào)的時(shí)間、電壓等關(guān)鍵指標(biāo),從而高效完成電路調(diào)試、信號(hào)評(píng)估等
    的頭像 發(fā)表于 07-16 14:33 ?1030次閱讀
    泰克示波器MSO44光標(biāo)如何<b class='flag-5'>水平</b><b class='flag-5'>垂直</b>切換

    傅里葉變換的原理及應(yīng)用

    01什么是傅里葉變換?句話概括:“把復(fù)雜信號(hào)拆成多個(gè)簡(jiǎn)單正弦波的疊加?!本拖癜?b class='flag-5'>一道混合光分解成彩虹(七色光),傅里葉變換能把任何波動(dòng)信號(hào)(聲音、圖像、電磁波等)拆解不同頻率的“正弦
    的頭像 發(fā)表于 06-30 09:54 ?6379次閱讀
    傅里葉變換的原理及應(yīng)用

    如何用AI實(shí)現(xiàn)電池壽命的精準(zhǔn)預(yù)測(cè)?飛凌RK3588+融合算法給你答案

    飛凌嵌入式將AI算法(CNN+LSTM融合)和RK3588核心板相結(jié)合,成功突破這些限制,帶來高效、精準(zhǔn)的鋰電池壽命預(yù)測(cè)。
    的頭像 發(fā)表于 06-20 10:07 ?3733次閱讀
    如何用AI實(shí)現(xiàn)電池壽命的精準(zhǔn)預(yù)測(cè)?飛凌RK3588+融合算法給你答案

    PLC梯形圖編程方法(PPT版)

    梯形圖經(jīng)驗(yàn)設(shè)計(jì)法 經(jīng)驗(yàn)設(shè)計(jì)方法也叫試湊法,經(jīng)驗(yàn)設(shè)計(jì)方法需要設(shè)計(jì)者掌握大量的典型電路,在掌握這些典型電路的基礎(chǔ)上,充分理解實(shí)際的控制問題,將實(shí)際控制問題分解成典型控制電路,然后用典型電路或修改的典型
    發(fā)表于 05-30 16:46

    如何計(jì)算存儲(chǔ)示波器的垂直分辨率?

    在不同幅度范圍內(nèi)存在不同的偏差。 量程選擇:不同量程下的垂直分辨率可能會(huì)有所不同。般來說,在小量程下,示波器的垂直分辨率會(huì)相對(duì)較高,因?yàn)闈M量程電壓范圍較小,ADC 的位數(shù)能夠更精細(xì)地劃分電壓等級(jí)。因此,在選擇量程時(shí),應(yīng)根據(jù)
    發(fā)表于 05-30 14:03

    提高IT運(yùn)維效率,深度解讀京東云AIOps落地實(shí)踐(異常檢測(cè)篇)

    種無閾值方法:基于 LSTM 網(wǎng)絡(luò)的基線(個(gè) LSTM 框架輔助幾個(gè)優(yōu)化步驟)和無監(jiān)督檢測(cè)(神經(jīng)網(wǎng)絡(luò)和多種機(jī)器學(xué)習(xí)算法的組合)協(xié)同綜合
    的頭像 發(fā)表于 05-22 16:38 ?1144次閱讀
    提高IT運(yùn)維效率,深度解讀京東云AIOps落地實(shí)踐(異常檢測(cè)篇)

    《電子懶人的基礎(chǔ)硬件電路圖講解》

    包含了簡(jiǎn)單的,基礎(chǔ)的單元電路圖。積累這些基礎(chǔ)的電路圖,對(duì)分析個(gè)復(fù)雜的電路很有幫助。因?yàn)?b class='flag-5'>一個(gè)復(fù)雜的電路圖可以按照功能來劃分成不同的模塊,再對(duì)模塊進(jìn)行
    發(fā)表于 04-24 16:40
    鄂伦春自治旗| 察隅县| 锦州市| 惠安县| 沈丘县| 建宁县| 无锡市| 紫云| 平安县| 屏山县| 沙洋县| 黑山县| 科尔| 奉节县| 宜丰县| 锡林郭勒盟| 宁化县| 禄劝| 海丰县| 磴口县| 宾川县| 兴山县| 肃宁县| 渝北区| 大连市| 潼南县| 赤峰市| 株洲县| 哈密市| 新野县| 庄河市| 万宁市| 和平区| 株洲县| 游戏| 霍邱县| 澄江县| 额尔古纳市| 岳普湖县| 镇平县| 靖边县|