哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度學(xué)習(xí)模型壓縮與加速綜述

Dbwd_Imgtec ? 來源:yxw ? 2019-06-08 17:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

目前在深度學(xué)習(xí)領(lǐng)域分類兩個(gè)派別,一派為學(xué)院派,研究強(qiáng)大、復(fù)雜的模型網(wǎng)絡(luò)和實(shí)驗(yàn)方法,為了追求更高的性能;另一派為工程派,旨在將算法更穩(wěn)定、高效的落地在硬件平臺上,效率是其追求的目標(biāo)。復(fù)雜的模型固然具有更好的性能,但是高額的存儲(chǔ)空間、計(jì)算資源消耗是使其難以有效的應(yīng)用在各硬件平臺上的重要原因。所以,卷積神經(jīng)網(wǎng)絡(luò)日益增長的深度和尺寸為深度學(xué)習(xí)在移動(dòng)端的部署帶來了巨大的挑戰(zhàn),深度學(xué)習(xí)模型壓縮與加速成為了學(xué)術(shù)界和工業(yè)界都重點(diǎn)關(guān)注的研究領(lǐng)域之一。本文主要介紹深度學(xué)習(xí)模型壓縮和加速算法的三個(gè)方向,分別為加速網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)、模型裁剪與稀疏化、量化加速。

I. 加速網(wǎng)絡(luò)設(shè)計(jì)

分組卷積

分組卷積即將輸入的feature maps分成不同的組(沿channel維度進(jìn)行分組),然后對不同的組分別進(jìn)行卷積操作,即每一個(gè)卷積核至于輸入的feature maps的其中一組進(jìn)行連接,而普通的卷積操作是與所有的feature maps進(jìn)行連接計(jì)算。分組數(shù)k越多,卷積操作的總參數(shù)量和總計(jì)算量就越少(減少k倍)。然而分組卷積有一個(gè)致命的缺點(diǎn)就是不同分組的通道間減少了信息流通,即輸出的feature maps只考慮了輸入特征的部分信息,因此在實(shí)際應(yīng)用的時(shí)候會(huì)在分組卷積之后進(jìn)行信息融合操作,接下來主要講兩個(gè)比較經(jīng)典的結(jié)構(gòu),ShuffleNet[1]和MobileNet[2]結(jié)構(gòu)。

1) ShuffleNet結(jié)構(gòu):

如上圖所示,圖a是一般的group convolution的實(shí)現(xiàn)效果,其造成的問題是,輸出通道只和輸入的某些通道有關(guān),導(dǎo)致全局信息 流通不暢,網(wǎng)絡(luò)表達(dá)能力不足。圖b就是shufflenet結(jié)構(gòu),即通過均勻排列,把group convolution后的feature map按通道進(jìn)行均勻混合,這樣就可以更好的獲取全局信息了。圖c是操作后的等價(jià)效果圖。在分組卷積的時(shí)候,每一個(gè)卷積核操作的通道數(shù)減少,所以可以大量減少計(jì)算量。

2)MobileNet結(jié)構(gòu):

如上圖所示,mobilenet采用了depthwise separable convolutions的思想,采用depthwise (或叫channelwise)和1x1 pointwise的方法進(jìn)行分解卷積。其中depthwise separable convolutions即對每一個(gè)通道進(jìn)行卷積操作,可以看成是每組只有一個(gè)通道的分組卷積,最后使用開銷較小的1x1卷積進(jìn)行通道融合,可以大大減少計(jì)算量。

分解卷積

分解卷積,即將普通的kxk卷積分解為kx1和1xk卷積,通過這種方式可以在感受野相同的時(shí)候大量減少計(jì)算量,同時(shí)也減少了參數(shù)量,在某種程度上可以看成是使用2k個(gè)參數(shù)模擬k*k個(gè)參數(shù)的卷積效果,從而造成網(wǎng)絡(luò)的容量減小,但是可以在較少損失精度的前提下,達(dá)到網(wǎng)絡(luò)加速的效果。

右圖是在圖像語義分割任務(wù)上取得非常好的效果的ERFNet[3]的主要模塊,稱為NonBottleNeck結(jié)構(gòu)借鑒自ResNet[4]中的Non-Bottleneck結(jié)構(gòu),相應(yīng)改進(jìn)為使用分解卷積替換標(biāo)準(zhǔn)卷積,這樣可以減少一定的參數(shù)和計(jì)算量,使網(wǎng)絡(luò)更趨近于efficiency。

Bottleneck結(jié)構(gòu)

右圖為ENet[5]中的Bottleneck結(jié)構(gòu),借鑒自ResNet中的Bottleneck結(jié)構(gòu),主要是通過1x1卷積進(jìn)行降維和升維,能在一定程度上能夠減少計(jì)算量和參數(shù)量。其中1x1卷積操作的參數(shù)量和計(jì)算量少,使用其進(jìn)行網(wǎng)絡(luò)的降維和升維操作(減少或者增加通道數(shù))的開銷比較小,從而能夠達(dá)到網(wǎng)絡(luò)加速的目的。

C.ReLU[7]結(jié)構(gòu)

C.ReLU來源于CNNs中間激活模式引發(fā)的。輸出節(jié)點(diǎn)傾向于是"配對的",一個(gè)節(jié)點(diǎn)激活是另一個(gè)節(jié)點(diǎn)的相反面,即其中一半通道的特征是可以通過另外一半通道的特征生成的。根據(jù)這個(gè)觀察,C.ReLU減少一半輸出通道(output channels)的數(shù)量,然后通過其中一半通道的特征生成另一半特征,這里使用 negation使其變成雙倍,最后通過scale操作使得每個(gè)channel(通道)的斜率和激活閾值與其相反的channel不同。

SqueezeNet[8]結(jié)構(gòu)

SqueezeNet思想非常簡單,就是將原來簡單的一層conv層變成兩層:squeeze層+expand層,各自帶上Relu激活層。在squeeze層里面全是1x1的卷積kernel,數(shù)量記為S11;在expand層里面有1x1和3x3的卷積kernel,數(shù)量分別記為E11和E33,要求S11 < input map number。expand層之后將 1x1和3x3的卷積output feature maps在channel維度拼接起來。

神經(jīng)網(wǎng)絡(luò)搜索[18]

神經(jīng)結(jié)構(gòu)搜索(Neural Architecture Search,簡稱NAS)是一種自動(dòng)設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)的技術(shù),可以通過算法根據(jù)樣本集自動(dòng)設(shè)計(jì)出高性能的網(wǎng)絡(luò)結(jié)構(gòu),在某些任務(wù)上甚至可以媲美人類專家的水準(zhǔn),甚至發(fā)現(xiàn)某些人類之前未曾提出的網(wǎng)絡(luò)結(jié)構(gòu),這可以有效的降低神經(jīng)網(wǎng)絡(luò)的使用和實(shí)現(xiàn)成本。

NAS的原理是給定一個(gè)稱為搜索空間的候選神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)集合,用某種策略從中搜索出最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu)。神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)劣即性能用某些指標(biāo)如精度、速度來度量,稱為性能評估,可以通過NAS自動(dòng)搜索出高效率的網(wǎng)絡(luò)結(jié)構(gòu)。

本節(jié)主要介紹了模型模型設(shè)計(jì)的思路,同時(shí)對模型的加速設(shè)計(jì)以及相關(guān)缺陷進(jìn)行分析??偟膩碚f,加速網(wǎng)絡(luò)模型設(shè)計(jì)主要是探索最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu),使得較少的參數(shù)量和計(jì)算量就能達(dá)到類似的效果。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3810

    瀏覽量

    52246
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5603

    瀏覽量

    124600

原文標(biāo)題:深度學(xué)習(xí)模型壓縮與加速綜述

文章出處:【微信號:Imgtec,微信公眾號:Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    深度學(xué)習(xí)驅(qū)動(dòng)的超構(gòu)表面設(shè)計(jì)進(jìn)展及其在全息成像中的應(yīng)用

    可實(shí)現(xiàn)高質(zhì)量圖像的獲取。基于神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)方法進(jìn)行超構(gòu)表面設(shè)計(jì)的文章數(shù)量日益增多,但關(guān)于該主題的綜述仍較為匱乏。據(jù)麥姆斯咨詢報(bào)道,近期,中國計(jì)量大學(xué)田穎教授等人
    的頭像 發(fā)表于 04-09 13:55 ?88次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>驅(qū)動(dòng)的超構(gòu)表面設(shè)計(jì)進(jìn)展及其在全息成像中的應(yīng)用

    面向嵌入式部署的神經(jīng)網(wǎng)絡(luò)優(yōu)化:模型壓縮深度解析

    1.為什么需要神經(jīng)網(wǎng)絡(luò)模型壓縮? 神經(jīng)網(wǎng)絡(luò)已經(jīng)成為解決復(fù)雜機(jī)器學(xué)習(xí)問題的強(qiáng)大工具。然而,這種能力往往伴隨著模型規(guī)模和計(jì)算復(fù)雜度的增加。當(dāng)輸入維度較大(例如長時(shí)序窗口、高分辨率特征空間)
    的頭像 發(fā)表于 02-24 15:37 ?5409次閱讀
    面向嵌入式部署的神經(jīng)網(wǎng)絡(luò)優(yōu)化:<b class='flag-5'>模型</b><b class='flag-5'>壓縮</b><b class='flag-5'>深度</b>解析

    機(jī)器學(xué)習(xí)深度學(xué)習(xí)中需避免的 7 個(gè)常見錯(cuò)誤與局限性

    無論你是剛?cè)腴T還是已經(jīng)從事人工智能模型相關(guān)工作一段時(shí)間,機(jī)器學(xué)習(xí)深度學(xué)習(xí)中都存在一些我們需要時(shí)刻關(guān)注并銘記的常見錯(cuò)誤。如果對這些錯(cuò)誤置之不理,日后可能會(huì)引發(fā)諸多麻煩!只要我們密切關(guān)注
    的頭像 發(fā)表于 01-07 15:37 ?331次閱讀
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>和<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>中需避免的 7 個(gè)常見錯(cuò)誤與局限性

    穿孔機(jī)頂頭檢測儀 機(jī)器視覺深度學(xué)習(xí)

    頂頭狀態(tài)。 檢測頂頭算法 引入人工智深度學(xué)習(xí)技術(shù),通過Keras實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)(CNN),用Numpy實(shí)現(xiàn)采集數(shù)據(jù)的訓(xùn)練,得到符合現(xiàn)場需求的模型,進(jìn)一步提升檢測的準(zhǔn)確性和現(xiàn)場的適應(yīng)性。 應(yīng)用范圍
    發(fā)表于 12-22 14:33

    【團(tuán)購】獨(dú)家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實(shí)戰(zhàn)課(11大系列課程,共5000+分鐘)

    、GPU加速訓(xùn)練(可選) 雙軌教學(xué):傳統(tǒng)視覺算法+深度學(xué)習(xí)方案全覆蓋 輕量化部署:8.6M超輕OCR模型,適合嵌入式設(shè)備集成 無監(jiān)督學(xué)習(xí):無
    發(fā)表于 12-04 09:28

    【團(tuán)購】獨(dú)家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實(shí)戰(zhàn)課程(11大系列課程,共5000+分鐘)

    、GPU加速訓(xùn)練(可選) 雙軌教學(xué):傳統(tǒng)視覺算法+深度學(xué)習(xí)方案全覆蓋 輕量化部署:8.6M超輕OCR模型,適合嵌入式設(shè)備集成 無監(jiān)督學(xué)習(xí):無
    發(fā)表于 12-03 13:50

    如何利用NPU與模型壓縮技術(shù)優(yōu)化邊緣AI

    ,AI 模型體積龐大,部署在 NPU上常常面臨困難,這凸顯了模型壓縮技術(shù)的重要性。要實(shí)現(xiàn)高效的實(shí)時(shí)邊緣 AI,需要深入探討NPU 與模型壓縮
    的頭像 發(fā)表于 11-07 15:26 ?1385次閱讀
    如何利用NPU與<b class='flag-5'>模型</b><b class='flag-5'>壓縮</b>技術(shù)優(yōu)化邊緣AI

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+第二章 實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)

    、Transformer 模型的后繼者 二、用創(chuàng)新方法實(shí)現(xiàn)深度學(xué)習(xí)AI芯片 1、基于開源RISC-V的AI加速器 RISC-V是一種開源、模塊化的指令集架構(gòu)(ISA)。優(yōu)勢如下: ①模
    發(fā)表于 09-12 17:30

    Andes晶心科技推出新一代深度學(xué)習(xí)加速

    高效能、低功耗 32/64 位 RISC-V 處理器核與 AI 加速解決方案的領(lǐng)導(dǎo)供貨商—Andes晶心科技(Andes Technology)今日正式發(fā)表最新深度學(xué)習(xí)加速器 Ande
    的頭像 發(fā)表于 08-20 17:43 ?3088次閱讀

    自動(dòng)駕駛中Transformer大模型會(huì)取代深度學(xué)習(xí)嗎?

    [首發(fā)于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心一言等大語言模型在生成文本、對話交互等領(lǐng)域的驚艷表現(xiàn),“Transformer架構(gòu)是否正在取代傳統(tǒng)深度學(xué)習(xí)”這一話題一直被
    的頭像 發(fā)表于 08-13 09:15 ?4343次閱讀
    自動(dòng)駕駛中Transformer大<b class='flag-5'>模型</b>會(huì)取代<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>嗎?

    Cognizant加速AI模型企業(yè)級開發(fā)

    -Cognizant推出AI Training Data Services,助力企業(yè)級AI模型加速開發(fā) Cognizant是數(shù)據(jù)與AI模型訓(xùn)練合作伙伴,長期深受大型數(shù)字原生先鋒企業(yè)信賴,助力其訓(xùn)練
    的頭像 發(fā)表于 07-31 17:25 ?795次閱讀

    基于FPGA的壓縮算法加速實(shí)現(xiàn)

    本設(shè)計(jì)中,計(jì)劃實(shí)現(xiàn)對文件的壓縮及解壓,同時(shí)優(yōu)化壓縮中所涉及的信號處理和計(jì)算密集型功能,實(shí)現(xiàn)對其的加速處理。本設(shè)計(jì)的最終目標(biāo)是證明在充分并行化的硬件體系結(jié)構(gòu) FPGA 上實(shí)現(xiàn)該算法時(shí),可以大大提高該算
    的頭像 發(fā)表于 07-10 11:09 ?2561次閱讀
    基于FPGA的<b class='flag-5'>壓縮</b>算法<b class='flag-5'>加速</b>實(shí)現(xiàn)

    寧暢與與百度文心大模型展開深度技術(shù)合作

    近日,百度正式開源文心大模型4.5系列模型。作為文心開源合作伙伴,寧暢在模型開源首日即實(shí)現(xiàn)即刻部署,做到“開源即接入、發(fā)布即可用”。據(jù)悉,文心4.5開源系列全部基于飛槳深度
    的頭像 發(fā)表于 07-07 16:26 ?987次閱讀

    模型推理顯存和計(jì)算量估計(jì)方法研究

    ,如乘法、加法等; (2)根據(jù)各層計(jì)算操作的類型和復(fù)雜度,確定每層所需的計(jì)算量; (3)將各層計(jì)算量相加,得到模型總的計(jì)算量。 基于硬件加速的算力估計(jì) 隨著硬件加速技術(shù)的發(fā)展,許多深度
    發(fā)表于 07-03 19:43

    模型時(shí)代的深度學(xué)習(xí)框架

    量是約為 25.63M,在ImageNet1K數(shù)據(jù)集上,使用單張消費(fèi)類顯卡 RTX-4090只需大約35~40個(gè)小時(shí) ,即可完成ResNet50模型的預(yù)訓(xùn)練。在 大模型時(shí)代 ,由于大模型參數(shù)規(guī)模龐大,無法跟CNN時(shí)代的小
    的頭像 發(fā)表于 04-25 11:43 ?949次閱讀
    大<b class='flag-5'>模型</b>時(shí)代的<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>框架
    孟连| 盱眙县| 和田县| 秦皇岛市| 烟台市| 西华县| 宜兴市| 新绛县| 松潘县| 黔江区| 泰和县| 台北市| 饶平县| 柘城县| 孝义市| 湘乡市| 抚宁县| 炎陵县| 陕西省| 宝丰县| 洱源县| 怀仁县| 弋阳县| 清镇市| 邮箱| 穆棱市| 神农架林区| 柳州市| 锡林浩特市| 安龙县| 巴里| 诏安县| 兴安县| 望谟县| 墨脱县| 互助| 孝义市| 沛县| 云霄县| 临朐县| 随州市|