哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

刪掉Transformer中的這幾層性能變好了?

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:夕小瑤的賣(mài)萌屋 ? 作者:chaos ? 2021-03-08 10:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

基于Transformer結(jié)構(gòu)的各類(lèi)語(yǔ)言模型(Bert基于其encoder,Gpt-2基于其decoder)早已經(jīng)在各類(lèi)NLP任務(wù)上大放異彩,面對(duì)讓人眼花繚亂的transformer堆疊方式,你是否也會(huì)感到迷茫?沒(méi)關(guān)系,現(xiàn)在讓我們回到最初,再次看看transformer 本來(lái)的模樣——Rethinking the Value of Transformer Components。該文收錄已于COLING 2020。

眾所周知,一個(gè)完整的transformer結(jié)構(gòu)可以切分成Encoder-self attention(“E:SA”), Encoder-Feed Forward(“E:FF”), Decoder-Self Attention(“D:SA”), Decoder-Encoder Attention(“D:EA”) 和 Decoder-Feed Forward(“D:FF”) 5個(gè)sub-layer結(jié)構(gòu)。文中作者采用了兩種度量方式確認(rèn)這些sub-layer的重要程度。

方法稍后再談,先上干貨,實(shí)驗(yàn)結(jié)果表明:

Decoder self-attention layers是最不重要的,而Decoder feed-forward layers是最重要的;

離模型的輸入和輸出越近的sub-layer要比其他的重要些;

在decoder里越靠后的encoder-attention layer要比之前的重要。

這些結(jié)果對(duì)不同的度量方法,數(shù)據(jù)集,初始化種子以及模型容量都能保持一致性。

▲Transformer結(jié)構(gòu)圖

模塊重要性分析

所謂的重要性究竟是什么呢?論文認(rèn)為,這主要包括兩個(gè)方面:

Contribution in information Flow,對(duì)于模型信息流的貢獻(xiàn)程度

Criticality in Representation Generalization,模型的模塊對(duì)參數(shù)的擾動(dòng)表現(xiàn)出不同的魯棒性

Contribution in Information Flow

Transformer 最初是用來(lái)做機(jī)器翻譯任務(wù)的。所謂的information flow就是指數(shù)據(jù)如何從源語(yǔ)言經(jīng)過(guò)Transformer的encoder和decoder最終成為目標(biāo)語(yǔ)言的。如何衡量模型的每個(gè)部分對(duì)information flow做出的貢獻(xiàn)呢? 最直觀(guān)的想法就是去掉那個(gè)部分看看同樣條件下模型的效果如何。如果去掉那個(gè)部分,模型效果沒(méi)什么變化,那就說(shuō)明該部分沒(méi)做什么貢獻(xiàn),反之,如果刪掉該部分,模型效果顯著降低則說(shuō)明它貢獻(xiàn)卓著,沒(méi)它不行。作者采用了如下的量化方法:

公式中指的是去除第n個(gè)部分后模型整體的BLEU得分降。為了避免出現(xiàn)重要性指數(shù)出現(xiàn)負(fù)值和爆炸性下跌,作者將的值設(shè)定在[0,C]之間(真的會(huì)出現(xiàn)負(fù)重要性指數(shù)嗎?那樣倒挺好——模型變小,效果更好)。然后通過(guò)除以最大的得分降將的值進(jìn)行了歸一化,這里作者設(shè)置的上限C值為基線(xiàn)模型的BLEU得分的1/10.

Criticality in Representation Generalization

這里說(shuō)的criticality指的是模型的模塊對(duì)參數(shù)的擾動(dòng)表現(xiàn)出不同的魯棒性。比方說(shuō),如果將某個(gè)模塊的參數(shù)重置為初始化參數(shù),模型的表現(xiàn)變差,那么這個(gè)模塊就是critical的,否則就是non-critical的。有人在理論上將這個(gè)criticality給公式化了,而且他們表明這個(gè)criticality可以反映神經(jīng)網(wǎng)絡(luò)的泛化能力。

作者便是參考了這個(gè)工作,對(duì)網(wǎng)絡(luò)的第n個(gè)模塊,定義

即初始權(quán)重和最終權(quán)重的一個(gè)凸組合。

那么第n個(gè)部分的criticality score就可以表示為

這個(gè)式子定量的說(shuō)明了criticality是最小的能使模型在閾值的情況下保持性能。這個(gè)值越小說(shuō)明該模塊越不重要,這里取的是 0.5 BLEU分。

兩種度量方法雖然都是基于模塊對(duì)模型表現(xiàn)的影響的,但是又有不同之處。Contribution score可以看成是 hard metric(完全刪除模塊),而 Criticality score可以看成是一種soft metric,它衡量的是在保證模型表現(xiàn)的前提下模塊參數(shù)能多大程度的回卷。

實(shí)驗(yàn)

實(shí)驗(yàn)是在WMT2014 English-German(En-De)和English-French(En-Fr)兩個(gè)機(jī)器翻譯數(shù)據(jù)集上進(jìn)行的,作者使用的Transformer模型和Transformer的那篇原始文獻(xiàn)(Vaswani et al.,2017)是一樣的。Transformer model 一共6層編碼器和解碼器,layer size是512,feed-forward sub-layer的size是2048,attention head的數(shù)值是8,dropout是0.1,initialization seed設(shè)置為1。

觀(guān)察模塊的重要性

上圖是采用兩種度量方式在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,其中X軸代表的是模塊類(lèi)型,Y軸表示的是layer id。其中顏色越深就越重要??梢钥闯鰞煞N度量方式的結(jié)果很大程度上是一致的,比方說(shuō):

the decoder self-attention(D:SA)是最不重要的,而the decoder feed-forward layers(D:FF)是最重要的。

編碼器里越靠前(E:SA和E:FF)和解碼器里越靠后(D:EA和D:FF)是更重要的。這個(gè)其實(shí)很直觀(guān),因?yàn)檫@些模塊離數(shù)據(jù)的輸入和輸出更近,所以對(duì)輸入句子的理解和輸出句子的生成要更加重要些。

在解碼器里越靠后的encoder-attention(D:EA)layers要比之前的encoder-attention layers重要。

分析不重要的模塊

更低的dropout比例和更多的訓(xùn)練數(shù)據(jù)會(huì)讓不重要的模塊變得更少(dropout是一種常見(jiàn)的用來(lái)防止過(guò)擬合的手段)。為了保證模型的效果,當(dāng)我們使用dropout的時(shí)候其實(shí)說(shuō)明模型本身有一定程度上的冗余。在不降低模型效果的前提下,小的dropout比例剛好說(shuō)明模型的冗余越少,也就是不重要的模塊更少。大規(guī)模的訓(xùn)練數(shù)據(jù)本身就自帶更多的patterns。需要充分發(fā)揮transformer的各個(gè)模塊才能有效地學(xué)習(xí)到。

從上面兩張圖可以明顯的看出:當(dāng)使用更小的dropout和更大的數(shù)據(jù)集時(shí),顏色深的版塊明顯變得更多。此外之前所得到的結(jié)論這里依然成立。

區(qū)分和利用一批不重要的模塊

之前的結(jié)果都是只刪除一個(gè)模塊得到,那我們一次性刪除多個(gè)模塊呢?

上圖顯示當(dāng)我們刪除3到4個(gè)不重要的模塊時(shí),模型效果并沒(méi)有明顯降低。但是當(dāng)刪的更多了之后,模型的效果會(huì)受到較大的影響。那么我們是否可以利用這些不怎么重要的模塊去對(duì)模型進(jìn)行優(yōu)化呢?作者采用了兩種方式:一個(gè)是模塊剪枝,另一個(gè)是模塊回卷。

模塊剪枝就是將不重要的模塊直接刪掉,因?yàn)閯h掉了相應(yīng)模塊使得模型的參數(shù)變小,作為對(duì)比作者在相同參數(shù)量下使用了一個(gè)淺層的decoder模型結(jié)果如表:

ad644d5a-7f2a-11eb-8b86-12bb97331649.png

可以看出剪枝后的模型要比同樣參數(shù)下的淺層模型結(jié)果要好,而且也能達(dá)到和原始模型相應(yīng)的效果,有的甚至更好(還真有)。

模塊回卷就是將不重要的模塊參數(shù)回卷到初始化狀態(tài),再和其他模塊一起微調(diào)一下得到的訓(xùn)練結(jié)果要比原始模型好一點(diǎn)。

總結(jié)

我們可以利用contribution score和criticality score評(píng)價(jià)模型中各個(gè)模塊的重要性,知曉了模塊的重要性程度后我們可以對(duì)不重要的模塊進(jìn)行剪枝或者參數(shù)回卷都能在一定程度上讓原有模型得到優(yōu)化。

原文標(biāo)題:我刪掉了Transformer中的這幾層…性能反而變好了?

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1819

    文章

    50284

    瀏覽量

    266806
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5603

    瀏覽量

    124605
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    156

    瀏覽量

    6961

原文標(biāo)題:我刪掉了Transformer中的這幾層…性能反而變好了?

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    電子工程師視角下的SAFETY ISOLATING TRANSFORMER

    電子工程師視角下的SAFETY ISOLATING TRANSFORMER 一、產(chǎn)品概述 在電子設(shè)備的設(shè)計(jì),安全始終是重中之重。今天要介紹的這款SAFETY ISOLATING
    的頭像 發(fā)表于 04-08 16:20 ?73次閱讀

    FT 5000 Smart Transceiver與FT - X3 Communications Transformer:智能網(wǎng)絡(luò)新選擇

    FT 5000 Smart Transceiver與FT - X3 Communications Transformer:智能網(wǎng)絡(luò)新選擇 在智能網(wǎng)絡(luò)的發(fā)展進(jìn)程,設(shè)備的性能、成本和兼容性是工程師們
    的頭像 發(fā)表于 03-31 09:10 ?109次閱讀

    儲(chǔ)能變流器PCS ATE測(cè)試系統(tǒng)——從并網(wǎng)合規(guī)到高效驗(yàn)證的全棧解決方案

    隨著儲(chǔ)能電站大規(guī)模并網(wǎng)以及電力現(xiàn)貨市場(chǎng)對(duì)儲(chǔ)能調(diào)頻性能要求的提升,儲(chǔ)能變流器(PCS) 作為電網(wǎng)與電池的接口,其性能直接決定了儲(chǔ)能系統(tǒng)的并網(wǎng)合規(guī)性與運(yùn)行效率。對(duì)于PCS研發(fā)和生產(chǎn)企業(yè)的工程師而言
    的頭像 發(fā)表于 03-19 14:01 ?185次閱讀
    儲(chǔ)<b class='flag-5'>能變</b>流器PCS ATE測(cè)試系統(tǒng)——從并網(wǎng)合規(guī)到高效驗(yàn)證的全棧解決方案

    Transformer 入門(mén):從零理解 AI 大模型的核心原理

    │ │ 456 │→ │ 25 │ └─────────┘│ 36 │ (2×3) └─────────┘ (3×2) 記憶技巧:想象沿著對(duì)角線(xiàn)折疊紙張。 在 Transformer 的應(yīng)用:計(jì)算注意力分?jǐn)?shù)
    發(fā)表于 02-10 16:33

    Transformer如何讓自動(dòng)駕駛大模型獲得思考能力?

    在談及自動(dòng)駕駛時(shí),Transformer一直是非常關(guān)鍵的技術(shù),為何Transformer在自動(dòng)駕駛行業(yè)一直被提及?
    的頭像 發(fā)表于 02-01 09:15 ?4364次閱讀

    真不敢信,PCB板上就挪動(dòng)了一個(gè)電阻,DDR3竟神奇變好了

    DDRx調(diào)試的問(wèn)題我們經(jīng)常會(huì)碰到,但PCB板上這個(gè)問(wèn)題卻很初級(jí),調(diào)了一周都沒(méi)有解決,沒(méi)想到最后挪動(dòng)了一個(gè)電阻就好了,不信大家來(lái)看看怎么回事!
    的頭像 發(fā)表于 01-05 15:40 ?403次閱讀
    真不敢信,PCB板上就挪動(dòng)了一個(gè)電阻,DDR3竟神奇<b class='flag-5'>變好了</b>

    Transformer如何讓自動(dòng)駕駛變得更聰明?

    ]自動(dòng)駕駛中常提的Transformer本質(zhì)上是一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),最早在自然語(yǔ)言處理里火起來(lái)。與卷積神經(jīng)網(wǎng)絡(luò)(CNN)或循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)不同,Transformer能夠自動(dòng)審視所有輸入信息,并動(dòng)態(tài)判斷哪些部分更為關(guān)鍵,同時(shí)可以將這些重要信息有效地關(guān)聯(lián)起來(lái)。
    的頭像 發(fā)表于 11-19 18:17 ?2438次閱讀

    一文讀懂儲(chǔ)能變流器PCS

    性能起著至關(guān)重要的作用。一、PCS的定義與核心功能儲(chǔ)能變流器(PowerConversionSystem,簡(jiǎn)稱(chēng)PCS)是儲(chǔ)能系統(tǒng)的核心設(shè)備,負(fù)責(zé)實(shí)現(xiàn)電能形式的雙向
    的頭像 發(fā)表于 08-14 11:15 ?5007次閱讀
    一文讀懂儲(chǔ)<b class='flag-5'>能變</b>流器PCS

    自動(dòng)駕駛Transformer大模型會(huì)取代深度學(xué)習(xí)嗎?

    [首發(fā)于智駕最前沿微信公眾號(hào)]近年來(lái),隨著ChatGPT、Claude、文心一言等大語(yǔ)言模型在生成文本、對(duì)話(huà)交互等領(lǐng)域的驚艷表現(xiàn),“Transformer架構(gòu)是否正在取代傳統(tǒng)深度學(xué)習(xí)”這一話(huà)題一直被
    的頭像 發(fā)表于 08-13 09:15 ?4346次閱讀
    自動(dòng)駕駛<b class='flag-5'>中</b><b class='flag-5'>Transformer</b>大模型會(huì)取代深度學(xué)習(xí)嗎?

    Transformer在端到端自動(dòng)駕駛架構(gòu)是何定位?

    典型的Transformer架構(gòu)已被用于構(gòu)建“感知-規(guī)劃-控制統(tǒng)一建模”的方案。如Waymo和小馬智行正在研發(fā)的多模態(tài)大模型(MultimodalLargeModels,MLLMs),將來(lái)自攝像頭
    的頭像 發(fā)表于 08-03 11:03 ?1515次閱讀

    如何實(shí)現(xiàn)高效雙向電能變

    隨著電動(dòng)汽車(chē)、家庭和工商業(yè)儲(chǔ)能產(chǎn)品快速普及,雙向電能變換系統(tǒng)的熱度也在不斷攀升。作為電網(wǎng)與電池的功率橋梁,雙向電能變換系統(tǒng)基于一套硬件電路就能控制電池充放電,實(shí)現(xiàn)能量雙向流動(dòng),相比傳統(tǒng)單向變換器可大幅降低硬件成本,減小設(shè)備體積。
    的頭像 發(fā)表于 07-23 11:40 ?1687次閱讀

    儲(chǔ)能變流器的靜電與浪涌防護(hù)技術(shù)解析

    講解一、儲(chǔ)能變流器(PCS)儲(chǔ)能變流器(PowerConversionSystem,PCS)又稱(chēng)功率轉(zhuǎn)換系統(tǒng),是儲(chǔ)能系統(tǒng)實(shí)現(xiàn)能量雙向轉(zhuǎn)換的核心環(huán)節(jié),完整的電化學(xué)儲(chǔ)能系統(tǒng)主要由電池組、電池管理系統(tǒng)(BMS)、能量管理系統(tǒng)(EMS
    的頭像 發(fā)表于 06-12 18:28 ?1524次閱讀
    儲(chǔ)<b class='flag-5'>能變</b>流器的靜電與浪涌防護(hù)技術(shù)解析

    Transformer架構(gòu)編碼器的工作流程

    編碼器是Transformer體系結(jié)構(gòu)的基本組件。編碼器的主要功能是將輸入標(biāo)記轉(zhuǎn)換為上下文表示。與早期獨(dú)立處理token的模型不同,Transformer編碼器根據(jù)整個(gè)序列捕獲每個(gè)token的上下文。
    的頭像 發(fā)表于 06-10 14:27 ?1191次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)<b class='flag-5'>中</b>編碼器的工作流程

    Transformer架構(gòu)概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學(xué)習(xí)領(lǐng)域正在經(jīng)歷一場(chǎng)翻天覆地的變化。這些突破性的架構(gòu)不僅重新定義了自然語(yǔ)言處理(NLP)的標(biāo)準(zhǔn),而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發(fā)表于 06-10 14:24 ?1432次閱讀
    <b class='flag-5'>Transformer</b>架構(gòu)概述

    快手上線(xiàn)鴻蒙應(yīng)用高性能解決方案:數(shù)據(jù)反序列化性能提升90%

    了其數(shù)據(jù)反序列化性能,在典型場(chǎng)景下能夠降低約90%的數(shù)據(jù)轉(zhuǎn)換耗時(shí),為鴻蒙應(yīng)用帶來(lái)了更流暢的用戶(hù)體驗(yàn)和更敏捷的交互響應(yīng)。 在鴻蒙應(yīng)用開(kāi)發(fā)過(guò)程,“class-transformer”三方庫(kù)被廣泛應(yīng)用于將
    發(fā)表于 05-15 10:01
    平阴县| 海伦市| 浦北县| 金平| 朔州市| 商都县| 大同县| 武强县| 裕民县| 达州市| 西峡县| 淳安县| 沽源县| 宜川县| 库车县| 洞口县| 丽水市| 综艺| 大新县| 黄山市| 阜康市| 璧山县| 吉林市| 祥云县| 仪征市| 城固县| 莱芜市| 木里| 鄱阳县| 香港| 海林市| 黄陵县| 射阳县| 盐源县| 万荣县| 常宁市| 股票| 柘城县| 临夏县| 阜南县| 宣汉县|