哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA AI 技術(shù)助力 vivo 文本預(yù)訓(xùn)練大模型性能提升

NVIDIA英偉達(dá) ? 來源:未知 ? 2023-05-26 07:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

vivo AI 團(tuán)隊(duì)與 NVIDIA 團(tuán)隊(duì)合作,通過算子優(yōu)化,提升 vivo 文本預(yù)訓(xùn)練大模型的訓(xùn)練速度。在實(shí)際應(yīng)用中,訓(xùn)練提速 60%,滿足了下游業(yè)務(wù)應(yīng)用對模型訓(xùn)練速度的要求。通過 NVIDIA Nsight Systems 性能分析工具進(jìn)行性能瓶頸分析,并在此基礎(chǔ)上,針對 gather、dropout、softmax、scale、layernorm 等算子進(jìn)行優(yōu)化。

客戶簡介及應(yīng)用背景

vivo 是一家以設(shè)計(jì)驅(qū)動(dòng)創(chuàng)造偉大產(chǎn)品,以智能終端和智慧服務(wù)為核心的科技公司。自 2017 年開始,vivo 不斷地思考著如何通過 AI 技術(shù)能力,為全球超過 4 億的用戶提供更好的智能服務(wù)?;诖嗽妇埃瑅ivo 打造了針對消費(fèi)互聯(lián)網(wǎng)場景的 1001 個(gè) AI 便利。其中,vivo AI 團(tuán)隊(duì)研發(fā)了面向自然語言理解任務(wù)的文本預(yù)訓(xùn)練模型 3MP-Text。在中文語言理解測評基準(zhǔn) CLUE 榜單上,3MP-Text 1 億參數(shù)模型效果排名同規(guī)模第一,7 億參數(shù)模型排名總榜第十(不包括人類);在 vivo 內(nèi)部的多個(gè)應(yīng)用場景如內(nèi)容理解、輿情分析、語音助手上測試,3MP-Text 1 億模型效果明顯優(yōu)于同規(guī)模開源模型,展現(xiàn)出優(yōu)秀的中文語言理解能力,具有良好的應(yīng)用價(jià)值。

b2d82c3e-fb51-11ed-90ce-dac502259ad0.png

此圖片來源于 vivo

*如果您有任何疑問或需要使用此圖片,請聯(lián)系 vivo

客戶挑戰(zhàn)

為提升預(yù)訓(xùn)練模型的效果,往往需要對模型的結(jié)構(gòu)做一定修改,(比如改變位置編碼的實(shí)現(xiàn)方式,改變模型的寬度和深度等)而這些修改,可能造成模型訓(xùn)練速度的下降。

3MP-Text 模型,采用 Deberta V2 的模型結(jié)構(gòu),該結(jié)構(gòu)使用相對位置編碼,相對于絕對位置編碼,效果更好,但其相對位置編碼的實(shí)現(xiàn)過程,增加了模型在注意力機(jī)制部分的計(jì)算量,從而降低了模型的訓(xùn)練速度。如圖 1 所示,在 NVIDIA GPU 單卡測試中,含有相對位置編碼的注意力機(jī)制的計(jì)算耗時(shí)占了單次迭代耗時(shí)的 71.5%。

另一方面,已有的研究和實(shí)踐驗(yàn)證顯示,相同參數(shù)規(guī)模下,減小模型隱層維度,增加模型層數(shù),能提升效果(效果對比見圖 2),因此,3MP-Text 模型采用了這種 DeepNarrow 的結(jié)構(gòu)。

b3275912-fb51-11ed-90ce-dac502259ad0.png

圖 1. Deberta V2 xlarge 模型在 NVIDIA GPU 單卡上,batch size = 20 時(shí)一次迭代的 nsys timeline。單次迭代耗時(shí) 965ms,含有相對位置編碼的注意力機(jī)制(DisentangledSelfAttention)前后向計(jì)算耗時(shí) 690ms,占比 71.5%。

b378d1d4-fb51-11ed-90ce-dac502259ad0.png

圖 2. 實(shí)際驗(yàn)證的數(shù)據(jù)表格

以上兩點(diǎn)修改,使得 3MP-Text 模型,相比同參數(shù)規(guī)模的 BERT 模型,訓(xùn)練時(shí)間多 60%,訓(xùn)練成本相應(yīng)增加,對模型在實(shí)際業(yè)務(wù)場景的應(yīng)用,造成一定障礙。比如,采用領(lǐng)域預(yù)訓(xùn)練的方法,提升 3MP-Text 模型在手機(jī)輿情領(lǐng)域任務(wù)上的整體表現(xiàn),由于模型訓(xùn)練時(shí)間比 BERT 長 60%,采用該模型會使業(yè)務(wù)功能的上線時(shí)間明顯延遲,從而影響了正常迭代優(yōu)化。

應(yīng)用方案

本案例將以 NVIDIA GPU 單卡訓(xùn)練情況為例,展開介紹 NVIDIA 所進(jìn)行的算子優(yōu)化。

如上文提到,含有相對位置編碼的注意力機(jī)制計(jì)算耗時(shí)占比達(dá) 71.5%,因此,NVIDIA 團(tuán)隊(duì)優(yōu)先對該模塊進(jìn)行了優(yōu)化,其中包括 gather 算子、dropout 算子、softmax 算子和 scale 算子的優(yōu)化。

Gather 算子優(yōu)化:

對于 gather 操作本身,在 cuda kernel 實(shí)現(xiàn)方面,采用了 float4/half4 等數(shù)據(jù)類型進(jìn)行向量化讀寫(一次讀寫 4 個(gè) float 或 4 個(gè) half 元素),并且利用 shared memory 確保合并訪問,從而優(yōu)化 gather(前向)/ scatter(反向)cuda kernels。

除了 gather 本身的優(yōu)化外,如圖 3 所示的 pytorch 代碼中看到,有不少 elementwise 的操作(紅框所示)可以通過 kernel 融合(kernel fusion)的優(yōu)化手段,把它們都融合到一個(gè) cuda kernel(藍(lán)框所示)中,從而提升性能。如圖 4 所示,在進(jìn)行 kernel 融合前,完成相應(yīng)計(jì)算需要 9 個(gè) cuda kernels,kernel 融合后,只需要 4 個(gè) cuda kernels。

綜合 gather kernel 優(yōu)化和 kernel 融合優(yōu)化,該模塊性能提升 3.3 倍。

b3a89964-fb51-11ed-90ce-dac502259ad0.png

圖 3. gather 及相關(guān)操作的 pytorch 源碼。紅框?yàn)?gather 操作上下游的 elementwise 操作。藍(lán)框示意進(jìn)行 kernel 融合后,對應(yīng) cuda kernel 所執(zhí)行的全部操作。

b3d8f730-fb51-11ed-90ce-dac502259ad0.png

圖 4. gather 及相關(guān)操作優(yōu)化 nsys timeline 對比。(a) 優(yōu)化前,前向 (fw) 6 個(gè) cuda kernels 耗時(shí) 2.6ms,反向 (bw) 3 個(gè)cuda kernels 耗時(shí) 3.6 ms;(b)優(yōu)化后,前向 (fw) 2 個(gè) cuda kernels 耗時(shí) 0.88ms,反向 (bw) 2 個(gè) cuda kernels 耗時(shí) 0.99ms。優(yōu)化后加速比 3.3x。

Dropout 算子優(yōu)化:

在 debertaV2 中會使用 StableDropout,如果仔細(xì)對比 pytorch 代碼,會發(fā)現(xiàn)其計(jì)算公式絕大部分情況下可以簡化為:

  • Step 1. rand_data = torch.rand_like(input)

  • Step 2. x.bernoulli_(1 - dropout) == rand_data < (1 - dropout)

  • Step 3. mask = (1 - torch.empty_like(input).bernoulli_(1 - dropout)).to(torch.bool)

  • Step 4. input.masked_fill(mask, 0) * (1.0 / (1 - dropout))

顯然上述操作涉及大量的 elementwise 的操作,因此把 step 2~4 融合到一個(gè)獨(dú)立的 cuda kernel 中,同時(shí)再次采用了 float4/half4 等數(shù)據(jù)類型進(jìn)行向量化讀寫來優(yōu)化 cuda kernel。

如圖 5 所示,在進(jìn)行 kernel 融合前,完成相應(yīng)計(jì)算需要 9 個(gè) cuda kernels,kernel 融合后,只需要 3 個(gè) cuda kernels。

綜合 dropout kernel 優(yōu)化和 kernel 融合優(yōu)化,該模塊性能提升 4.5 倍。

b3fe5020-fb51-11ed-90ce-dac502259ad0.png

圖 5. dropout 及相關(guān)操作優(yōu)化 nsys timeline 對比。(a) 優(yōu)化前,前向 (fw) 6 個(gè) cuda kernels 耗時(shí) 3.4ms,反向 (bw) 3 個(gè) cuda kernels 耗時(shí) 1.9 ms;(b)優(yōu)化后,前向 (fw) 2 個(gè) cuda kernels 耗時(shí) 0.82ms,反向 (bw) 1 個(gè) cuda kernels 耗時(shí) 0.37ms。優(yōu)化后加速比 4.5x。

Softmax 算子優(yōu)化:

與 dropout 類似,根據(jù)源碼對 Softmax 算子的計(jì)算步驟進(jìn)行如下劃分:

  • Step 1. rmask = ~(mask.to(torch.bool))

  • Step 2. output = input.masked_fill(rmask, torch.tensor(torch.finfo(input.dtype).min))

  • Step 3. output = torch.softmax(output, self.dim)

  • Step 4. output.masked_fill_(rmask, 0)

把 step 1~4 融合到一個(gè)獨(dú)立的 cuda kernel 中。由于 softmax 計(jì)算中涉及 cuda 線程之間的同步操作,當(dāng)采用 float4/half4 等數(shù)據(jù)類型進(jìn)行向量化讀寫時(shí),也減少了參與同步的 cuda 線程數(shù)目,從而減少了同步的開銷。此外,NVIDIA 團(tuán)隊(duì)也利用寄存器數(shù)組來緩存數(shù)據(jù),避免了多次從全局內(nèi)存中讀取數(shù)據(jù)。

在 softmax 優(yōu)化中,只優(yōu)化了其前向,沿用了原有的反向?qū)崿F(xiàn)。如圖 6 所示,經(jīng)過優(yōu)化后,該模塊前向性能提升 4 倍。

b422b6cc-fb51-11ed-90ce-dac502259ad0.png

圖 6. softmax 及相關(guān)操作優(yōu)化 nsys timeline 對比。(a) 優(yōu)化前,前向 (fw) 6 個(gè) cuda kernels 耗時(shí) 2.1ms;(b)優(yōu)化后,前向 (fw) 1 個(gè) cuda kernels 耗時(shí) 0.5ms。優(yōu)化后加速比 4x。

Scale 算子優(yōu)化:

如圖 7 所示,在 attention 部分,計(jì)算 attention score 時(shí)會有一個(gè)除以 scale 的操作,這個(gè)除法操作其實(shí)可以很容易通過 cublas 的 API 融合 到矩陣乘法之中,因此,直接調(diào)用 cublasGemmStridedBatchedEx() API,實(shí)現(xiàn)了一個(gè)融合 gemm + scale 的 torch op。取得了 1.9x 的加速比(優(yōu)化前 1.42 ms,優(yōu)化后 0.75 ms)。

b451bf9e-fb51-11ed-90ce-dac502259ad0.png

圖 7. Attention 部分,scale 操作相關(guān)源碼。

Layernorm 算子優(yōu)化:

除了上述提到算子外,還通過改造 apex 中的 layer_norm 模塊(https://github.com/NVIDIA/apex/tree/master/apex/contrib/csrc/layer_norm),以便在 hidden dim=512 情況下,優(yōu)化 layernorm 算子,取得了 2.4 倍的加速比(優(yōu)化前 0.53 ms,優(yōu)化后 0.22 ms)。

使用效果及影響

使用 NVIDIA 做的算子優(yōu)化,vivo 3MP-Text 模型的訓(xùn)練速度提升 60%,達(dá)到了和同規(guī)模 BERT 模型相同的速度,下游業(yè)務(wù)應(yīng)用時(shí),模型的訓(xùn)練速度不再成為瓶頸,訓(xùn)練成本進(jìn)一步降低。另外,這些算子優(yōu)化,也可以應(yīng)用到其他使用 Deberta V2 模型的場景中。

未來,vivo AI 團(tuán)隊(duì)和 NVIDIA 將在大模型分布式訓(xùn)練、推理等方面持續(xù)合作,共同推進(jìn)生成式 AI 在手機(jī)場景行業(yè)的應(yīng)用落地(如語音助手、智能創(chuàng)作、智能辦公等)和性能提升。

點(diǎn)擊 “閱讀原文”,或掃描下方海報(bào)二維碼,在 5 月 29 日觀看 NVIDIA 創(chuàng)始人兼 CEO 黃仁勛為 COMPUTEX 2023 帶來的主題演講直播,了解AI、圖形及其他領(lǐng)域的最新進(jìn)展!


原文標(biāo)題:NVIDIA AI 技術(shù)助力 vivo 文本預(yù)訓(xùn)練大模型性能提升

文章出處:【微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    23

    文章

    4112

    瀏覽量

    99588

原文標(biāo)題:NVIDIA AI 技術(shù)助力 vivo 文本預(yù)訓(xùn)練大模型性能提升

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    AI模型微調(diào)企業(yè)項(xiàng)目實(shí)戰(zhàn)課

    從零開始預(yù)訓(xùn)練。事實(shí)上,微調(diào)技術(shù)的成熟,徹底打破了這一門檻。 微調(diào)的本質(zhì),是“舉一反三”的遷移學(xué)習(xí)。就好比一個(gè)已經(jīng)大學(xué)畢業(yè)的通用人才(基礎(chǔ)大模型),只需在企業(yè)內(nèi)部經(jīng)過幾個(gè)月的崗前培訓(xùn)(
    發(fā)表于 04-16 18:48

    NVIDIA 成立由全球領(lǐng)先 AI 實(shí)驗(yàn)室組成的 Nemotron Coalition,推動(dòng)開放前沿模型發(fā)展

    在內(nèi)的領(lǐng)先創(chuàng)新者皆是創(chuàng)始成員,助力塑造新一代 AI 系統(tǒng)。 ● 聯(lián)盟成員將協(xié)作開發(fā)一款基于 NVIDIA DGX? Cloud 訓(xùn)練的開放模型
    的頭像 發(fā)表于 03-17 11:14 ?270次閱讀
    <b class='flag-5'>NVIDIA</b> 成立由全球領(lǐng)先 <b class='flag-5'>AI</b> 實(shí)驗(yàn)室組成的 Nemotron Coalition,推動(dòng)開放前沿<b class='flag-5'>模型</b>發(fā)展

    NVIDIA推出代理式AI藍(lán)圖與電信推理模型

    借助全新開源大型電信模型NVIDIA Blueprint,電信運(yùn)營商能夠利用自有數(shù)據(jù)訓(xùn)練 AI 智能體,構(gòu)建自主網(wǎng)絡(luò)。
    的頭像 發(fā)表于 03-06 17:37 ?3028次閱讀

    NVIDIA推出面向語言、機(jī)器人和生物學(xué)的全新開源AI技術(shù)

    NVIDIA 秉持對開源的長期承諾,推出了面向語言、機(jī)器人和生物學(xué)的全新開源 AI 技術(shù),為構(gòu)建開源生態(tài)系統(tǒng)做出貢獻(xiàn),擴(kuò)展 AI 的普及并推動(dòng)創(chuàng)新。
    的頭像 發(fā)表于 11-06 11:49 ?1234次閱讀

    借助NVIDIA Megatron-Core大模型訓(xùn)練框架提高顯存使用效率

    隨著模型規(guī)模邁入百億、千億甚至萬億參數(shù)級別,如何在有限顯存中“塞下”訓(xùn)練任務(wù),對研發(fā)和運(yùn)維團(tuán)隊(duì)都是巨大挑戰(zhàn)。NVIDIA Megatron-Core 作為流行的大模型
    的頭像 發(fā)表于 10-21 10:55 ?1361次閱讀
    借助<b class='flag-5'>NVIDIA</b> Megatron-Core大<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>框架提高顯存使用效率

    借助NVIDIA Cosmos模型提升機(jī)器人訓(xùn)練效率

    隨著物理 AI 系統(tǒng)的不斷發(fā)展,對豐富標(biāo)記數(shù)據(jù)集的需求正在急速增長,已經(jīng)超出了在現(xiàn)實(shí)世界中通過人工采集所能滿足的范圍。世界基礎(chǔ)模型(WFMs)是經(jīng)過訓(xùn)練的生成式 AI
    的頭像 發(fā)表于 09-23 15:30 ?1177次閱讀
    借助<b class='flag-5'>NVIDIA</b> Cosmos<b class='flag-5'>模型</b><b class='flag-5'>提升</b>機(jī)器人<b class='flag-5'>訓(xùn)練</b>效率

    使用NVIDIA NVLink Fusion技術(shù)提升AI推理性能

    本文詳細(xì)闡述了 NVIDIA NVLink Fusion 如何借助高效可擴(kuò)展的 NVIDIA NVLink scale-up 架構(gòu)技術(shù),滿足日益復(fù)雜的 AI
    的頭像 發(fā)表于 09-23 14:45 ?1082次閱讀
    使用<b class='flag-5'>NVIDIA</b> NVLink Fusion<b class='flag-5'>技術(shù)</b><b class='flag-5'>提升</b><b class='flag-5'>AI</b>推理<b class='flag-5'>性能</b>

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片到AGI芯片

    和探索;人類級別的理解能力;常識推理;現(xiàn)實(shí)世界的知識整合。 3、測試時(shí)計(jì)算 測試時(shí)計(jì)算(TTC)是指在模型推理階段利用額外的計(jì)算資源來提升泛化性能。 4、具身智能與滲透式AI 1)具身
    發(fā)表于 09-18 15:31

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI的未來:提升算力還是智力

    持續(xù)發(fā)展體現(xiàn)在: 1、收益遞減 大模型的基礎(chǔ)的需要極大的算力,這首先源于昂貴的高性能AI芯片,然后是寶貴的電力、水等與環(huán)境相關(guān)的資源。 收益遞減體現(xiàn)在: ①模型大小 ②
    發(fā)表于 09-14 14:04

    睿海光電800G光模塊助力全球AI基建升級

    18%。 智算中心建設(shè):與國內(nèi)AI獨(dú)角獸合作,提供支持液冷散熱的800G模塊集群,助力其大模型訓(xùn)練效率提升30%。 邊緣計(jì)算網(wǎng)絡(luò):在北美某5
    發(fā)表于 08-13 19:05

    睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級

    引領(lǐng)AI時(shí)代網(wǎng)絡(luò)變革:睿海光電的核心競爭力 在AI時(shí)代,數(shù)據(jù)中心正經(jīng)歷從傳統(tǒng)架構(gòu)向AI工廠與AI云的轉(zhuǎn)型。AI工廠依賴超大規(guī)模GPU集群驅(qū)動(dòng)
    發(fā)表于 08-13 19:01

    ai_cube訓(xùn)練模型最后部署失敗是什么原因?

    ai_cube訓(xùn)練模型最后部署失敗是什么原因?文件保存路徑里也沒有中文 查看AICube/AI_Cube.log,看看報(bào)什么錯(cuò)?
    發(fā)表于 07-30 08:15

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】書籍介紹+第一章讀后心得

    模型圈子,其多項(xiàng)性能超過了當(dāng)時(shí)處于領(lǐng)先地位的ChatGPT 4,也證明了不需要高昂的費(fèi)用也能訓(xùn)練出優(yōu)質(zhì)大模型。這激起了我的好奇心,借著這次機(jī)會好好閱讀一下DeepSeek的核心
    發(fā)表于 07-17 11:59

    全球各大品牌利用NVIDIA AI技術(shù)提升運(yùn)營效率

    歐萊雅、LVMH 集團(tuán)和雀巢利用 NVIDIA 加速的智能體 AI 和物理 AI,大幅提升產(chǎn)品設(shè)計(jì)、營銷及物流等方面的運(yùn)營效率。
    的頭像 發(fā)表于 06-19 14:36 ?1331次閱讀

    海思SD3403邊緣計(jì)算AI數(shù)據(jù)訓(xùn)練概述

    模型,將模型轉(zhuǎn)化為嵌入式AI模型,模型升級AI攝像機(jī),進(jìn)行
    發(fā)表于 04-28 11:11
    阿拉善左旗| 奈曼旗| 丰原市| 张家港市| 江口县| 军事| 安吉县| 福鼎市| 鱼台县| 梁平县| 荔浦县| 古蔺县| 名山县| 来凤县| 盐边县| 桂东县| 南召县| 上栗县| 赤壁市| 清丰县| 顺昌县| 厦门市| 太原市| 马边| 江孜县| 壤塘县| 宜昌市| 上饶市| 东港市| 科技| 浦北县| 东山县| 伊金霍洛旗| 绍兴市| 太仆寺旗| 长治县| 澄迈县| 青冈县| 平罗县| 通城县| 彰化市|