哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Facebook發(fā)布全卷積神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別模型,開(kāi)源語(yǔ)音處理深度學(xué)習(xí)工具包

nlfO_thejiangme ? 來(lái)源:lq ? 2018-12-26 09:02 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

語(yǔ)音識(shí)別領(lǐng)域先進(jìn)的神經(jīng)網(wǎng)絡(luò)一般使用rnn來(lái)構(gòu)建聲學(xué)或者語(yǔ)言模型,并基于特征抽取的方式來(lái)進(jìn)行抽取梅爾濾波器特征或者倒譜系數(shù)。但在最近的研究工作中,F(xiàn)acebook的研究人員提出了完全基于卷積神經(jīng)網(wǎng)絡(luò)的全卷積語(yǔ)音識(shí)別模型,充分利用了在聲學(xué)模型和語(yǔ)言模型方面的最新進(jìn)展。這一全卷積神經(jīng)網(wǎng)絡(luò)通過(guò)端到端的訓(xùn)練可以直接從原始波形預(yù)測(cè)出語(yǔ)言字符,移除了特征抽取的過(guò)程。同時(shí)利用一個(gè)外部的卷積語(yǔ)言模型來(lái)進(jìn)行單詞解碼。這一模型在多個(gè)數(shù)據(jù)集上都取得了優(yōu)異的表現(xiàn)。

模型

整個(gè)模型由四部分組成,分別是卷積前端、聲學(xué)模型、語(yǔ)言模型和集束搜索的解碼器(Beam-search)組成,如下圖所示。

在可學(xué)習(xí)的前端中,原始音頻首先輸入到一個(gè)寬度為2的卷積中,用于模仿梅爾濾波器特征中的前處理步驟。隨后應(yīng)用了寬度為25ms的k復(fù)卷積濾波器。隨后利用平方取絕對(duì)值并通過(guò)低通濾波器,其寬度為25ms步長(zhǎng)為10ms。最后利用對(duì)數(shù)壓縮,并對(duì)每個(gè)通道進(jìn)行了均方歸一化。緊隨其后的是聲學(xué)模型,包含了線性門(mén)的卷積神經(jīng)網(wǎng)絡(luò),同時(shí)使用了dropout來(lái)實(shí)現(xiàn)正則化。這一模型的目的在于直接預(yù)測(cè)出字母。在隨后的語(yǔ)言模型中,研究人員利用了GCNN-14B,其中包含了14個(gè)卷積殘差模塊和逐漸增長(zhǎng)的通道數(shù),并利用了線性門(mén)控單元作為激活函數(shù)。語(yǔ)言模型的主要目的在于為備選的句子輸出打分,這一模型允許更大的上下文。最后,基于集束搜索的解碼器用于生成最合適的句子輸出。

其工作的過(guò)程在于最大化上面的表達(dá)式。

工具

這一模型的實(shí)現(xiàn)使用了Facebook最新開(kāi)源的兩個(gè)工具:其中使用了wav2letter建立聲學(xué)模型,fairseq建立了語(yǔ)言模型。

fairseq 原理圖

同時(shí)推出的升級(jí)版深度學(xué)習(xí)自動(dòng)語(yǔ)音識(shí)別工具框架wav2letter++,在之前wav2letter的基礎(chǔ)上進(jìn)行和很多的改進(jìn)和優(yōu)化。

wav2letter++ 工具包架構(gòu)

這一版的工具箱由C++實(shí)現(xiàn),并利用了ArrayFire張量庫(kù)來(lái)提高了運(yùn)算效率。研究團(tuán)隊(duì)表示,在某些情況下wav2letter++在訓(xùn)練端到端的語(yǔ)音識(shí)別神經(jīng)網(wǎng)絡(luò)時(shí)將提速2倍。

wav2letter++ 與其他語(yǔ)言工具的性能比較

端到端的語(yǔ)音識(shí)別使得其在多語(yǔ)言上的大規(guī)模應(yīng)用變得可行。同時(shí)直接從原始音頻上進(jìn)行學(xué)習(xí)可以充分發(fā)揮高質(zhì)量音頻的效果。端到端的算法加上高效的工具框架,將有效促進(jìn)這一領(lǐng)域的研究,希望全卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別和wav2letter工具為小伙伴們的研究帶來(lái)新的幫助。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:新模型、新工具,F(xiàn)acebook在語(yǔ)音識(shí)別領(lǐng)域的新動(dòng)作!

文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門(mén)創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    卷積神經(jīng)網(wǎng)絡(luò)如何讓自動(dòng)駕駛識(shí)別障礙物?

    自動(dòng)駕駛的發(fā)展過(guò)程中,感知系統(tǒng)一直承擔(dān)車(chē)輛“眼睛”的角色,其核心任務(wù)是讓計(jì)算機(jī)理解復(fù)雜多變的物理世界。卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為一種專門(mén)用于處理圖像和視頻等網(wǎng)格狀數(shù)據(jù)結(jié)構(gòu)的深度
    的頭像 發(fā)表于 04-11 09:59 ?1453次閱讀
    <b class='flag-5'>卷積</b><b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>如何讓自動(dòng)駕駛<b class='flag-5'>識(shí)別</b>障礙物?

    面向嵌入式部署的神經(jīng)網(wǎng)絡(luò)優(yōu)化:模型壓縮深度解析

    1.為什么需要神經(jīng)網(wǎng)絡(luò)模型壓縮? 神經(jīng)網(wǎng)絡(luò)已經(jīng)成為解決復(fù)雜機(jī)器學(xué)習(xí)問(wèn)題的強(qiáng)大工具。然而,這種能力往往伴隨著
    的頭像 發(fā)表于 02-24 15:37 ?5452次閱讀
    面向嵌入式部署的<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>優(yōu)化:<b class='flag-5'>模型</b>壓縮<b class='flag-5'>深度</b>解析

    【新品發(fā)布】艾為重磅發(fā)布端側(cè)AI高性能NPU語(yǔ)音芯片,打造智能語(yǔ)音體驗(yàn)新標(biāo)桿

    數(shù)模龍頭艾為電子全新推出高性能NPU神經(jīng)網(wǎng)絡(luò)智能語(yǔ)音處理芯片:AWA89601,集成音頻專用NPU(神經(jīng)網(wǎng)絡(luò)處理器),通過(guò)聲音
    的頭像 發(fā)表于 01-07 18:33 ?544次閱讀
    【新品<b class='flag-5'>發(fā)布</b>】艾為重磅<b class='flag-5'>發(fā)布</b>端側(cè)AI高性能NPU<b class='flag-5'>語(yǔ)音</b>芯片,打造智能<b class='flag-5'>語(yǔ)音</b>體驗(yàn)新標(biāo)桿

    神經(jīng)網(wǎng)絡(luò)的初步認(rèn)識(shí)

    日常生活中的智能應(yīng)用都離不開(kāi)深度學(xué)習(xí),而深度學(xué)習(xí)則依賴于神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)。什么是神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 12-17 15:05 ?460次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的初步認(rèn)識(shí)

    自動(dòng)駕駛中常提的卷積神經(jīng)網(wǎng)絡(luò)是個(gè)啥?

    在自動(dòng)駕駛領(lǐng)域,經(jīng)常會(huì)聽(tīng)到卷積神經(jīng)網(wǎng)絡(luò)技術(shù)。卷積神經(jīng)網(wǎng)絡(luò),簡(jiǎn)稱為CNN,是一種專門(mén)用來(lái)處理網(wǎng)格狀數(shù)據(jù)(比如圖像)的
    的頭像 發(fā)表于 11-19 18:15 ?2247次閱讀
    自動(dòng)駕駛中常提的<b class='flag-5'>卷積</b><b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>是個(gè)啥?

    CNN卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)原理及在MCU200T上仿真測(cè)試

    CNN算法簡(jiǎn)介 我們硬件加速器的模型為L(zhǎng)enet-5的變型,網(wǎng)絡(luò)粗略分共有7層,細(xì)分共有13層。包括卷積,最大池化層,激活層,扁平層,連接層。下面是各層作用介紹:
    發(fā)表于 10-29 07:49

    NMSIS神經(jīng)網(wǎng)絡(luò)庫(kù)使用介紹

    :   神經(jīng)網(wǎng)絡(luò)卷積函數(shù)   神經(jīng)網(wǎng)絡(luò)激活函數(shù)   連接層函數(shù)   神經(jīng)網(wǎng)絡(luò)池化函數(shù)   Softmax 函數(shù)   
    發(fā)表于 10-29 06:08

    構(gòu)建CNN網(wǎng)絡(luò)模型并優(yōu)化的一般化建議

    :Dropout層隨機(jī)跳過(guò)神經(jīng)網(wǎng)絡(luò)模型中某些神經(jīng)元之間的連接,通過(guò)隨機(jī)制造缺陷進(jìn)行訓(xùn)練提升整個(gè)神經(jīng)網(wǎng)絡(luò)的魯棒性。 6)指定合理的學(xué)習(xí)率策
    發(fā)表于 10-28 08:02

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)

    模型。 我們使用MNIST數(shù)據(jù)集,訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型,用于手寫(xiě)數(shù)字識(shí)別。一旦模型
    發(fā)表于 10-22 07:03

    CICC2033神經(jīng)網(wǎng)絡(luò)部署相關(guān)操作

    讀取。接下來(lái)需要使用擴(kuò)展指令,完成神經(jīng)網(wǎng)絡(luò)的部署,此處僅對(duì)第一層卷積+池化的部署進(jìn)行說(shuō)明,其余層與之類似。 1.使用 Custom_Dtrans 指令,將權(quán)重?cái)?shù)據(jù)、輸入數(shù)據(jù)導(dǎo)入硬件加速器內(nèi)。對(duì)于權(quán)重
    發(fā)表于 10-20 08:00

    如何在機(jī)器視覺(jué)中部署深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

    圖 1:基于深度學(xué)習(xí)的目標(biāo)檢測(cè)可定位已訓(xùn)練的目標(biāo)類別,并通過(guò)矩形框(邊界框)對(duì)其進(jìn)行標(biāo)識(shí)。 在討論人工智能(AI)或深度學(xué)習(xí)時(shí),經(jīng)常會(huì)出現(xiàn)“神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 09-10 17:38 ?1049次閱讀
    如何在機(jī)器視覺(jué)中部署<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>

    基于開(kāi)源鴻蒙的語(yǔ)音識(shí)別語(yǔ)音合成應(yīng)用開(kāi)發(fā)樣例

    本期內(nèi)容由AI Model SIG提供,介紹了在開(kāi)源鴻蒙中,利用sherpa_onnx開(kāi)源三方庫(kù)進(jìn)行ASR語(yǔ)音識(shí)別與TTS語(yǔ)音合成應(yīng)用開(kāi)發(fā)的
    的頭像 發(fā)表于 08-25 14:26 ?4447次閱讀
    基于<b class='flag-5'>開(kāi)源</b>鴻蒙的<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b>及<b class='flag-5'>語(yǔ)音</b>合成應(yīng)用開(kāi)發(fā)樣例

    廣和通發(fā)布自研端側(cè)語(yǔ)音識(shí)別模型FiboASR

    7月,全球領(lǐng)先的無(wú)線通信模組及AI解決方案提供商廣和通,發(fā)布其自主研發(fā)的語(yǔ)音識(shí)別模型FiboASR。該模型專為端側(cè)設(shè)備上面臨的面對(duì)面實(shí)時(shí)對(duì)
    的頭像 發(fā)表于 08-04 11:43 ?1769次閱讀

    明遠(yuǎn)智睿SSD2351開(kāi)發(fā)板:語(yǔ)音機(jī)器人領(lǐng)域的變革力量

    。 開(kāi)發(fā)板支持浮點(diǎn)運(yùn)算,這對(duì)于語(yǔ)音信號(hào)處理中的精確計(jì)算至關(guān)重要。在語(yǔ)音識(shí)別過(guò)程中,需要對(duì)語(yǔ)音信號(hào)的頻率、幅度等參數(shù)進(jìn)行精確計(jì)算和分析,浮點(diǎn)運(yùn)
    發(fā)表于 05-28 11:36

    AI神經(jīng)網(wǎng)絡(luò)降噪算法在語(yǔ)音通話產(chǎn)品中的應(yīng)用優(yōu)勢(shì)與前景分析

    隨著人工智能技術(shù)的快速發(fā)展,AI神經(jīng)網(wǎng)絡(luò)降噪算法在語(yǔ)音通話產(chǎn)品中的應(yīng)用正逐步取代傳統(tǒng)降噪技術(shù),成為提升語(yǔ)音質(zhì)量的關(guān)鍵解決方案。相比傳統(tǒng)DSP(數(shù)字信號(hào)處理)降噪,AI降噪具有更強(qiáng)的環(huán)境
    的頭像 發(fā)表于 05-16 17:07 ?1884次閱讀
    AI<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>降噪算法在<b class='flag-5'>語(yǔ)音</b>通話產(chǎn)品中的應(yīng)用優(yōu)勢(shì)與前景分析
    维西| 石棉县| 阳曲县| 安溪县| 巨野县| 含山县| 慈溪市| 苏尼特右旗| 壤塘县| 菏泽市| 洞头县| 青铜峡市| 资阳市| 余江县| 大城县| 临潭县| 商城县| 朝阳市| 西昌市| 松江区| 彭山县| 吉林市| 潼南县| 卢龙县| 临清市| 琼中| 罗田县| 青铜峡市| 新泰市| 华池县| 衢州市| 邛崃市| 和田市| 营口市| 伊川县| 望谟县| 车致| 东乡县| 绥江县| 香港| 桦川县|