哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于語音識別類產(chǎn)品細(xì)分及其應(yīng)用場景分析

訊飛開放平臺 ? 來源:djl ? 作者:焦糖瑪奇朵 ? 2019-09-27 14:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

你的童年是否也曾這樣對著大門發(fā)出命令?

當(dāng)然,大門用靜止表示對你的“忽視”。樂此不疲的孩子還是會時不時對著門喊上幾句,我們的潛意識是希望得到門有所回應(yīng),比如:門開了。

命令失效的原因是什么?因?yàn)榇箝T本身不具備聽到聲音的能力,如果我們能讓大門可以聽到你說的話、發(fā)出的命令,進(jìn)一步才可以啟動語義和執(zhí)行系統(tǒng)控制它的開關(guān)。

這就引申到本次重點(diǎn)介紹的技術(shù)——語音識別。本次干貨分享由語音識別產(chǎn)品經(jīng)理:@ 焦糖瑪奇朵進(jìn)行提供。希望能為大家打開語音識別的大門。

語音識別是一項(xiàng)將人類的聲音信號轉(zhuǎn)化為文字的過程。本文將從產(chǎn)品的角度對業(yè)界的語音識別產(chǎn)品進(jìn)行歸類和說明。不同的產(chǎn)品類型具有不同的算法或者接口特性,對應(yīng)不同的需求場景。

根據(jù)識別內(nèi)容的范圍,語音識別的大類分列如下

1、封閉域識別:

識別范圍為預(yù)先指定的字/詞集合,即算法只在開發(fā)者預(yù)先設(shè)定的封閉域識別詞的集合內(nèi)進(jìn)行語音識別,對范圍之外的語音會進(jìn)行拒識。因此,可以將其聲學(xué)模型和語言模型進(jìn)行裁剪,使得識別引擎的運(yùn)算量也較小。并且可將引擎封到嵌入式芯片或者本地化的SDK中,從而使識別過程完全脫離云端,擺脫對網(wǎng)絡(luò)的依賴,并且不會影響識別率。業(yè)界廠商提供的引擎部署方式包括云端和本地化(如:芯片,模塊和純軟件SDK)。

產(chǎn)品類型:命令字/詞識別,語音喚醒,語法識別

產(chǎn)品形態(tài):流式傳輸-同步獲取

典型的應(yīng)用場景:不涉及到多輪交互和多種語義說法的場景,如簡單指令交互的智能家居和電視盒子,語音控制指令一般只有:“打開窗簾”,“打開中央臺”等,但是一旦涉及到程序猿大大們在后臺配置識別詞集合之外的命令,如“給小編這篇文章來個打賞”,識別系統(tǒng)將拒識這段語音,不會返回相應(yīng)的文字結(jié)果,更不會做相應(yīng)的回復(fù)或者指令動作。

2、開放域識別:

無需預(yù)先指定識別詞集合,算法將在整個語言大集合范圍中進(jìn)行識別。為適應(yīng)此類場景,聲學(xué)模型和語音模型一般都比較大,引擎運(yùn)算量也較大。將其封裝到嵌入式芯片或者本地化的SDK中,耗能較高并且影響識別效果。業(yè)界廠商基本上都以云端形式提供,云端包括公有云形式和私有云形式。本地化形式只有帶服務(wù)器級別計(jì)算能力的嵌入式系統(tǒng),如會議字幕系統(tǒng)。

產(chǎn)品類型按照說話風(fēng)格的特點(diǎn),分為:

(1)語音聽寫:語音時長較短(<1min),一般情況下均為一句話。訓(xùn)練語料為朗讀風(fēng)格,語速較為平均。一般為人機(jī)對話場景,錄音質(zhì)量較好。

按照音頻錄入和結(jié)果獲取方式定義產(chǎn)品形態(tài):

(a)流式上傳-同步獲取,應(yīng)用/軟件會對說話人的語音進(jìn)行自動錄制并將其連續(xù)上傳至云端,說話人在說完話的同時能實(shí)時地看到返回的文字。語音云服務(wù)廠商的產(chǎn)品接口中會提供音頻錄制接口和格式編碼算法,供客戶端進(jìn)行邊錄制邊上傳,并與云端建立長連接,同步監(jiān)聽并獲取識別結(jié)果。

(b)已錄制音頻文件上傳-同步獲取,用戶需自行預(yù)先錄制好規(guī)定格式的音頻,并使用語音云服務(wù)廠商提供的接口進(jìn)行音頻上傳,客戶端與云端的連接和結(jié)果獲取方式與上述音頻流類似。

典型應(yīng)用場景:應(yīng)用發(fā)展已經(jīng)比較成熟:主要在輸入場景,如輸入法;與麥克風(fēng)陣列和語義結(jié)合的人機(jī)交互場景,如具備更自然交互形態(tài)的智能音響,如“叮咚叮咚,轉(zhuǎn)發(fā)小編這篇文章?!保跓o配置的情況下,識別系統(tǒng)也能夠識別這段語音,返回相應(yīng)的文字結(jié)果。

(2)語音轉(zhuǎn)寫:語音時長一般較長(五小時內(nèi)),句子較多。訓(xùn)練語料為交談風(fēng)格,即說話人說話無組織性比較強(qiáng),因此語速較不平均,吞字&連字現(xiàn)象較多。錄音大多為遠(yuǎn)場或帶噪的。

除了模型不同之外,按照音頻錄入和結(jié)果獲取方式定義產(chǎn)品形態(tài):

(a)音頻流轉(zhuǎn)寫:流式上傳-同步獲取,與上述語音聽寫類似,唯一不同的是,識別的時長不會有一句話的限制。

(b)非實(shí)時已錄制音頻轉(zhuǎn)寫:已錄制音頻文件上傳-異步獲取,用戶需自行調(diào)用軟件接口或者是硬件平臺預(yù)先錄制好規(guī)定格式的音頻,并使用語音云服務(wù)廠商提供的接口進(jìn)行音頻上傳,上傳完成之后便可以斷掉連接。用戶通過輪詢語音云服務(wù)器或者使用回調(diào)接口進(jìn)行結(jié)果獲取。

由于長語音的計(jì)算量較大,計(jì)算時間較長,因此采取異步獲取的方式可以避免由于網(wǎng)絡(luò)問題帶來的結(jié)果丟失。也因?yàn)檎Z音轉(zhuǎn)寫系統(tǒng)通常是非實(shí)時處理的,這種工程形態(tài)也給了識別算法更多的時間進(jìn)行多遍解碼。而長時的語料,也給了算法使用更長時的信息進(jìn)行長短期記憶網(wǎng)絡(luò)建模。在同樣的輸入音頻下,此類型產(chǎn)品形態(tài)犧牲了一部分實(shí)時率,花費(fèi)了更高的資源消耗,但是卻可以得到最高的識別率。在時間允許的使用場景下,非實(shí)時已錄制音頻轉(zhuǎn)寫無疑是最推薦的產(chǎn)品形態(tài)!

典型應(yīng)用場景:如字幕配置,客服語音質(zhì)檢,UGC語音內(nèi)容審查

概念厘清

1、離線VS在線

在訊飛開放平臺的產(chǎn)品定義和較多的客戶認(rèn)知中,離/在線的區(qū)別在于識別過程是否需要通過云端請求,即識別引擎是在云端還是本地。而云計(jì)算中的離/在線產(chǎn)品的引擎都處在云端,區(qū)別在于在計(jì)算過程中,客戶端是否需要與云端進(jìn)行實(shí)時數(shù)據(jù)交互,即上述所述的音頻流和非實(shí)時已錄制音頻轉(zhuǎn)寫。兩者的定義有沖突,因此并不建議使用離/在線概念進(jìn)行相關(guān)產(chǎn)品定義。

2、8K VS 16Khz采樣率語音模型

在眾多語音云服務(wù)廠商中,會根據(jù)音頻采樣率進(jìn)行分類,從而訓(xùn)練出更適合各類采樣率的語音模型,最典型的為8K和16K模型。原始音頻信息保留越多越有利于識別率的提升,因此,16K音頻采用16K語音模型,其識別率會普遍高于8K音頻采用8K模型。

3、語音識別VS語義識別

語音識別是語義識別的前提基礎(chǔ)。語音識別將聲音轉(zhuǎn)化成文字,語義識別提取文字中的相關(guān)信息和相應(yīng)意圖,通過執(zhí)行模塊進(jìn)行相應(yīng)的問題回復(fù)或者反饋動作。

結(jié)語:

最后舉一個栗子作為收尾:“叮咚叮咚,給小編這篇文章點(diǎn)個贊唄?!?,在無后臺配置的情況下,封閉域的語音識別系統(tǒng)會拒識這段語音,開放域的識別系統(tǒng)卻能夠識別這段語音,返回相應(yīng)的文字結(jié)果。而現(xiàn)階段的開放域語義系統(tǒng)在大概率情況下,還是會回復(fù)得比較生硬,并且也不會自動識別出相應(yīng)的意圖并做出指令。按照現(xiàn)有的比較通用的方法,這個功能需要使用封閉域的語義識別在后臺預(yù)先配置相關(guān)答案,并且根據(jù)預(yù)先配置的信息抽取意圖,再根據(jù)意圖類別和槽位信息執(zhí)行相應(yīng)的動作——即調(diào)用微信的點(diǎn)贊接口(假設(shè)可以)進(jìn)行相應(yīng)的點(diǎn)贊操作。

聽起來好繞呀,是不是覺得還是自己手動點(diǎn)個贊簡單粗暴省事得多了呢?然而,一切現(xiàn)代人類做起來自然而然&毫不費(fèi)力的動作,卻都是建構(gòu)在經(jīng)過了億萬年的學(xué)習(xí)進(jìn)化,兆億次閉環(huán)重復(fù)練習(xí)的智人基因!而任何的人工智能技術(shù)也是需要一個巨量的數(shù)據(jù)訓(xùn)練和一定的演變周期。并且在所有的科技發(fā)展進(jìn)程中,率先取得突破并且在應(yīng)用領(lǐng)域產(chǎn)品成熟化往往都是在封閉域,亦如現(xiàn)在正處封閉域產(chǎn)品化的語義識別(如:AIUI,echo等),而語音識別的產(chǎn)品成熟化已經(jīng)走過了封閉域到達(dá)了開放域,正在向各行各業(yè)輸送人工智能的力量!

附圖:語音識別產(chǎn)品類別圖

關(guān)于語音識別類產(chǎn)品細(xì)分及其應(yīng)用場景分析

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語音識別
    +關(guān)注

    關(guān)注

    39

    文章

    1814

    瀏覽量

    116223
  • 云服務(wù)
    +關(guān)注

    關(guān)注

    0

    文章

    861

    瀏覽量

    41069
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    WTK6900系列離線語音識別芯片全面解析:從基礎(chǔ)識別到鼾聲哭聲檢測,一芯覆蓋多場景

    WTK6900系列離線語音識別芯片全面解析:從基礎(chǔ)識別到鼾聲哭聲檢測,一芯覆蓋多場景語音識別正在
    的頭像 發(fā)表于 03-31 11:37 ?144次閱讀
    WTK6900系列離線<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片全面解析:從基礎(chǔ)<b class='flag-5'>識別</b>到鼾聲哭聲檢測,一芯覆蓋多<b class='flag-5'>場景</b>

    語音識別IC分類,語音識別芯片的工作原理

    語音識別芯片,也叫語音識別集成電路,是一種集聲音存儲、播放、錄音及語音識別功能于一體的專用芯片。
    的頭像 發(fā)表于 01-14 15:22 ?370次閱讀
    <b class='flag-5'>語音</b><b class='flag-5'>識別</b>IC分類,<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片的工作原理

    Switch的應(yīng)用場景

    Switch的應(yīng)用場景如下: 調(diào)用一到多個函數(shù) 設(shè)置變量值或者返回一個值 執(zhí)行一到多個代碼片段 如果case標(biāo)簽很多,在switch的前兩個使用場景中,使用查找表可以更高效的完成。例如下面的兩種
    發(fā)表于 12-12 07:28

    藍(lán)牙網(wǎng)關(guān)是什么?都有哪些功能?應(yīng)用場景有哪些?

    設(shè)備協(xié)同管理:可對不同品牌、類型的藍(lán)牙設(shè)備進(jìn)行統(tǒng)一管理,支持設(shè)備接入認(rèn)證、連接狀態(tài)監(jiān)測、異常離線報警。 邊緣智能處理:部分高端產(chǎn)品集成AI算法,能本地分析數(shù)據(jù)、識別異常事件,減少云端傳輸壓力與響應(yīng)延遲
    發(fā)表于 12-11 15:21

    AI人工智能語音識別控制模塊:自定義命令詞,全維度落地應(yīng)用場景

    )。 AI人工智能語音識別控制模塊憑借“解放雙手、自然交互、精準(zhǔn)響應(yīng)”的核心優(yōu)勢,已深度滲透到消費(fèi)電子、工業(yè)生產(chǎn)、農(nóng)業(yè)農(nóng)村、公共服務(wù)等多個領(lǐng)域,尤其在需要遠(yuǎn)程操作、復(fù)雜環(huán)境作業(yè)或降低使用門檻的場景中,展現(xiàn)出極強(qiáng)的適配性。
    的頭像 發(fā)表于 12-03 16:34 ?1133次閱讀

    CW32L083有哪些應(yīng)用場景?

    CW32L083有哪些應(yīng)用場景
    發(fā)表于 11-24 07:37

    Leadway微波產(chǎn)品有哪些應(yīng)用場景?

    。Leadway微波產(chǎn)品的應(yīng)用場景如下:5G/6G通信測試毫米波基站與終端設(shè)備測試:Leadway的測試級柔性/鎧裝毫米波線纜(DC-110GHz)支持高頻段信號傳輸與校準(zhǔn),確保通信質(zhì)量。其低插損特性
    發(fā)表于 09-26 09:14

    廣州唯創(chuàng)電子常用語音芯片全解析:賦能智能語音交互的多場景應(yīng)用

    芯片型號及其特點(diǎn)。一、OTP語音芯片:低成本高穩(wěn)定,適合固化語音場景典型型號:WTN6系列此類芯片為一次性可編程語音芯片,適用于語音內(nèi)容固定
    的頭像 發(fā)表于 08-28 08:41 ?996次閱讀
    廣州唯創(chuàng)電子常用<b class='flag-5'>語音</b>芯片全解析:賦能智能<b class='flag-5'>語音</b>交互的多<b class='flag-5'>場景</b>應(yīng)用

    TTS文字合成語音芯片的使用場景

    TTS文字合成語音播報芯片的使用場景非常廣泛,可以適用于各行各業(yè),主要應(yīng)用于復(fù)雜的語音播報場景,下面小編帶大家一起來了解一下。 傳統(tǒng)的語音
    的頭像 發(fā)表于 08-22 17:11 ?1142次閱讀

    語音識別---大家怎么看呢?

    語音識別是一門交叉學(xué)科。近二十年來,語音識別技術(shù)取得顯著進(jìn)步,開始從實(shí)驗(yàn)室走向市場。人們預(yù)計(jì),未來10年內(nèi),語音
    發(fā)表于 08-09 10:54

    離在線語音芯片WT2606A在智能鎖行業(yè)的應(yīng)用場景

    離在線語音芯片 WT2606A 在智能鎖行業(yè)的應(yīng)用場景主要圍繞語音交互升級、功能擴(kuò)展及用戶體驗(yàn)優(yōu)化展開,具體包括以下核心方向: 一、基礎(chǔ)語音提示與操作引導(dǎo) 開鎖流程交互 用戶通過指紋、
    的頭像 發(fā)表于 06-24 17:46 ?836次閱讀
    離在線<b class='flag-5'>語音</b>芯片WT2606A在智能鎖行業(yè)的應(yīng)<b class='flag-5'>用場景</b>

    語音識別芯片選型有哪些技術(shù)參數(shù)要注意

    語音識別芯片的使用場景越來越多涉及的范圍也越來越廣!那么語音芯片的選型就很重要了,選型不對直接影響產(chǎn)品的使用體驗(yàn),下面小編從不同的維度來給大
    的頭像 發(fā)表于 06-23 17:31 ?1040次閱讀
    <b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片選型有哪些技術(shù)參數(shù)要注意

    明遠(yuǎn)智睿SSD2351開發(fā)板:語音機(jī)器人領(lǐng)域的變革力量

    的四核1.4GHz處理器具備強(qiáng)勁的運(yùn)算性能,能夠高效處理語音機(jī)器人運(yùn)行過程中的復(fù)雜任務(wù)。語音識別和合成需要大量的計(jì)算資源,該處理器可以快速對語音信號進(jìn)行
    發(fā)表于 05-28 11:36

    芯資訊|廣州唯創(chuàng)電子語音識別芯片:全場景覆蓋與長效品質(zhì)

    芯片市場中脫穎而出,成為行業(yè)標(biāo)桿。一、全場景覆蓋的產(chǎn)品矩陣,精準(zhǔn)匹配多元需求廣州唯創(chuàng)電子深挖市場需求,針對不同應(yīng)用場景和成本需求,構(gòu)建了業(yè)內(nèi)最完善的語音
    的頭像 發(fā)表于 05-20 08:36 ?738次閱讀
    芯資訊|廣州唯創(chuàng)電子<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片:全<b class='flag-5'>場景</b>覆蓋與長效品質(zhì)

    芯知識|廣州唯創(chuàng)電子語音識別芯片技術(shù)解析:藍(lán)牙功能與應(yīng)用場景選擇

    一、語音識別芯片的智能化演進(jìn)語音識別技術(shù)作為人機(jī)交互的核心載體,正加速滲透智能家居、醫(yī)療健康、共享經(jīng)濟(jì)等領(lǐng)域。廣州唯創(chuàng)電子作為國內(nèi)領(lǐng)先的語音
    的頭像 發(fā)表于 05-12 09:22 ?996次閱讀
    芯知識|廣州唯創(chuàng)電子<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片技術(shù)解析:藍(lán)牙功能與應(yīng)<b class='flag-5'>用場景</b>選擇
    耿马| 康乐县| 沙坪坝区| 辽宁省| 通城县| 绥宁县| 苍溪县| 平罗县| 镇巴县| 和政县| 龙胜| 江达县| 安宁市| 三原县| 安康市| 布拖县| 全州县| 武汉市| 绍兴县| 邢台市| 白水县| 昭觉县| 南阳市| 苏尼特左旗| 林口县| 大宁县| 合水县| 理塘县| 永定县| 喀喇沁旗| 延边| 龙门县| 吕梁市| 六盘水市| 松滋市| 金秀| 谷城县| 斗六市| 鹿邑县| 金平| 耒阳市|