哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

依圖強勢進軍智能語音,聯(lián)合微軟發(fā)布語音開放云平臺

DPVg_AI_era ? 來源:lq ? 2018-12-14 09:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

依圖強勢進軍智能語音,聯(lián)合微軟發(fā)布語音開放云平臺,攜手華為發(fā)布軟硬件一體化的智能語音聯(lián)合解決方案。依圖語音識別算法在全球最大開源中文數(shù)據(jù)庫AISHELL-2上詞錯率僅3.71%,比原業(yè)內(nèi)領先者提升約20%,大幅刷新現(xiàn)有紀錄。比對各家語音識別算法,當今智能語音戰(zhàn)場,英雄唯訊飛與依圖爾?

2018年底,智能語音市場意外殺入一匹黑馬。

素來被認為是“人臉識別獨角獸”——或者更寬泛一點說,“計算機視覺獨角獸”的依圖科技,公布了他們中文語音識別技術(shù)的最新突破,以及令人矚目的產(chǎn)業(yè)布局。

技術(shù)上,在全球最大的中文開源數(shù)據(jù)庫AISHELL-2中,依圖短語音聽寫的字錯率(CER)達到3.71%[1],相比原業(yè)內(nèi)領先者提升約20%,大幅刷新現(xiàn)有紀錄。

產(chǎn)業(yè)上,依圖聯(lián)合微軟推出基于Azure云服務的語音開放平臺,并攜手華為發(fā)布軟硬件一體化的“智能語音聯(lián)合解決方案”,將依圖語音識別技術(shù)提供給第三方應用開發(fā)者。

依圖首席創(chuàng)新官呂昊博士

“語音一直以來都是依圖關注的課題。作為對人工智能有著深入理解和推廣應用的公司,我們自然而然進入語音識別領域。”依圖首席創(chuàng)新官呂昊博士表示,依圖是一家“人工智能公司”。

“作為語音行業(yè)的‘新生’,我們還是有很多向‘老生’學習的地方,但我們立志推動行業(yè)創(chuàng)新與發(fā)展,做世界最好的中文普通話語音識別技術(shù)?!?/p>

智能語音競爭還未開始,依圖要做世界最好的中文語音識別

萬物互聯(lián),語音為先。

語音識別是AI理解世界最重要的組成部分,也是AI能聽會說善理解的必要條件。

近年來,深度學習的爆發(fā)驅(qū)動了語音識別技術(shù)的高速發(fā)展,催生了一大批智能語音創(chuàng)業(yè)公司,其中不乏實力強勁的競爭者。

除了中國智能語音“一哥”科大訊飛,百度、阿里、騰訊、京東等企業(yè)紛紛推出了智能語音產(chǎn)品,再加上雄踞國際戰(zhàn)略高點的亞馬遜、谷歌、微軟……2017年底掀起的智能音箱“百箱大戰(zhàn)”硝煙還未褪去,依圖為何選擇這個時間點入局?

“我覺得競爭都還沒開始,不存在入場的問題?!币缊D科技聯(lián)合創(chuàng)始人林晨曦在2018年1月接受新智元采訪時說。

智能語音市場看似巨頭林立,但林晨曦認為創(chuàng)業(yè)公司大有可為,依圖不僅要做語音和自然語言處理,還要做到像人臉識別那樣,超越人類水平。

依圖技術(shù)負責人表示,盡管一些機構(gòu)宣傳其語音識別已經(jīng)達到乃至超越了人類水平,但多數(shù)情況下,這些結(jié)果都來自安靜、近場等受限場景。

“機器在語音環(huán)境比較理想的情況下是可以識別某些生僻詞,或者在專有名詞等識別方面比人強。但人的魯棒性還是強于機器,人在熟人且熟悉領域上的語音識別還是明顯能夠做過算法?!?/p>

目前語音識別仍然存在很多瓶頸,例如在發(fā)音不清楚的情況下,如何結(jié)合更強的上下文語義信息給出準確的語音識別;如何在語音識別的全鏈路上,優(yōu)化遠場識別的性能;特殊情況的處理,比如人稱代詞、語氣詞助詞;還有雞尾酒問題(多人同時說話下,能夠準確識別其中一人的語音)、電話場景的識別(低采樣率下的語音識別)。

此次依圖科技在語音識別技術(shù)方面的突破,不僅意味著依圖首次涉足語音識別領域便已經(jīng)躋身中文語音識別第一陣營,同時也說明語音識別在技術(shù)層面還有足夠的進化空間,遠遠沒有達到“超越人類”。

依圖預計,在未來6個月到12個月,語音識別技術(shù)的算法性能將呈指數(shù)級增長,更多的場景將被解鎖,為行業(yè)應用帶來更大的價值。

科大訊飛和依圖屬于第一梯隊,BAT差得遠

作為進軍智能語音的第一步棋,依圖發(fā)布了“聽寫大會”微信小程序,它能將時長不超過60秒的語音轉(zhuǎn)寫成文字,支持普通話,并且兼容多種口音。

“聽寫大會”微信小程序:業(yè)界也屬于首次公開透明地比對各類算法的水平差異

不過,“我們希望大家不要僅僅是關注在API本身,”依圖首席創(chuàng)新管呂昊表示:“我們希望借助這個API,讓大家去關注到整個語音識別行業(yè)的發(fā)展情況?!?/p>

呂昊說,一直以來語音識別業(yè)界都沒有公開透明的語音識別比對,通過“聽寫大會”微信小程序,用戶可以直觀感受到各家語音識別技術(shù)的真實表現(xiàn),在業(yè)界也屬于首次公開透明地比對各類算法的水平差異。

訊飛依圖BAT各家算法差異巨大,訊飛依圖位列第一陣營

“目前語音識別業(yè)界存在兩種認知誤區(qū),”呂昊說:“一種是極端的好,也就是各家都好沒有差異;一種是極端的差,認為都不能解決問題?!?/p>

實際情況是,“科大訊飛的語音識別能力比BAT領先很多。在場景測試中,除了依圖和科大訊飛之外,大部分廠家的算法字錯率抖動大,意味著場景的通用性差?!?/p>

依圖此次推出的中文語音識別算法,與業(yè)內(nèi)原有領先者相比,不僅大幅提升了識別準確率,而且在單個算法模型上,有極為出色的多場景適用性表現(xiàn)。

一般認為,中文語音識別的字錯率低于3%時不會影響可讀性,而超過15%則毫無可讀性。這是語音識別的兩條紅線,在不同場景下,不同算法的表現(xiàn)可能會有很大差異。

在全球最大中文開源數(shù)據(jù)庫AISHELL-2[2] 的三個測試子集,以及來自第三方的近場口音測試集(Accent)、近場安靜聊天測試集(Chat)、語音節(jié)目測試集、電話測試集、遠場測試集等測試場景中,依圖均處于業(yè)界領先水平,而且字錯率幾乎全部在15%以下。

其中,在AISHELL2的-2018A-EVAL數(shù)據(jù)集中,依圖的識別準確率高達96.29%,字錯率僅為3.71%,領先第二名約20%。

這意味著依圖在語音領域做到了第一梯隊 (甚至是領先) 的水平,在多場景的適用方面,也體現(xiàn)出顯著優(yōu)勢。

左有微軟,右有華為,用技術(shù)想象力撬動語音市場

“依圖的語音API產(chǎn)品和語音開放平臺剛剛上線,我們歡迎越來越多的開發(fā)者和客戶使用依圖的產(chǎn)品,共同改進產(chǎn)品性能,并探討更具突破性的應用場景?!眳侮徽f。

關于未來預計推出的語音產(chǎn)品及其功能,呂昊表示,“實際上,我們認為技術(shù)和場景是比產(chǎn)品和功能更關鍵的要素,推動了技術(shù)發(fā)展進步,我們才可以領略到以前看不到的更多可能性,解決很多以前想象不到的問題。今天語音識別跟人類的能力還有巨大的差距,依圖希望能夠攜手業(yè)界共同推動行業(yè)進步?!?/p>

發(fā)布會上,依圖宣布與微軟Azure云服務聯(lián)合發(fā)布語音開放平臺,將行業(yè)領先的語音識別技術(shù)能力開放給第三方應用開發(fā)者。此外,依圖還將與微軟在智能語音領域展開更深層次的合作,共建AI生態(tài)。

2018年4月,微軟全球執(zhí)行副總裁沈向洋(右)訪問依圖。依圖科技聯(lián)合創(chuàng)始人、CEO朱瓏(左)曾在微軟亞洲研究院(MSRA)研發(fā)人臉識別算法,導師就是沈向洋。依圖科技聯(lián)合創(chuàng)始人林晨曦,業(yè)務技術(shù)副總裁吳岷,研發(fā)總監(jiān)周健等也都來自MSRA。圖片來源:依圖科技

與此同時,依圖也攜手華為聯(lián)合發(fā)布“智能語音聯(lián)合解決方案”,該方案基于依圖語音開放平臺,以及華為全棧全場景 Ascend(昇騰)系列芯片和面向數(shù)據(jù)中心側(cè)的 Atlas 300 AI加速卡,將雙方強大的技術(shù)研發(fā)能力與生態(tài)服務能力深度結(jié)合,形成軟硬件一體化的聯(lián)合解決方案,進一步幫助提升開發(fā)效率。

自2016年成為合作伙伴以來,依圖和華為已形成全方位聯(lián)動。今年3月,雙方共同發(fā)布“華為-依圖視頻云人像大數(shù)據(jù)”解決方案,布局全球城市級公共安全。10月,2018華為全聯(lián)接大會期間,依圖作為大會安保唯一AI合作伙伴,與華為聯(lián)合發(fā)布了分支視頻云聯(lián)合解決方案、智慧警務云解決方案和智慧園區(qū)解決方案,在平安城市、智慧警務、大數(shù)據(jù)應用等方面持續(xù)加深合作。

10月9日,華為輪值董事長徐直軍(左二)、華為安平系統(tǒng)部總裁岳坤、華為企業(yè)BG行業(yè)Marketing與解決方案總裁喻東(左三)等一行到訪依圖。來源:依圖科技

此前,有傳言微軟Azure云服務在中國的數(shù)據(jù)中心將使用華為的昇騰芯片,這一消息尚未得到證實。但本次由依圖串接起來的微軟、華為合作鏈,不禁讓人浮想聯(lián)翩。

根據(jù)2018中國語音產(chǎn)業(yè)聯(lián)盟年會上周發(fā)布的《2017-2018中國智能語音產(chǎn)業(yè)白皮書》,全球智能語音產(chǎn)業(yè)規(guī)模持續(xù)增長,2014年至2018年,中國智能語音產(chǎn)業(yè)規(guī)模由30億元增長至159.7億元。

左有微軟,右有華為,再加上自身的技術(shù),依圖在智能語音開局便湊齊了一手好牌。

最后要說的是依圖科技的首席創(chuàng)新官呂昊。呂昊今年2月加入依圖,之前是谷歌的研究科學家。根據(jù)依圖科技官方介紹,呂昊在谷歌期間曾負責孵化安卓APP啟動推薦系統(tǒng),這是全球首個移動端APP啟動推薦系統(tǒng),也是全球首個基于機器學習的安卓產(chǎn)品。他會帶領依圖與華為孵化出怎樣的智能語音聯(lián)合解決方案?

林晨曦曾表示好的人才需要對未來充滿想象力,朱瓏也在文章里寫因為看見,所以相信——現(xiàn)在這句話基本成了依圖的Slogan。

“99%識別率的算法和99.99%的算法,區(qū)別在于可解鎖的應用場景,對技術(shù)商業(yè)價值的想象力將回答AI的場景在哪里以及多快到來。”

“我們認為,目前語音識別仍處于初步發(fā)展的階段,依圖將始終保持在技術(shù)層面的投入,通過技術(shù)的突破來解鎖更多的可能,也歡迎合作伙伴與我們共同探索語音技術(shù)的行業(yè)應用?!眳侮徽f。

注釋

[1] 一般在英文語音識別中用“詞錯率”(WER),因為最小單元是詞;中文語音識別一般使用“字錯率”(CER),因為最小單元是字.

[2] AISHELL-2是AISHELL Foundation和希爾貝殼創(chuàng)建的開源數(shù)據(jù)庫,含有1000小時中文語音數(shù)據(jù),由1991名來自中國不同口音區(qū)域的說話者參與錄制,經(jīng)過專業(yè)語音校對人員轉(zhuǎn)寫標注,通過了嚴格質(zhì)量檢驗,數(shù)據(jù)庫文本正確率在96%以上,錄音文本涉及喚醒詞、語音控制詞、智能家居、無人駕駛、工業(yè)生產(chǎn)等12個領域.

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關注

    關注

    4

    文章

    6750

    瀏覽量

    108067
  • 數(shù)據(jù)庫

    關注

    7

    文章

    4078

    瀏覽量

    68520
  • 智能語音
    +關注

    關注

    11

    文章

    829

    瀏覽量

    50339

原文標題:依圖做語音了!識別精度創(chuàng)中文語音識別新高點

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    新品 | Echo Pyramid,智能語音交互底座

    EchoPyramid是一款面向智能語音交互應用的功能底座。專為M5Stack的Atom/AtomS3/AtomS3R系列主控設計,即插即用,快速構(gòu)建具備高性能音頻交互能力的語音設備。外接Atom
    的頭像 發(fā)表于 03-06 16:51 ?2560次閱讀
    新品 | Echo Pyramid,<b class='flag-5'>智能</b><b class='flag-5'>語音</b>交互底座

    小藝開放平臺平臺功能

    平臺的高效編排方式。開發(fā)者可通過該模式基于鴻蒙Agent通信協(xié)議快速、便捷地將成熟的第三方智能體對接至小藝開放平臺,實現(xiàn)分發(fā)與調(diào)用,提升平臺
    發(fā)表于 01-30 15:24

    語音識別IC分類,語音識別芯片的工作原理

    語音識別芯片,也叫語音識別集成電路,是一種集聲音存儲、播放、錄音及語音識別功能于一體的專用芯片。語音識別IC的核心功能在于實現(xiàn)語音識別,即讓
    的頭像 發(fā)表于 01-14 15:22 ?370次閱讀
    <b class='flag-5'>語音</b>識別IC分類,<b class='flag-5'>語音</b>識別芯片的工作原理

    ATH8809 智能語音處理芯片

    智能語音
    深圳市聲訊電子有限公司
    發(fā)布于 :2025年12月24日 16:58:05

    語音報警器:TTS語音播報,平臺邏輯自控

    TTS語音播報報警器是一種集成了傳統(tǒng)報警器和TTS(文本轉(zhuǎn)語音)技術(shù)的智能設備。清晰、準確地用人類語言播報報警原因、位置、狀態(tài)等具體信息。 工作原理 文本語音:輸入文字自動合成
    的頭像 發(fā)表于 10-29 16:31 ?940次閱讀

    七牛發(fā)布靈矽 AI:600ms超低延遲,重塑智能硬件語音交互新范式

    8 月 15 日,七牛正式發(fā)布靈矽 AI —為新一代智能硬件而生的語音交互新范式,讓智能硬件不僅會“說話”,更能聽懂情緒、自然交流。這不僅
    的頭像 發(fā)表于 08-15 15:33 ?974次閱讀
    七牛<b class='flag-5'>云</b><b class='flag-5'>發(fā)布</b>靈矽 AI:600ms超低延遲,重塑<b class='flag-5'>智能</b>硬件<b class='flag-5'>語音</b>交互新范式

    一顆TTS語音芯給產(chǎn)品增加智能語音播報能力

    一顆TTS語音芯片給產(chǎn)品增加智能語音播報能力 傳統(tǒng)語音播報芯片可以設置一些固定的語音片段或者內(nèi)容,但是對于現(xiàn)在各種創(chuàng)新產(chǎn)品層出不窮的時代,傳
    的頭像 發(fā)表于 08-14 16:33 ?852次閱讀

    語音輸出模塊是什么?自控語音播報

    :接收來自平臺(如單片機/PLC/電腦)的指令,輸入可能是:文本數(shù)據(jù)(例如:"溫度過高")、預存語音編碼(如MP3/WAV文件的數(shù)字信號)、控制指令(觸發(fā)預置語音片段) 2.
    的頭像 發(fā)表于 08-13 15:20 ?1119次閱讀

    STM32項目分享:智能語音臺燈(機智)

    01—項目簡介1.功能詳解STM32智能語音臺燈(機智)功能如下:STM32F103C8T6單片機作為主控單元按鍵切換模式,支持自
    的頭像 發(fā)表于 07-24 18:03 ?1791次閱讀
    STM32項目分享:<b class='flag-5'>智能</b><b class='flag-5'>語音</b>臺燈(機智<b class='flag-5'>云</b>)

    廣和通發(fā)布新一代AI語音智能體FiboVista

    近日,2025火山引擎Force原動力大會正式開幕。廣和通發(fā)布新一代AI語音智能體FiboVista,并已率先應用于車聯(lián)網(wǎng),成為智能駕駛的“用車伙伴”和“出行伴侶”。通過創(chuàng)新AI大模型
    的頭像 發(fā)表于 06-17 09:22 ?1393次閱讀

    小安AI語音板,“廣西表哥”強勢上線!

    AiPi-PalChatV1 是一款接入了 小智 AI 智能體 的微型語音交互開發(fā)板,專為輕量級智能語音場景設計。 AiPi-PalChatV1 基于安信可 Ai-WB2-12F 模組
    的頭像 發(fā)表于 06-10 17:30 ?873次閱讀
    小安AI<b class='flag-5'>語音</b>板,“廣西表哥”<b class='flag-5'>強勢</b>上線!

    藍牙語音遙控器:智能家居的智慧控制核心

    隨著智能家居的蓬勃發(fā)展,藍牙語音遙控器憑借其便捷的操作和智能交互體驗,正迅速取代傳統(tǒng)紅外遙控器,成為智能電視、機頂盒等設備的首選控制工具。 相較于需對準設備的紅外遙控器,藍牙
    發(fā)表于 06-01 20:24

    德賽西威與面壁智能發(fā)布端側(cè)大模型語音交互方案

    日前,全球領先的移動出行科技公司德賽西威與端側(cè)大模型技術(shù)領軍企業(yè)面壁智能共同發(fā)布業(yè)界首個基于高通座艙平臺(SA8255P,簡稱8255)的端側(cè)大模型語音交互方案,這是雙方自2024年1
    的頭像 發(fā)表于 05-14 17:40 ?1423次閱讀

    藍牙語音遙控國產(chǎn)適用芯片HS6621

    智能家居的時代,科技正在改變我們的生活方式。藍牙語音遙控器,作為智能家居的關鍵組成部分,正在重新定義用戶與設備之間的互動方式。用戶對著藍牙語音遙控器,只要輕說一句話就可以搞定很多復雜
    發(fā)表于 04-30 16:21
    新民市| 山丹县| 慈溪市| 孝感市| 苍溪县| 重庆市| 临澧县| 瑞昌市| 阿拉善左旗| 宜章县| 长丰县| 明星| 思茅市| 泸溪县| 南通市| 区。| 固始县| 介休市| 林周县| 古田县| 木里| 儋州市| 锡林浩特市| 巍山| 浏阳市| 城步| 许昌市| 同德县| 贵溪市| 延长县| 昌图县| 黄陵县| 平定县| 石城县| 绿春县| 朝阳区| 枞阳县| 赤壁市| 沾益县| 鄂温| 寿阳县|