一道本在线,欧美黑人三级久久精品

依圖強勢進軍智能語音，聯(lián)合微軟發(fā)布語音開放云平臺，攜手華為發(fā)布軟硬件一體化的智能語音聯(lián)合解決方案。依圖語音識別算法在全球最大開源中文數(shù)據(jù)庫AISHELL-2上詞錯率僅3.71%，比原業(yè)內(nèi)領先者提升約20%，大幅刷新現(xiàn)有紀錄。比對各家語音識別算法，當今智能語音戰(zhàn)場，英雄唯訊飛與依圖爾？

2018年底，智能語音市場意外殺入一匹黑馬。

素來被認為是“人臉識別獨角獸”——或者更寬泛一點說，“計算機視覺獨角獸”的依圖科技，公布了他們中文語音識別技術(shù)的最新突破，以及令人矚目的產(chǎn)業(yè)布局。

技術(shù)上，在全球最大的中文開源數(shù)據(jù)庫AISHELL-2中，依圖短語音聽寫的字錯率（CER）達到3.71%[1]，相比原業(yè)內(nèi)領先者提升約20%，大幅刷新現(xiàn)有紀錄。

產(chǎn)業(yè)上，依圖聯(lián)合微軟推出基于Azure云服務的語音開放平臺，并攜手華為發(fā)布軟硬件一體化的“智能語音聯(lián)合解決方案”，將依圖語音識別技術(shù)提供給第三方應用開發(fā)者。

依圖首席創(chuàng)新官呂昊博士

“語音一直以來都是依圖關注的課題。作為對人工智能有著深入理解和推廣應用的公司，我們自然而然進入語音識別領域。”依圖首席創(chuàng)新官呂昊博士表示，依圖是一家“人工智能公司”。

“作為語音行業(yè)的‘新生’，我們還是有很多向‘老生’學習的地方，但我們立志推動行業(yè)創(chuàng)新與發(fā)展，做世界最好的中文普通話語音識別技術(shù)?！?/p>

智能語音競爭還未開始，依圖要做世界最好的中文語音識別

萬物互聯(lián)，語音為先。

語音識別是AI理解世界最重要的組成部分，也是AI能聽會說善理解的必要條件。

近年來，深度學習的爆發(fā)驅(qū)動了語音識別技術(shù)的高速發(fā)展，催生了一大批智能語音創(chuàng)業(yè)公司，其中不乏實力強勁的競爭者。

除了中國智能語音“一哥”科大訊飛，百度、阿里、騰訊、京東等企業(yè)紛紛推出了智能語音產(chǎn)品，再加上雄踞國際戰(zhàn)略高點的亞馬遜、谷歌、微軟……2017年底掀起的智能音箱“百箱大戰(zhàn)”硝煙還未褪去，依圖為何選擇這個時間點入局？

“我覺得競爭都還沒開始，不存在入場的問題?！币缊D科技聯(lián)合創(chuàng)始人林晨曦在2018年1月接受新智元采訪時說。

智能語音市場看似巨頭林立，但林晨曦認為創(chuàng)業(yè)公司大有可為，依圖不僅要做語音和自然語言處理，還要做到像人臉識別那樣，超越人類水平。

依圖技術(shù)負責人表示，盡管一些機構(gòu)宣傳其語音識別已經(jīng)達到乃至超越了人類水平，但多數(shù)情況下，這些結(jié)果都來自安靜、近場等受限場景。

“機器在語音環(huán)境比較理想的情況下是可以識別某些生僻詞，或者在專有名詞等識別方面比人強。但人的魯棒性還是強于機器，人在熟人且熟悉領域上的語音識別還是明顯能夠做過算法?！?/p>

目前語音識別仍然存在很多瓶頸，例如在發(fā)音不清楚的情況下，如何結(jié)合更強的上下文語義信息給出準確的語音識別；如何在語音識別的全鏈路上，優(yōu)化遠場識別的性能；特殊情況的處理，比如人稱代詞、語氣詞助詞；還有雞尾酒問題（多人同時說話下，能夠準確識別其中一人的語音）、電話場景的識別（低采樣率下的語音識別）。

此次依圖科技在語音識別技術(shù)方面的突破，不僅意味著依圖首次涉足語音識別領域便已經(jīng)躋身中文語音識別第一陣營，同時也說明語音識別在技術(shù)層面還有足夠的進化空間，遠遠沒有達到“超越人類”。

依圖預計，在未來6個月到12個月，語音識別技術(shù)的算法性能將呈指數(shù)級增長，更多的場景將被解鎖，為行業(yè)應用帶來更大的價值。

科大訊飛和依圖屬于第一梯隊，BAT差得遠

作為進軍智能語音的第一步棋，依圖發(fā)布了“聽寫大會”微信小程序，它能將時長不超過60秒的語音轉(zhuǎn)寫成文字，支持普通話，并且兼容多種口音。

“聽寫大會”微信小程序：業(yè)界也屬于首次公開透明地比對各類算法的水平差異

不過，“我們希望大家不要僅僅是關注在API本身，”依圖首席創(chuàng)新管呂昊表示：“我們希望借助這個API，讓大家去關注到整個語音識別行業(yè)的發(fā)展情況?！?/p>

呂昊說，一直以來語音識別業(yè)界都沒有公開透明的語音識別比對，通過“聽寫大會”微信小程序，用戶可以直觀感受到各家語音識別技術(shù)的真實表現(xiàn)，在業(yè)界也屬于首次公開透明地比對各類算法的水平差異。

訊飛依圖BAT各家算法差異巨大，訊飛依圖位列第一陣營

“目前語音識別業(yè)界存在兩種認知誤區(qū)，”呂昊說：“一種是極端的好，也就是各家都好沒有差異；一種是極端的差，認為都不能解決問題?！?/p>

實際情況是，“科大訊飛的語音識別能力比BAT領先很多。在場景測試中，除了依圖和科大訊飛之外，大部分廠家的算法字錯率抖動大，意味著場景的通用性差?！?/p>

依圖此次推出的中文語音識別算法，與業(yè)內(nèi)原有領先者相比，不僅大幅提升了識別準確率，而且在單個算法模型上，有極為出色的多場景適用性表現(xiàn)。

一般認為，中文語音識別的字錯率低于3%時不會影響可讀性，而超過15%則毫無可讀性。這是語音識別的兩條紅線，在不同場景下，不同算法的表現(xiàn)可能會有很大差異。

在全球最大中文開源數(shù)據(jù)庫AISHELL-2[2] 的三個測試子集，以及來自第三方的近場口音測試集（Accent）、近場安靜聊天測試集（Chat）、語音節(jié)目測試集、電話測試集、遠場測試集等測試場景中，依圖均處于業(yè)界領先水平，而且字錯率幾乎全部在15%以下。

其中，在AISHELL2的-2018A-EVAL數(shù)據(jù)集中，依圖的識別準確率高達96.29%，字錯率僅為3.71%，領先第二名約20%。

這意味著依圖在語音領域做到了第一梯隊 (甚至是領先) 的水平，在多場景的適用方面，也體現(xiàn)出顯著優(yōu)勢。

左有微軟，右有華為，用技術(shù)想象力撬動語音市場

“依圖的語音API產(chǎn)品和語音開放平臺剛剛上線，我們歡迎越來越多的開發(fā)者和客戶使用依圖的產(chǎn)品，共同改進產(chǎn)品性能，并探討更具突破性的應用場景?！眳侮徽f。

關于未來預計推出的語音產(chǎn)品及其功能，呂昊表示，“實際上，我們認為技術(shù)和場景是比產(chǎn)品和功能更關鍵的要素，推動了技術(shù)發(fā)展進步，我們才可以領略到以前看不到的更多可能性，解決很多以前想象不到的問題。今天語音識別跟人類的能力還有巨大的差距，依圖希望能夠攜手業(yè)界共同推動行業(yè)進步?！?/p>

發(fā)布會上，依圖宣布與微軟Azure云服務聯(lián)合發(fā)布語音開放平臺，將行業(yè)領先的語音識別技術(shù)能力開放給第三方應用開發(fā)者。此外，依圖還將與微軟在智能語音領域展開更深層次的合作，共建AI生態(tài)。

2018年4月，微軟全球執(zhí)行副總裁沈向洋（右）訪問依圖。依圖科技聯(lián)合創(chuàng)始人、CEO朱瓏（左）曾在微軟亞洲研究院（MSRA）研發(fā)人臉識別算法，導師就是沈向洋。依圖科技聯(lián)合創(chuàng)始人林晨曦，業(yè)務技術(shù)副總裁吳岷，研發(fā)總監(jiān)周健等也都來自MSRA。圖片來源：依圖科技

與此同時，依圖也攜手華為聯(lián)合發(fā)布“智能語音聯(lián)合解決方案”，該方案基于依圖語音開放平臺，以及華為全棧全場景 Ascend（昇騰）系列芯片和面向數(shù)據(jù)中心側(cè)的 Atlas 300 AI加速卡，將雙方強大的技術(shù)研發(fā)能力與生態(tài)服務能力深度結(jié)合，形成軟硬件一體化的聯(lián)合解決方案，進一步幫助提升開發(fā)效率。

自2016年成為合作伙伴以來，依圖和華為已形成全方位聯(lián)動。今年3月，雙方共同發(fā)布“華為－依圖視頻云人像大數(shù)據(jù)”解決方案，布局全球城市級公共安全。10月，2018華為全聯(lián)接大會期間，依圖作為大會安保唯一AI合作伙伴，與華為聯(lián)合發(fā)布了分支視頻云聯(lián)合解決方案、智慧警務云解決方案和智慧園區(qū)解決方案，在平安城市、智慧警務、大數(shù)據(jù)應用等方面持續(xù)加深合作。

10月9日，華為輪值董事長徐直軍（左二）、華為安平系統(tǒng)部總裁岳坤、華為企業(yè)BG行業(yè)Marketing與解決方案總裁喻東（左三）等一行到訪依圖。來源：依圖科技

此前，有傳言微軟Azure云服務在中國的數(shù)據(jù)中心將使用華為的昇騰芯片，這一消息尚未得到證實。但本次由依圖串接起來的微軟、華為合作鏈，不禁讓人浮想聯(lián)翩。

根據(jù)2018中國語音產(chǎn)業(yè)聯(lián)盟年會上周發(fā)布的《2017-2018中國智能語音產(chǎn)業(yè)白皮書》，全球智能語音產(chǎn)業(yè)規(guī)模持續(xù)增長，2014年至2018年，中國智能語音產(chǎn)業(yè)規(guī)模由30億元增長至159.7億元。

左有微軟，右有華為，再加上自身的技術(shù)，依圖在智能語音開局便湊齊了一手好牌。

最后要說的是依圖科技的首席創(chuàng)新官呂昊。呂昊今年2月加入依圖，之前是谷歌的研究科學家。根據(jù)依圖科技官方介紹，呂昊在谷歌期間曾負責孵化安卓APP啟動推薦系統(tǒng)，這是全球首個移動端APP啟動推薦系統(tǒng)，也是全球首個基于機器學習的安卓產(chǎn)品。他會帶領依圖與華為孵化出怎樣的智能語音聯(lián)合解決方案？

林晨曦曾表示好的人才需要對未來充滿想象力，朱瓏也在文章里寫因為看見，所以相信——現(xiàn)在這句話基本成了依圖的Slogan。

“99%識別率的算法和99.99%的算法，區(qū)別在于可解鎖的應用場景，對技術(shù)商業(yè)價值的想象力將回答AI的場景在哪里以及多快到來。”

“我們認為，目前語音識別仍處于初步發(fā)展的階段，依圖將始終保持在技術(shù)層面的投入，通過技術(shù)的突破來解鎖更多的可能，也歡迎合作伙伴與我們共同探索語音技術(shù)的行業(yè)應用?！眳侮徽f。

注釋

[1] 一般在英文語音識別中用“詞錯率”（WER），因為最小單元是詞；中文語音識別一般使用“字錯率”（CER），因為最小單元是字.

[2] AISHELL-2是AISHELL Foundation和希爾貝殼創(chuàng)建的開源數(shù)據(jù)庫，含有1000小時中文語音數(shù)據(jù)，由1991名來自中國不同口音區(qū)域的說話者參與錄制，經(jīng)過專業(yè)語音校對人員轉(zhuǎn)寫標注，通過了嚴格質(zhì)量檢驗，數(shù)據(jù)庫文本正確率在96%以上，錄音文本涉及喚醒詞、語音控制詞、智能家居、無人駕駛、工業(yè)生產(chǎn)等12個領域.

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴