哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

妥妥媲美真人!火山語音發(fā)布超自然對話語音合成技術

話說科技 ? 來源:話說科技 ? 作者:話說科技 ? 2022-09-16 10:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近期,網(wǎng)上就出現(xiàn)了這樣一段由兩位女聲組合而成的音頻片段。在音頻中,兩位女生追憶了自己當年第一次聽到周杰倫的心情,還對周董的音樂風格進行了解讀,兩人一問一答,時長長達近3分鐘。

可是,當大家聽著這段音頻節(jié)目,也沉浸在對那時青蔥歲月的美好追憶時,你可曾想到,這段對話,竟然是語音合成的!

提到“語音合成”,你腦海中可能會出現(xiàn)這樣的種種:

·導航中種類豐富但語氣機械的“前方路口左轉”

·接電話時,對面笨拙無感情的“您好,這里是xx信用卡中心

·視頻網(wǎng)站上,十個解說視頻九個聲音相同,看到就想趕快劃走的“注意看,這個男人叫小帥”…...

而如今,語音合成技術竟然已經(jīng)能達到“天衣無縫”的完美自然效果,就好像真人在對話一樣,直接顛覆了許多人的刻板印象。而這段音頻的發(fā)布者火山語音,字節(jié)跳動 AI Lab Speech & Audio 智能語音與音頻團隊,為了更好地向大眾解密里面的技術亮點,又提供了兩段音頻——一段,是傳統(tǒng)的語音合成技術效果,另一段,卻來自火山語音的全新技術。兩段音頻輸入的文本完全相同—— “南方菜系偏愛蘸料,例如我第一次去上海才知道燒烤里的蔬菜也需要配蘸料” ,但聽上去,合成的音頻效果卻有明顯差異,第二段來源于火山語音團隊的音頻,用上了本次上新的超自然對話語音合成技術,格外自然,幾乎與真人無異。

回想一下人在日常表達時的狀態(tài),大腦處理信息是需要思考時間的。體現(xiàn)到語言上,人就會不由自主的出現(xiàn)一些猶豫、拖音、倒裝,甚至是說了一半改口、結巴重復的情況,也會刻意加重讀音強調想表達的重點信息。這就帶來了大量難以觀測的細微表達。這些現(xiàn)象在傳統(tǒng)的TTS中難以被捕捉還原。而這些細微之處的完美復現(xiàn)正是讓聲音真假難辨的奧妙之源,也是上述音頻的奧秘所在。

具體來說,火山語音團隊最新發(fā)布的超自然對話語音合成技術相較傳統(tǒng)TTS更加真實自然,即語氣詞、吸氣聲、猶豫時的停頓以及字音拖長等細節(jié)統(tǒng)統(tǒng)被完美復現(xiàn),而且只需常規(guī)音庫1/4數(shù)據(jù),就可完美還原真人說話細微的韻律特點、發(fā)音口癖,讓合成效果更加真實。有專業(yè)評測結果顯示,火山語音的這項新技術與真人錄音對比基本沒有差距,難以被評測者分辨出來。此外這項技術目前已在視頻配音、電話客服等多個場景投入應用,近日即將上線火山引擎語音技術官網(wǎng)對外露出。

這么厲害的技術,究竟是怎么辦到的?

據(jù)介紹,上述這些在實際交流中經(jīng)常出現(xiàn)的倒吸氣、吞音、思考時不由自主的拖長字音、低笑等表現(xiàn)被稱為副語言現(xiàn)象(paralanguage),盡管這是人腦思考、表達過程中最真實的表現(xiàn),但由于傳統(tǒng)的語音合成技術框架無法對分布稀疏的副語言現(xiàn)象進行有效建模,所以在說話時的韻律還原度表現(xiàn)有限、過于“正確”。

基于上述難點,火山語音超自然語音合成技術分別從文本和語音建模兩個層面進行突破,具體來說:

·在文本層面,火山語音采用了生成式的風格遷移模型,模仿真人說話的方式對文本進行可控的口語化轉寫,讓文本更好地擁抱口語化,避免最終效果太過書面。

·在語音層面,團隊則是通過文本分析模型的突破,在TTS的輸入側額外增加了副語言預測,模仿真人的發(fā)音特點來實現(xiàn)自然自發(fā)的語音效果。

值得一提的是,團隊通過使用無監(jiān)督特征的TTS建模方案,有效提高了模型的穩(wěn)定性與表現(xiàn)力,僅僅使用常規(guī)音庫1/4的數(shù)據(jù)規(guī)模,就可以實現(xiàn)十分自然多變的韻律效果,很贊吧?

article-body

致力文本口語化 讓“擬真人表達”躍然紙上

文本作為語音合成技術的輸入,其風格是否貼近真人的表達方式,是合成效果提升的第一步;但受限于根深蒂固的書寫用語習慣,大多數(shù)合成前的文本并不夠自然,或者需要投入大量精力不斷調整,費時費力。為了解決此類問題,火山語音團隊采用了兩階段方案并取得了不錯的效果:

·階段一:采用自監(jiān)督方法,使用偽數(shù)據(jù)對口語化模型進行預訓練,降低了數(shù)據(jù)量的需求;同時在模型中引入了指針網(wǎng)絡結構,增強了文本可控性。

·階段二:利用少量優(yōu)質的人工標注數(shù)據(jù),對預訓練好的口語化模型進行微調,最終實現(xiàn)可控的、自然的口語化文本效果。

article-body

為了更好地還原真人,區(qū)別于傳統(tǒng)的語音合成技術,火山語音在副語言建模和韻律多樣性上也分別進行了深入研究。在副語言建模方面,團隊推出的合成技術實現(xiàn)了聲學模型對自然表達中出現(xiàn)的吸氣、笑聲、猶豫、修正等多種副語言現(xiàn)象建模,并且結合文本的語義信息自動插入副語言現(xiàn)象。在插入過程中同時考慮合理性與隨機性,表現(xiàn)更加自然真實。

副語言建模+韻律多樣性可圈可點 語音真實感全面升級

“在韻律多樣化的探究中,我們結合無監(jiān)督表征學習技術,自主研發(fā)了高表現(xiàn)力的聲學模型框架,通過發(fā)音、韻律、音色解耦等方式,不但降低了數(shù)據(jù)量的需求,實現(xiàn)對出現(xiàn)頻率極低發(fā)音現(xiàn)象的高效建模;同時使用無監(jiān)督表征特征并結合音素級別的基頻、能量信息等,實現(xiàn)了韻律的自然多變,促成高質量對話語音生成?!被鹕秸Z音團隊總結道。

article-body

火山語音,字節(jié)跳動AI Lab Speech&Audio智能語音與音頻團隊,長期以來面向抖音、剪映、番茄小說、飛書等業(yè)務提供領先的AI語音技術能力及全棧語音產(chǎn)品解決方案,并通過火山引擎向外部企業(yè)開放技術服務。(作者:張揚)

審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    語音識別芯片介紹,語音識別芯片工作原理解析

    在智能交互不斷深入的今天,語音識別芯片正成為眾多設備實現(xiàn)語音控制與AI對話的關鍵部件。語音芯片廣義上涵蓋語音播放、錄音及識別等類型,而
    的頭像 發(fā)表于 04-01 16:26 ?214次閱讀

    一文了解語音AI的運作方式

    語音 AI 是對話式 AI 的一個子集,包括可將人類語音轉換為文本的自動語音識別 (ASR) 和文本轉語音 (TTS)。
    的頭像 發(fā)表于 02-27 16:10 ?520次閱讀
    一文了解<b class='flag-5'>語音</b>AI的運作方式

    語音識別IC分類,語音識別芯片的工作原理

    語音識別芯片,也叫語音識別集成電路,是一種集聲音存儲、播放、錄音及語音識別功能于一體的專用芯片。語音識別IC的核心功能在于實現(xiàn)語音識別,即讓
    的頭像 發(fā)表于 01-14 15:22 ?409次閱讀
    <b class='flag-5'>語音</b>識別IC分類,<b class='flag-5'>語音</b>識別芯片的工作原理

    語音識別芯片有哪些(語音識別芯片AT680系列)

    在人工智能技術飛速發(fā)展的今天,語音識別芯片作為人機交互的重要橋梁,正逐漸成為各類智能設備不可或缺的核心部件。與傳統(tǒng)的語音芯片不同,語音識別芯片不僅能存儲和播放聲音,更能真正實現(xiàn)對人聲的
    的頭像 發(fā)表于 11-14 17:11 ?1542次閱讀

    語音機器人交互系統(tǒng):核心技術與應用挑戰(zhàn)

    ? ? ? 語音機器人交互系統(tǒng)是融合多學科技術的復雜工程,其核心目標是實現(xiàn)人與機器間的自然、流暢語音對話。該系統(tǒng)已廣泛應用于智能客服、智能家
    的頭像 發(fā)表于 09-02 11:08 ?991次閱讀

    普強用大模型重塑TTS語音合成新高度

    普強依托自研深思大模型與神經(jīng)網(wǎng)絡算法,融合海量高質量音頻數(shù)據(jù),通過最新的擴散模型技術打造超自然音色,目前技術已用于部分車企出海車輛。
    的頭像 發(fā)表于 08-26 15:09 ?2090次閱讀

    基于開源鴻蒙的語音識別及語音合成應用開發(fā)樣例

    本期內(nèi)容由AI Model SIG提供,介紹了在開源鴻蒙中,利用sherpa_onnx開源三方庫進行ASR語音識別與TTS語音合成應用開發(fā)的流程。
    的頭像 發(fā)表于 08-25 14:26 ?4447次閱讀
    基于開源鴻蒙的<b class='flag-5'>語音</b>識別及<b class='flag-5'>語音</b><b class='flag-5'>合成</b>應用開發(fā)樣例

    TTS文字合成語音芯片的使用場景

    TTS文字合成語音播報芯片的使用場景非常廣泛,可以適用于各行各業(yè),主要應用于復雜的語音播報場景,下面小編帶大家一起來了解一下。 傳統(tǒng)的語音播報芯片,主要是先把語音存入FLASH當中,然
    的頭像 發(fā)表于 08-22 17:11 ?1158次閱讀

    語音輸出模塊是什么?自控語音播報

    :接收來自云平臺(如單片機/PLC/電腦)的指令,輸入可能是:文本數(shù)據(jù)(例如:"溫度過高")、預存語音編碼(如MP3/WAV文件的數(shù)字信號)、控制指令(觸發(fā)預置語音片段) 2.語音合成
    的頭像 發(fā)表于 08-13 15:20 ?1145次閱讀

    從開發(fā)工程師視角看TTS語音合成芯片

    從開發(fā)工程師視角看TTS語音合成芯片 在語音交互領域,TTS 語音合成芯片作為關鍵角色,正不斷革新著人機
    的頭像 發(fā)表于 08-13 14:52 ?959次閱讀

    廣和通發(fā)布自研端側語音識別大模型FiboASR

    7月,全球領先的無線通信模組及AI解決方案提供商廣和通,發(fā)布其自主研發(fā)的語音識別大模型FiboASR。該模型專為端側設備上面臨的面對面實時對話及多人會議場景深度優(yōu)化,在低延遲語音交互、
    的頭像 發(fā)表于 08-04 11:43 ?1769次閱讀

    Air8000 TTS開源,語音合成從此“零距離”!

    技術不應有圍墻,創(chuàng)新需要共生長。Air8000宣布TTS應用源代碼全面開放,開發(fā)者可自由定制語音風格、優(yōu)化合成效果,讓文字與聲音的對話,不再受限于黑箱算法。 TTS (Text-to-
    的頭像 發(fā)表于 07-03 16:33 ?733次閱讀
    Air8000 TTS開源,<b class='flag-5'>語音</b><b class='flag-5'>合成</b>從此“零距離”!

    廣和通發(fā)布新一代AI語音智能體FiboVista

    近日,2025火山引擎Force原動力大會正式開幕。廣和通發(fā)布新一代AI語音智能體FiboVista,并已率先應用于車聯(lián)網(wǎng),成為智能駕駛的“用車伙伴”和“出行伴侶”。通過創(chuàng)新AI大模型和場景服務洞察,F(xiàn)iboVista將在智慧家
    的頭像 發(fā)表于 06-17 09:22 ?1417次閱讀

    明遠智睿SSD2351開發(fā)板:語音機器人領域的變革力量

    ,提高語音識別的準確率;同時也可連接高質量的揚聲器,確保語音合成后的聲音清晰、自然。TF卡接口能夠存儲大量的語音數(shù)據(jù)、
    發(fā)表于 05-28 11:36

    大模型時代的新燃料:大規(guī)模擬真多風格語音合成數(shù)據(jù)集

    大模型充分學習到語音的發(fā)音規(guī)律、語義特征、語境等信息,從而提升語音識別、語音合成等關鍵能力,提供更加準確、自然、智能的
    的頭像 發(fā)表于 04-30 16:17 ?754次閱讀
    城步| 高陵县| 平顶山市| 浦江县| 滕州市| 上栗县| 淳安县| 福建省| 铅山县| 徐州市| 长治县| 叶城县| 达日县| 阳江市| 镇平县| 龙海市| 枣强县| 景宁| 元阳县| 和政县| 凤山县| 孝感市| 襄垣县| 张掖市| 昌邑市| 呼图壁县| 新兴县| 崇文区| 黄梅县| 石柱| 广东省| 滦南县| 雷州市| 门源| 淅川县| 大厂| 南乐县| 神木县| 磐石市| 汉中市| 土默特左旗|