日韩人妻电梯在线,?亚洲欧美色视频,网络偷拍日韩

機(jī)器語音系統(tǒng)一直有點(diǎn)令人失望：即使是最好的文本語音轉(zhuǎn)換系統(tǒng)也擺脫不了機(jī)械的特性，缺乏人類說話時(shí)的基本語調(diào)變化。斯蒂芬·霍金使用的語音系統(tǒng)就是一個(gè)很好的例子。

但近年來，機(jī)器學(xué)習(xí)取得了巨大進(jìn)步，也改善了機(jī)器語音系統(tǒng)的一些缺點(diǎn)。

最近，F(xiàn)acebook 人工智能研究中心的 Sean Vasquez 和 Mike Lewis 發(fā)現(xiàn)了一種可以克服從文本到語音系統(tǒng)轉(zhuǎn)換限制，完全由機(jī)器生成而且音頻片段極其逼真的方法。這一系統(tǒng)被稱為 MelNet，它不僅可以復(fù)制人類的語調(diào)，而且可以用與真人相同的聲音。于是，研究小組開始訓(xùn)練該系統(tǒng)，讓它模仿出比爾·蓋茨等人的說話。這項(xiàng)工作讓人類和電腦之間更真實(shí)的互動(dòng)成為可能，不僅如此，它的逼真程度，很可能引發(fā)虛假音頻內(nèi)容騙術(shù)的新問題。

圖丨比爾·蓋茨（來源：麻省理工科技評(píng)論）

現(xiàn)實(shí)中的文本—語音轉(zhuǎn)換系統(tǒng)進(jìn)展緩慢并非是因?yàn)槿狈L試。許多團(tuán)隊(duì)一直在嘗試訓(xùn)練深度學(xué)習(xí)算法，利用大型音頻數(shù)據(jù)庫重現(xiàn)真實(shí)的語音模式。

Vasquez 和 Lewis 說，這種方法的問題在于使用的數(shù)據(jù)類型。到目前為止，大多數(shù)工作都集中在音頻波形記錄上。這些音頻波形顯示了聲音的振幅如何隨時(shí)間而變化，它每秒記錄的音頻包含數(shù)萬個(gè)時(shí)間步長(zhǎng)。

這些波形能在許多不同的尺度上顯示出特定模式。例如，在幾秒鐘的講話中，波形反映了與單詞序列相關(guān)的特征模式。但是在微秒級(jí)的片段中，波形顯示了與聲音的音高和音色相關(guān)的特征。在其他尺度上，波形反映了說話人的語調(diào)、音素結(jié)構(gòu)等。

另一種方法是將波形在一個(gè)時(shí)間步長(zhǎng)和下一個(gè)時(shí)間步長(zhǎng)之間的關(guān)聯(lián)性考慮進(jìn)來。所以，在給定的時(shí)間范圍內(nèi)，一個(gè)單詞開頭的聲音與后面的聲音是有關(guān)聯(lián)的。

深度學(xué)習(xí)系統(tǒng)理應(yīng)善于學(xué)習(xí)這些類型的關(guān)聯(lián)性，并對(duì)它們進(jìn)行復(fù)制。但問題出在不同時(shí)間尺度的關(guān)聯(lián)性上，深度學(xué)習(xí)系統(tǒng)只能在有限的時(shí)間尺度上研究這些關(guān)聯(lián)性。這是因?yàn)樯疃葘W(xué)習(xí)使用了一種叫做反向傳播的學(xué)習(xí)過程，這種學(xué)習(xí)過程不斷地重新連接網(wǎng)絡(luò)，根據(jù)所看到的示例改進(jìn)其性能。

重復(fù)率限制了系統(tǒng)學(xué)習(xí)關(guān)聯(lián)性的時(shí)間尺度。因此，深度學(xué)習(xí)網(wǎng)絡(luò)可以學(xué)習(xí)長(zhǎng)時(shí)間或短時(shí)間內(nèi)音頻波形的關(guān)聯(lián)性，但不能同時(shí)兼顧兩者。這就是為什么它們?cè)趶?fù)制語音方面表現(xiàn)如此糟糕的原因。

Vasquez 和 Lewis 則有不同的方法。他們使用聲譜圖而不是音頻波形來訓(xùn)練他們的深度學(xué)習(xí)網(wǎng)絡(luò)。聲譜圖記錄了整個(gè)音頻頻譜及其隨時(shí)間的變化。所以當(dāng)波形捕捉到隨時(shí)間變化的一個(gè)參數(shù)，例如振幅時(shí)，光譜圖則捕捉到了不同頻率范圍內(nèi)的振幅變化。

這意味著音頻信息被更密集地打包到了這種類型的數(shù)據(jù)中。研究者認(rèn)為：聲譜圖的時(shí)間軸比波形的時(shí)間軸緊湊幾個(gè)數(shù)量級(jí)，這意味著在波形中跨越數(shù)萬個(gè)時(shí)間步長(zhǎng)的依賴關(guān)系只跨越聲譜圖中的數(shù)百個(gè)時(shí)間步長(zhǎng)。

這使得深度學(xué)習(xí)系統(tǒng)更容易獲得關(guān)聯(lián)性。他們說：“這使得我們的聲譜模型能夠在數(shù)秒內(nèi)產(chǎn)生一致的無條件語音和音樂樣本?！?/p>

圖丨聲譜圖 VS 波形圖（來源：Facebook）

最后的結(jié)果令人印象深刻。通過使用 TED 演講中的普通語音訓(xùn)練系統(tǒng)，MelNet 能夠在幾秒鐘內(nèi)復(fù)制 TED 演講者的聲音，或多或少地說出一些內(nèi)容。Facebook 的研究人員利用比爾·蓋茨的 TED 演講來訓(xùn)練 MelNet，然后用比爾·蓋茨的聲音說出一系列隨機(jī)的短語，以此展示了 MelNet 的靈活性。

當(dāng)然，該方法也有一些限制。普通言語包含了更長(zhǎng)時(shí)間尺度上的相關(guān)性。例如，在幾十秒或幾分鐘的演講進(jìn)程中，人們會(huì)使用語調(diào)的變化來表示主題或情緒的變化。Facebook 的機(jī)器系統(tǒng)似乎還無法做到這一點(diǎn)。

因此，盡管 MelNet 可以創(chuàng)造出非常逼真的短語，但團(tuán)隊(duì)還不能讓機(jī)器完成較長(zhǎng)的句子、段落或整個(gè)故事。這個(gè)目標(biāo)似乎不是很快就能實(shí)現(xiàn)。

然而，這項(xiàng)工作可能會(huì)對(duì)人機(jī)交互產(chǎn)生重大影響。人機(jī)交互中許多對(duì)話只包含簡(jiǎn)短的短語。電話接線員和服務(wù)臺(tái)尤其可以使用一系列相對(duì)簡(jiǎn)短的短語。因此，這項(xiàng)技術(shù)可以用一種比當(dāng)前系統(tǒng)更接近人類的方式來優(yōu)化這些交互。

不過，目前 Vasquez 和 Lewis 對(duì)潛在的應(yīng)用前景守口如瓶。

當(dāng)然，自然發(fā)聲的機(jī)器也存在潛在的問題，尤其是那些能夠逼真模仿人類的機(jī)器。很容易想象，這種技術(shù)可能被用于惡作劇的場(chǎng)景。正因?yàn)槿绱?，這是人工智能的又一進(jìn)步，它提出的倫理問題比它所能回答的問題要更多。它所能回答的問題要更多。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴