<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
      人工智能學(xué)術(shù) 正文
      發(fā)私信給汪思穎
      發(fā)送

      0

      微軟和浙大聯(lián)合推出全新語音合成系統(tǒng)FastSpeech,速度提升270倍

      本文作者: 汪思穎 2019-06-02 22:10
      導(dǎo)語:與自回歸的Transformer TTS相比,F(xiàn)astSpeech將梅爾譜的生成速度提高了近270倍,將端到端語音合成速度提高了38倍。

      雷鋒網(wǎng) AI 科技評論消息,本文轉(zhuǎn)載自微軟研究院 AI 頭條,作者譚旭,雷鋒網(wǎng) AI 科技評論獲其授權(quán)轉(zhuǎn)載。

      目前,基于神經(jīng)網(wǎng)絡(luò)的端到端文本到語音合成技術(shù)發(fā)展迅速,但仍面臨不少問題——合成速度慢、穩(wěn)定性差、可控性缺乏等。為此,微軟亞洲研究院機器學(xué)習(xí)組和微軟(亞洲)互聯(lián)網(wǎng)工程院語音團隊聯(lián)合浙江大學(xué)提出了一種基于Transformer的新型前饋網(wǎng)絡(luò)FastSpeech,兼具快速、魯棒、可控等特點。與自回歸的Transformer TTS相比,F(xiàn)astSpeech將梅爾譜的生成速度提高了近270倍,將端到端語音合成速度提高了38倍,單GPU上的語音合成速度達到了實時語音速度的30倍。

      近年來,基于神經(jīng)網(wǎng)絡(luò)的端到端文本到語音合成(Text-to-Speech,TTS)技術(shù)取了快速發(fā)展。與傳統(tǒng)語音合成中的拼接法(concatenative synthesis)和參數(shù)法(statistical parametric synthesis)相比,端到端語音合成技術(shù)生成的聲音通常具有更好的聲音自然度。但是,這種技術(shù)依然面臨以下幾個問題:

      • 合成語音的速度較慢:端到端模型通常以自回歸(Autoregressive)的方式生成梅爾譜(Mel-Spectrogram),再通過聲碼器(Vocoder)合成語音,而一段語音的梅爾譜通常能到幾百上千幀,導(dǎo)致合成速度較慢;

      • 合成的語音穩(wěn)定性較差:端到端模型通常采用編碼器-注意力-解碼器(Encoder-Attention-Decoder)機制進行自回歸生成,由于序列生成的錯誤傳播(Error Propagation)以及注意力對齊不準,導(dǎo)致出現(xiàn)重復(fù)吐詞或漏詞現(xiàn)象;

      • 缺乏可控性:自回歸的神經(jīng)網(wǎng)絡(luò)模型自動決定一條語音的生成長度,無法顯式地控制生成語音的語速或者韻律停頓等。

      為了解決上述的一系列問題,微軟亞洲研究院機器學(xué)習(xí)組和微軟(亞洲)互聯(lián)網(wǎng)工程院語音團隊聯(lián)合浙江大學(xué)提出了一種基于Transformer的新型前饋網(wǎng)絡(luò)FastSpeech,可以并行、穩(wěn)定、可控地生成高質(zhì)量的梅爾譜,再借助聲碼器并行地合成聲音。

      在LJSpeech數(shù)據(jù)集上的實驗表明,F(xiàn)astSpeech除了在語音質(zhì)量方面可以與傳統(tǒng)端到端自回歸模型(如Tacotron2和Transformer TTS)相媲美,還具有以下幾點優(yōu)勢:

      • 快速:與自回歸的Transformer TTS相比,F(xiàn)astSpeech將梅爾譜的生成速度提高了近270倍,將端到端語音合成速度提高了近38倍,單GPU上的語音合成速度是實時語音速度的30倍;

      • 魯棒:幾乎完全消除了合成語音中重復(fù)吐詞和漏詞問題;

      • 可控:可以平滑地調(diào)整語音速度和控制停頓以部分提升韻律。

      模型框架

      微軟和浙大聯(lián)合推出全新語音合成系統(tǒng)FastSpeech,速度提升270倍

      圖1. FastSpeech網(wǎng)絡(luò)架構(gòu)

      前饋Transformer架構(gòu)

      FastSpeech采用一種新型的前饋Transformer網(wǎng)絡(luò)架構(gòu),拋棄掉傳統(tǒng)的編碼器-注意力-解碼器機制,如圖1(a)所示。其主要模塊采用Transformer的自注意力機制(Self-Attention)以及一維卷積網(wǎng)絡(luò)(1D Convolution),我們將其稱之為FFT塊(Feed-Forward Transformer Block, FFT Block),如圖1(b)所示。前饋Transformer堆疊多個FFT塊,用于音素(Phoneme)到梅爾譜變換,音素側(cè)和梅爾譜側(cè)各有N個FFT塊。特別注意的是,中間有一個長度調(diào)節(jié)器(Length Regulator),用來調(diào)節(jié)音素序列和梅爾譜序列之間的長度差異。

      長度調(diào)節(jié)器

      長度調(diào)節(jié)器如圖1(c)所示。由于音素序列的長度通常小于其梅爾譜序列的長度,即每個音素對應(yīng)于幾個梅爾譜序列,我們將每個音素對齊的梅爾譜序列的長度稱為音素持續(xù)時間。長度調(diào)節(jié)器通過每個音素的持續(xù)時間將音素序列平鋪以匹配到梅爾譜序列的長度。我們可以等比例地延長或者縮短音素的持續(xù)時間,用于聲音速度的控制。此外,我們還可以通過調(diào)整句子中空格字符的持續(xù)時間來控制單詞之間的停頓,從而調(diào)整聲音的部分韻律。

      音素持續(xù)時間預(yù)測器

      音素持續(xù)時間預(yù)測對長度調(diào)節(jié)器來說非常重要。如圖1(d)所示,音素持續(xù)時間預(yù)測器包括一個2層一維卷積網(wǎng)絡(luò),以及疊加一個線性層輸出標量用以預(yù)測音素的持續(xù)時間。這個模塊堆疊在音素側(cè)的FFT塊之上,使用均方誤差(MSE)作為損失函數(shù),與FastSpeech模型協(xié)同訓(xùn)練。我們的音素持續(xù)時間的真實標簽信息是從一個額外的基于自回歸的Transformer TTS模型中抽取encoder-decoder之間的注意力對齊信息得到的,詳細信息可查閱文末論文。

      實驗評估

      為了驗證FastSpeech模型的有效性,我們從聲音質(zhì)量、生成速度、魯棒性和可控制性幾個方面來進行了評估。

      聲音質(zhì)量

      我們選用LJSpeech數(shù)據(jù)集進行實驗,LJSpeech包含13100個英語音頻片段和相應(yīng)的文本,音頻的總長度約為24小時。我們將數(shù)據(jù)集分成3組:300個樣本作為驗證集,300個樣本作為測試集,剩下的12500個樣本用來訓(xùn)練。

      我們對測試樣本作了MOS測試,每個樣本至少被20個英語母語評測者評測。MOS指標用來衡量聲音接近人聲的自然度和音質(zhì)。我們將FastSpeech方法與以下方法進行對比:1) GT, 真實音頻數(shù)據(jù);2) GT (Mel + WaveGlow), 用WaveGlow作為聲碼器將真實梅爾譜轉(zhuǎn)換得到的音頻;3) Tacotron 2 (Mel + WaveGlow);4) Transformer TTS (Mel + WaveGlow);5) Merlin (WORLD), 一種常用的參數(shù)法語音合成系統(tǒng),并且采用WORLD作為聲碼器。

      從表1中可以看出,我們的音質(zhì)幾乎可以與自回歸的Transformer TTS和Tacotron 2相媲美。

      微軟和浙大聯(lián)合推出全新語音合成系統(tǒng)FastSpeech,速度提升270倍

      FastSpeech合成的聲音Demo:

      文字:“The result of the recommendation of the committee of 1862 was the Prison Act of 1865”

      更多聲音Demo:

      https://speechresearch.github.io/fastspeech/

      合成速度

      我們比較FastSpeech與具有近似參數(shù)量的Transformer TTS的語音合成速度。從表2可以看出,在梅爾譜的生成速度上,F(xiàn)astSpeech比自回歸的Transformer TTS提速將近270倍;在端到端(合成語音)的生成速度上,F(xiàn)astSpeech比自回歸的Transformer TTS提速將近38倍。FastSpeech平均合成一條語音的時間為0.18s,由于我們的語音平均時長為6.2s,我們的模型在單GPU上的語音合成速度是實時語音速度的30倍(6.2/0.18)。

      微軟和浙大聯(lián)合推出全新語音合成系統(tǒng)FastSpeech,速度提升270倍

      圖2展示了測試集上生成語音的耗時和生成的梅爾譜長度(梅爾譜長度與語音長度成正比)的可視化關(guān)系圖。可以看出,隨著生成語音長度的增大,F(xiàn)astSpeech的生成耗時并沒有發(fā)生較大變化,而Transformer TTS的速度對長度非常敏感。這也表明我們的方法非常有效地利用了GPU的并行性實現(xiàn)了加速。

      微軟和浙大聯(lián)合推出全新語音合成系統(tǒng)FastSpeech,速度提升270倍

      圖2. 生成語音的耗時與生成的梅爾譜長度的可視化關(guān)系圖

      魯棒性

      自回歸模型中的編碼器-解碼器注意力機制可能導(dǎo)致音素和梅爾譜之間的錯誤對齊,進而導(dǎo)致生成的語音出現(xiàn)重復(fù)吐詞或漏詞。為了評估FastSpeech的魯棒性,我們選擇微軟(亞洲)互聯(lián)網(wǎng)工程院語音團隊產(chǎn)品線上使用的50個較難的文本對FastSpeech和基準模型Transformer TTS魯棒性進行測試。從下表可以看出,Transformer TTS的句級錯誤率為34%,而FastSpeech幾乎可以完全消除重復(fù)吐詞和漏詞。

      微軟和浙大聯(lián)合推出全新語音合成系統(tǒng)FastSpeech,速度提升270倍

      關(guān)于魯棒性測試的聲音demo,請訪問:

      https://speechresearch.github.io/fastspeech/

      語速調(diào)節(jié)

      FastSpeech可以通過長度調(diào)節(jié)器很方便地調(diào)節(jié)音頻的語速。通過實驗發(fā)現(xiàn),從0.5x到1.5x變速,F(xiàn)astSpeech生成的語音清晰且不失真。

      語速調(diào)節(jié)以及停頓調(diào)節(jié)的聲音Demo:

      https://speechresearch.github.io/fastspeech/

      消融對比實驗

      我們也比較了FastSpeech中一些重要模塊和訓(xùn)練方法(包括FFT中的一維卷積、序列級別的知識蒸餾技術(shù)和參數(shù)初始化)對生成音質(zhì)效果的影響,通過CMOS的結(jié)果來衡量影響程度。由下表可以看出,這些模塊和方法確實有助于我們模型效果的提升。

      微軟和浙大聯(lián)合推出全新語音合成系統(tǒng)FastSpeech,速度提升270倍

      未來,我們將繼續(xù)提升FastSpeech模型在生成音質(zhì)上的表現(xiàn),并且將會把該模型應(yīng)用到其它語言(例如中文)、多說話人和低資源場景中。我們還會嘗試將FastSpeech與并行神經(jīng)聲碼器結(jié)合在一起訓(xùn)練,形成一個完全端到端訓(xùn)練的語音到文本并行架構(gòu)。

      論文地址:

      https://arxiv.org/pdf/1905.09263.pdf

      更多Demo聲音,請訪問:

      https://speechresearch.github.io/fastspeech/

      Reddit討論鏈接:https://www.reddit.com/r/MachineLearning/comments/brzwi5/r_fastspeech_fast_robust_and_controllable_text_to/

      論文源代碼也將在不久后開放,敬請關(guān)注!

      雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

      微軟和浙大聯(lián)合推出全新語音合成系統(tǒng)FastSpeech,速度提升270倍

      分享:
      相關(guān)文章

      編輯

      關(guān)注AI學(xué)術(shù),例如論文
      當月熱門文章
      最新文章
      請?zhí)顚懮暾埲速Y料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說
      主站蜘蛛池模板: 亚洲激情综合| 国模久久| 丝袜美腿亚洲一区在线| 亚洲男人第一av网站| 阿荣旗| 欧美最新精品videossexohd| 99亚洲精品| 色翁荡熄又大又硬又粗又视频| 亚洲欧美日韩在线不卡| 男女激情一区二区三区| 欧美精品导航| 亚洲一本之道高清乱码| 精品尤物TV福利院在线网站| 中文字幕乱码视频32| 99精品久久久久久无码人妻| 中文字幕无码乱码人妻日韩精品| 狠狠躁夜夜躁人人爽天天5| 高清无码爆乳潮喷在线观看| 亚洲2区3区4区产品乱码2021| 金湖县| 最新国产在线拍揄自揄视频| 色福利网| 强伦人妻精品三级| 老师破女学生处特级毛ooo片| 1024你懂的国产精品| 国产毛片三区二区一区| 亚洲中文字幕无码一区| 强行从后面挺进人妻| 亚洲国产成人久久精品软件| 日韩av无码中文无码电影| 一出一进一爽一粗一大视频| 色婷婷六月亚洲婷婷丁香| 国产男女免费完整视频| 密臀Av| 免费无码又爽又刺激高潮的app| 日99久9在线 | 免费| 久久精品国产999大香线焦| 亚洲自偷自偷在线成人网站传媒| 99热这里只有精品3| 亚洲熟妇色自偷自拍另类| 天天日天天爽|