谷歌釋出TTS系統Tacotron 2，搞定時態繞口令，效果優於WaveNet

自然度評分聽測是什麼

安妮編譯整理

量子位出品 | 公眾號 QbitAI

讓電腦會講話沒什麼，但讓電腦說得666就不是一件容易事了。

今天，谷歌推出一種直接從文字中合成語音的神經網路結構，即新型TTS（Text-to-Speech，TTS）系統Tacotron 2。Tacotron 2結合了WaveNet和Tacotron的優勢，不需要任何語法知識即可直接輸出文字對應的語音。

下面是一個Tacotron 2生成的音訊案例，效果確實很贊，並且還能區分出單詞“read”在過去分詞形式下的讀音變化。

谷歌Tacotron 2樣例來自量子位00：0000：01

△

“He has read the whole thing”

超越WaveNet和Tacotron

作為Tacotron 2的基礎，WaveNet和Tacotron都是怎樣的架構？

去年9月，谷歌DeepMind曾公佈了一種用神經網路對原始波形建模的技術，生成的音訊效果優於當時的TTS系統。

WaveNet拋棄傳統的簡單將語音片段機械拼接的TTS方法，從零開始創造整個音訊波形輸出。不過，WaveNet需要調節來自現有TTS前端的語言特徵，相當於它只取代了聲碼器和聲學模型，不是端對端的語音合成系統。

△

WaveNet架構

今年3月，谷歌的王雨軒等人提出了一種新型端對端語音合成系統Tacotron。它可將接收的輸入字元，輸出成相應的原始頻譜圖，然後提供給Griffin-Lim重建演算法生成語音。

△

Tacotron模型架構

Tacotron 2

Tacotron 2由一個迴圈的序列到序列特徵預測網路構成，先將字元嵌入到梅爾刻度（Mel-scale）譜系圖中，然後由修正過的WaveNet模型作為vocoder，從這些聲譜圖中合成時域的波形。

在谷歌的Jonathan Shen，、Ruoming Pang等人和加州大學伯克利分校的Zongheng Yang共同發表的論文Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions中，研究人員介紹了Tacotron 2的工作原理。

他們用序列到序列的模型優化了TTS，將字母序列對映到編碼音訊的特徵序列中。這些特徵是一個每12。5毫秒計算一次的80維聲譜圖，裡面不僅有單詞的發音，還包括音量、速度和語調等語言的細微差別。

然後，研究人員用一個類似WaveNet的架構，將這些特徵轉換為24kHz的波形。

△

Tacotron 2的模型架構/圖中下半部分為序列到序列模型，該模型將一系列字母對映到一個聲譜圖上。

測評結果和侷限

最後，研究人員抽取了100個音訊樣例，要求人類聽眾對不同TTS系統生成語言的自然度評分。測試結果顯示，Tacotron 2的平均意見得分約為4。53，明顯優於其他模型，僅比專業的錄音人員分數（ground truth）低一點。

△

不同模型測試音訊的平均意見得分（MOS）

在音訊結果展示頁中可以看到，研究人員對Tacotron 2的生成結果進行了多維度的測評，包括：

專有名詞及複雜詞語

同一單詞在不同時態及含義上的發音變化

拼寫錯誤對發音的影響

標點符號位置的影響

重點突出部分及語調的把控

繞口令

雖然Tacotron 2生成的樣品聽起來不錯，但仍有一些難題有待解決。例如系統在“decorum”和“merlot”等複雜單詞的發音方面有困難，可能會隨機產生奇怪的聲音。

目前，Tacotron 2還不能實時生成音訊，也不能將人類的情緒加到生成的聲音中。

“每個問題都是一個有趣的研究方向。”谷歌研究人員在部落格結尾說。

音訊示例及相關資料

如果對上述測評結果感興趣，可以移步谷歌Github專案頁面獲取更多資訊：

https：//google。github。io/tacotron/publications/tacotron2/

論文地址：

https：//arxiv。org/abs/1712。05884

谷歌部落格介紹：

https：//research。googleblog。com/2017/12/tacotron-2-generating-human-like-speech。html

—

完

—

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號（QbitAI）對話介面，回覆“招聘”兩個字。

量子位

QbitAI · 頭條號簽約作者

վ‘ᴗ’ ի 追蹤AI技術和產品新動態

農林漁牧網

谷歌釋出TTS系統Tacotron 2，搞定時態繞口令，效果優於WaveNet

相關文章