農林漁牧網

您現在的位置是:首頁 > 林業

谷歌釋出TTS系統Tacotron 2,搞定時態繞口令,效果優於WaveNet

2021-12-20由 量子位 發表于 林業

自然度評分聽測是什麼

安妮 編譯整理

量子位 出品 | 公眾號 QbitAI

讓電腦會講話沒什麼,但讓電腦說得666就不是一件容易事了。

今天,谷歌推出一種直接從文字中合成語音的神經網路結構,即新型TTS(Text-to-Speech,TTS)系統Tacotron 2。Tacotron 2結合了WaveNet和Tacotron的優勢,不需要任何語法知識即可直接輸出文字對應的語音。

下面是一個Tacotron 2生成的音訊案例,效果確實很贊,並且還能區分出單詞“read”在過去分詞形式下的讀音變化。

谷歌Tacotron 2樣例來自量子位00:0000:01

“He has read the whole thing”

超越WaveNet和Tacotron

作為Tacotron 2的基礎,WaveNet和Tacotron都是怎樣的架構?

去年9月,谷歌DeepMind曾公佈了一種用神經網路對原始波形建模的技術,生成的音訊效果優於當時的TTS系統。

WaveNet拋棄傳統的簡單將語音片段機械拼接的TTS方法,從零開始創造整個音訊波形輸出。不過,WaveNet需要調節來自現有TTS前端的語言特徵,相當於它只取代了聲碼器和聲學模型,不是端對端的語音合成系統。

谷歌釋出TTS系統Tacotron 2,搞定時態繞口令,效果優於WaveNet

WaveNet架構

今年3月,谷歌的王雨軒等人提出了一種新型端對端語音合成系統Tacotron。它可將接收的輸入字元,輸出成相應的原始頻譜圖,然後提供給Griffin-Lim重建演算法生成語音。

谷歌釋出TTS系統Tacotron 2,搞定時態繞口令,效果優於WaveNet

Tacotron模型架構

Tacotron 2

Tacotron 2由一個迴圈的序列到序列特徵預測網路構成,先將字元嵌入到梅爾刻度(Mel-scale)譜系圖中,然後由修正過的WaveNet模型作為vocoder,從這些聲譜圖中合成時域的波形。

在谷歌的Jonathan Shen,、Ruoming Pang等人和加州大學伯克利分校的Zongheng Yang共同發表的論文Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions中,研究人員介紹了Tacotron 2的工作原理。

他們用序列到序列的模型優化了TTS,將字母序列對映到編碼音訊的特徵序列中。這些特徵是一個每12。5毫秒計算一次的80維聲譜圖,裡面不僅有單詞的發音,還包括音量、速度和語調等語言的細微差別。

然後,研究人員用一個類似WaveNet的架構,將這些特徵轉換為24kHz的波形。

谷歌釋出TTS系統Tacotron 2,搞定時態繞口令,效果優於WaveNet

Tacotron 2的模型架構/圖中下半部分為序列到序列模型,該模型將一系列字母對映到一個聲譜圖上。

測評結果和侷限

最後,研究人員抽取了100個音訊樣例,要求人類聽眾對不同TTS系統生成語言的自然度評分。測試結果顯示,Tacotron 2的平均意見得分約為4。53,明顯優於其他模型,僅比專業的錄音人員分數(ground truth)低一點。

谷歌釋出TTS系統Tacotron 2,搞定時態繞口令,效果優於WaveNet

不同模型測試音訊的平均意見得分(MOS)

在音訊結果展示頁中可以看到,研究人員對Tacotron 2的生成結果進行了多維度的測評,包括:

專有名詞及複雜詞語

同一單詞在不同時態及含義上的發音變化

拼寫錯誤對發音的影響

標點符號位置的影響

重點突出部分及語調的把控

繞口令

谷歌釋出TTS系統Tacotron 2,搞定時態繞口令,效果優於WaveNet

雖然Tacotron 2生成的樣品聽起來不錯,但仍有一些難題有待解決。例如系統在“decorum”和“merlot”等複雜單詞的發音方面有困難,可能會隨機產生奇怪的聲音。

目前,Tacotron 2還不能實時生成音訊,也不能將人類的情緒加到生成的聲音中。

“每個問題都是一個有趣的研究方向。”谷歌研究人員在部落格結尾說。

音訊示例及相關資料

如果對上述測評結果感興趣,可以移步谷歌Github專案頁面獲取更多資訊:

https://google。github。io/tacotron/publications/tacotron2/

論文地址:

https://arxiv。org/abs/1712。05884

谷歌部落格介紹:

https://research。googleblog。com/2017/12/tacotron-2-generating-human-like-speech。html

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。

量子位

QbitAI · 頭條號簽約作者

վ‘ᴗ’ ի 追蹤AI技術和產品新動態