農林漁牧網

您現在的位置是:首頁 > 農業

阿里公佈新語音合成技術 錄音10分鐘即可定製專屬“AI聲音”

2021-08-25由 財收新思路 發表于 農業

錄音合成用什麼軟體

阿里公佈新語音合成技術 錄音10分鐘即可定製專屬“AI聲音”

以往,我們瞭解到一些世界領先的語音合成技術,它們研發出來的“語音合成助手”軟體可以完美的完成語音合成工作。而

最近阿里也推出了一項新語音合成技術,錄音10分鐘即可定製專屬“AI聲音”

7月10日,阿里巴巴釋出

新一代語音合成技術KAN-TTS

,稱

可大幅提高合成語音與真人發聲的相似度,並將語音合成定製成本降低10倍以上

。該技術由達摩院機器智慧實驗室自主研發。

阿里方面稱,當前業界商用系統的合成語音與原始音訊錄音的接近程度通常在85%-90%之間,而基於

KAN-TTS技術的合成語音可將該資料提高到97%以上。

KAN-TTS深度融合了目前主流的

端到端TTS技術和傳統TTS技術

,從多個方面改進了語音合成,有望透過圖靈測試。阿里利用Multi-Speaker Model與Speaker-aware Advanced Transfer Learning相結合的方法,將語音合成定製成本降低10倍以上,週期壓縮3倍以上。

也就是說,用1小時有效錄音資料和不到兩個月製作週期,就能完成一次標準TTS定製

此外,這使得普通使用者定製“AI聲音”的門檻更低。

只需手機錄音十分鐘,就能獲得與錄製聲音高度相似的合成語音。

基於KAN-TTS的語音合成技術現在已經向B端客戶開放商用,它能基於5大場景(

通用、客服、童聲、英文和方言

)、提供34種不同聲音,而且能夠讓企業與個人定製其專屬“AI聲音”,該技術目前已經用在了高德地圖、天貓精靈、夸克瀏覽器等應用中。

語音合成是透過機械的、電子的方法產生人造語音的技術。

TTS技術(又稱文語轉換技術)隸屬於語音合成,它是將計算機自己產生的、或外部輸入的文字資訊轉變為可以聽得懂的、流利的漢語口語輸出的技術

和語音合成一樣,語音識別技術也是實現人機語音通訊,建立一個有聽和講能力的口語系統所必需的關鍵技術,越來越多的公司和行業都在向這方面靠攏。2017年,全球的語音識別軟體市場規模就已經達到11億美元,隨著AI等各種技術的成熟,對語音識別的市場需求也在逐年提升。預計到2025年,全球語音識別市場的整體規模將達到69億美元。