阿里公佈新語音合成技術錄音10分鐘即可定製專屬“AI聲音”

錄音合成用什麼軟體

以往，我們瞭解到一些世界領先的語音合成技術，它們研發出來的“語音合成助手”軟體可以完美的完成語音合成工作。而

最近阿里也推出了一項新語音合成技術，錄音10分鐘即可定製專屬“AI聲音”

。

7月10日，阿里巴巴釋出

新一代語音合成技術KAN-TTS

，稱

可大幅提高合成語音與真人發聲的相似度，並將語音合成定製成本降低10倍以上

。該技術由達摩院機器智慧實驗室自主研發。

阿里方面稱，當前業界商用系統的合成語音與原始音訊錄音的接近程度通常在85%-90%之間，而基於

KAN-TTS技術的合成語音可將該資料提高到97%以上。

KAN-TTS深度融合了目前主流的

端到端TTS技術和傳統TTS技術

，從多個方面改進了語音合成，有望透過圖靈測試。阿里利用Multi-Speaker Model與Speaker-aware Advanced Transfer Learning相結合的方法，將語音合成定製成本降低10倍以上，週期壓縮3倍以上。

也就是說，用1小時有效錄音資料和不到兩個月製作週期，就能完成一次標準TTS定製

。

此外，這使得普通使用者定製“AI聲音”的門檻更低。

只需手機錄音十分鐘，就能獲得與錄製聲音高度相似的合成語音。

基於KAN-TTS的語音合成技術現在已經向B端客戶開放商用，它能基於5大場景（

通用、客服、童聲、英文和方言

）、提供34種不同聲音，而且能夠讓企業與個人定製其專屬“AI聲音”，該技術目前已經用在了高德地圖、天貓精靈、夸克瀏覽器等應用中。

語音合成是透過機械的、電子的方法產生人造語音的技術。

TTS技術(又稱文語轉換技術)隸屬於語音合成，它是將計算機自己產生的、或外部輸入的文字資訊轉變為可以聽得懂的、流利的漢語口語輸出的技術

。

和語音合成一樣，語音識別技術也是實現人機語音通訊，建立一個有聽和講能力的口語系統所必需的關鍵技術，越來越多的公司和行業都在向這方面靠攏。2017年，全球的語音識別軟體市場規模就已經達到11億美元，隨著AI等各種技術的成熟，對語音識別的市場需求也在逐年提升。預計到2025年，全球語音識別市場的整體規模將達到69億美元。

農林漁牧網

阿里公佈新語音合成技術錄音10分鐘即可定製專屬“AI聲音”

相關文章

阿里公佈新語音合成技術 錄音10分鐘即可定製專屬“AI聲音”

相關文章

阿里公佈新語音合成技術錄音10分鐘即可定製專屬“AI聲音”