Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

北京 – 人工智能语音合成领域迎来一项重大进展。近日,字节跳动与浙江大学合作推出了一款名为MegaTTS 3的零样本语音合成系统,该系统以其轻量级架构、高质量语音输出和强大的语音克隆能力,引发了业界的广泛关注。

MegaTTS 3的核心亮点在于其零样本合成技术。传统语音合成系统往往需要大量的目标说话人语音数据进行训练,而MegaTTS 3仅需少量提示即可生成目标说话人的语音,实现了快速语音克隆。这一突破性的技术,极大地降低了语音合成的门槛,为更广泛的应用场景打开了大门。

技术解析:轻量级扩散模型与语音属性解耦

MegaTTS 3采用轻量级的扩散模型(TTS Diffusion Transformer),参数量仅为0.45B。这种轻量级的设计,保证了系统的高效运行,使其能够在各种设备上流畅运行。

在技术原理上,MegaTTS 3将语音分解为内容、音色、韵律和相位等不同属性,并针对每个属性设计了合适的模块进行建模。例如,音色建模采用全局向量(global vectors),韵律建模利用基于潜在码的语言模型(latent code language model),内容建模采用基于VQGAN 的声学模型生成语谱图。这种语音属性解耦的方式,使得系统能够更好地控制和调整合成语音的各个方面。

此外,MegaTTS 3还引入了稀疏对齐算法,通过提供稀疏对齐边界来引导潜在扩散变换器(DiT),在不缩小搜索空间的情况下降低对齐难度,从而实现更高自然度的语音合成。

多语言支持与可控性

MegaTTS 3不仅支持中文、英文及中英混合语音合成,还具备音色控制、韵律调整和口音强度控制等可控性功能。用户可以根据需求调整生成语音的音色、语速、语调和口音,从而实现更加个性化和定制化的语音合成效果。

应用前景广阔

MegaTTS 3的应用场景十分广泛,包括:

  • 学术研究: 研究人员可以用它来测试语音合成技术,分析 latents 的效果。
  • 教育辅助: 将教材转为语音,生成有声读物,提升学习体验。
  • 内容制作: 为视频或播客生成旁白,节省人工录音成本。
  • 语音交互: 开发者可集成到设备中,实现中英文语音对话。

开源共享,推动行业发展

字节跳动和浙江大学选择将MegaTTS 3开源,并在Github和HuggingFace模型库上发布了项目地址和模型库,这无疑将加速语音合成技术的发展和应用。

专家观点

“MegaTTS 3的发布,标志着零样本语音合成技术进入了一个新的阶段,”一位匿名的语音合成领域专家表示,“其轻量级架构、高质量语音输出和强大的语音克隆能力,使其在众多应用场景中具有巨大的潜力。开源共享的策略,也将加速该技术在学术界和工业界的普及和应用。”

结论

MegaTTS 3的发布,不仅是字节跳动和浙江大学在人工智能领域的又一次成功合作,也是语音合成技术发展的一个重要里程碑。随着技术的不断进步和应用场景的不断拓展,我们有理由相信,MegaTTS 3将在未来的人工智能领域发挥更加重要的作用。

参考文献

(完)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注