Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

在上海浦东滨江公园观赏外滩建筑群-20240824在上海浦东滨江公园观赏外滩建筑群-20240824
0

浙大开源大型多语言高质量歌声数据集 GTSinger:为歌声合成开拓新天地

引言

歌声合成技术近年来取得了显著进步,但高质量、多语言、包含丰富歌唱技巧的数据集一直是制约其发展的瓶颈。浙江大学研究团队推出的 GTSinger,一个大型开源高质量歌声数据集,旨在填补这一空白,为歌声合成、技巧识别、风格迁移等领域的研究提供宝贵资源。

GTSinger 的核心优势

GTSinger 拥有以下显著优势:

  • 多语言支持: 包含汉语、英语、日语、韩语、俄语、西班牙语、法语、德语和意大利语九种语言,为跨语言歌声合成和分析提供了基础。
  • 高质量音频: 在专业录音棚录制专业歌手演唱,确保音频数据的质量和丰富性。
  • 歌唱技巧控制: 提供六种常用歌唱技巧的对照组和音素级标注,方便研究者建模和控制歌声中的技巧。
  • 真实乐谱支持: 提供与歌声相匹配的真实乐谱,有助于将歌声合成技术应用于实际音乐创作。
  • 多任务适配:设计支持多种歌声任务,包括歌声合成、技巧识别、风格迁移和语音到歌声的转换。
  • 基准测试: 提供基准测试,评估数据集在不同歌声任务上的表现和适用性。

GTSinger 的技术原理

GTSinger 数据集的构建基于以下技术:

  • 高质量音频录制: 利用专业录音棚和专业歌手,确保音频数据的质量。
  • 音素对齐和标注: 使用音乐信息检索技术,如 MFA 和 Praat,进行音素对齐和标注,实现音素级的精确控制。
  • 歌唱技巧标注: 基于专家听感和音频分析技术,对歌声中的歌唱技巧进行标注,便于模型学习和控制。
  • 乐谱生成: 结合音频信号处理技术和音乐理论知识,从歌声中提取音高信息,转换为 MIDI 形式的乐谱,再由专家调整为真实乐谱。
  • 数据集构建和验证: 基于人工审核和后续处理,确保数据集的质量和适用性,包括音频片段的语义分割和无声区域的处理。

GTSinger 的应用场景

GTSinger 在以下领域具有广泛的应用前景:

  • 歌声合成: 开发出合成具有特定技巧和风格的高质量歌声的系统。
  • 歌声技巧识别: 训练模型识别和分类不同的歌声技巧。
  • 歌声风格迁移: 将一种风格的歌声转换为另一种风格。
  • 语音到歌声的转换: 将普通语音转换为旋律化的歌声。
  • 音乐教育: 开发音乐教学工具,帮助学生学习和练习唱歌技巧。

结论

GTSinger 的开源发布,为歌声合成领域的研究和应用提供了宝贵的资源。它将推动歌声合成技术的发展,并为音乐创作、音乐教育等领域带来新的可能性。

参考文献

  • GTSinger 项目官网:gtsinger.github.io
  • GTSinger GitHub 仓库:https://github.com/GTSinger/GTSinger
  • GTSinger HuggingFace 模型库:https://huggingface.co/datasets/GTSinger/GTSinger
  • GTSinger arXiv 技术论文:https://arxiv.org/pdf/2409.13832


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注