浙大开源大型多语言高质量歌声数据集 GTSinger:为歌声合成开拓新天地
引言
歌声合成技术近年来取得了显著进步,但高质量、多语言、包含丰富歌唱技巧的数据集一直是制约其发展的瓶颈。浙江大学研究团队推出的 GTSinger,一个大型开源高质量歌声数据集,旨在填补这一空白,为歌声合成、技巧识别、风格迁移等领域的研究提供宝贵资源。
GTSinger 的核心优势
GTSinger 拥有以下显著优势:
- 多语言支持: 包含汉语、英语、日语、韩语、俄语、西班牙语、法语、德语和意大利语九种语言,为跨语言歌声合成和分析提供了基础。
- 高质量音频: 在专业录音棚录制专业歌手演唱,确保音频数据的质量和丰富性。
- 歌唱技巧控制: 提供六种常用歌唱技巧的对照组和音素级标注,方便研究者建模和控制歌声中的技巧。
- 真实乐谱支持: 提供与歌声相匹配的真实乐谱,有助于将歌声合成技术应用于实际音乐创作。
- 多任务适配:设计支持多种歌声任务,包括歌声合成、技巧识别、风格迁移和语音到歌声的转换。
- 基准测试: 提供基准测试,评估数据集在不同歌声任务上的表现和适用性。
GTSinger 的技术原理
GTSinger 数据集的构建基于以下技术:
- 高质量音频录制: 利用专业录音棚和专业歌手,确保音频数据的质量。
- 音素对齐和标注: 使用音乐信息检索技术,如 MFA 和 Praat,进行音素对齐和标注,实现音素级的精确控制。
- 歌唱技巧标注: 基于专家听感和音频分析技术,对歌声中的歌唱技巧进行标注,便于模型学习和控制。
- 乐谱生成: 结合音频信号处理技术和音乐理论知识,从歌声中提取音高信息,转换为 MIDI 形式的乐谱,再由专家调整为真实乐谱。
- 数据集构建和验证: 基于人工审核和后续处理,确保数据集的质量和适用性,包括音频片段的语义分割和无声区域的处理。
GTSinger 的应用场景
GTSinger 在以下领域具有广泛的应用前景:
- 歌声合成: 开发出合成具有特定技巧和风格的高质量歌声的系统。
- 歌声技巧识别: 训练模型识别和分类不同的歌声技巧。
- 歌声风格迁移: 将一种风格的歌声转换为另一种风格。
- 语音到歌声的转换: 将普通语音转换为旋律化的歌声。
- 音乐教育: 开发音乐教学工具,帮助学生学习和练习唱歌技巧。
结论
GTSinger 的开源发布,为歌声合成领域的研究和应用提供了宝贵的资源。它将推动歌声合成技术的发展,并为音乐创作、音乐教育等领域带来新的可能性。
参考文献
- GTSinger 项目官网:gtsinger.github.io
- GTSinger GitHub 仓库:https://github.com/GTSinger/GTSinger
- GTSinger HuggingFace 模型库:https://huggingface.co/datasets/GTSinger/GTSinger
- GTSinger arXiv 技术论文:https://arxiv.org/pdf/2409.13832
Views: 0