腾讯推出AI音乐创作大模型“琴乐”,开启音乐创作新纪元
腾讯AI Lab与腾讯TME天琴实验室近日联合发布了人工智能音乐创作大模型“琴乐”。这款模型能够根据用户输入的关键词、描述性语句或音频,直接生成立体声音频或多轨乐谱,并支持自动编辑功能,为音乐创作提供了全新的可能性。
“琴乐”的出现标志着人工智能在音乐创作领域迈出了重要一步。它不仅能够理解文本和音频之间的语义关系,还能根据音乐理论生成符合人类审美的音乐作品,为音乐创作者提供强大的创作工具。
“琴乐”的功能特色:
*音乐生成: 用户只需输入关键词、描述性语句或音频,模型就能自动生成音乐。
* 乐谱生成: 除了生成音频,“琴乐”还能生成包含旋律、和弦、伴奏和打击乐等多个轨道的详细乐谱,为用户提供丰富的音乐结构。
* 自动编辑: 模型支持对生成的乐谱进行一系列自动编辑操作,包括续写乐谱、重新生成特定的音轨或小节、调整配器、修改乐器类型和节奏,大大提高了创作的灵活性和效率。
* 音频文本对齐: 通过对比学习技术,“琴乐”构建了一个共享特征空间,将音频标签或文本描述与音频本身进行对齐,增强了音乐生成的相关性和准确性。
* 乐谱/音频表征提取:模型能够将乐谱或音频转换成一系列离散的特征序列,为大语言模型的预测提供了基础。
* 大语言模型预测: 使用decoder-only结构的大语言模型,通过特征预测(next token prediction)训练,预测出的序列可以转换回乐谱或音频,实现了从文本到音乐的转换。
* 音频恢复: 通过流匹配和声码器技术,模型能够将预测出的音频表征序列恢复成可听音频,增强了音频的真实感和质量。
* 音乐理论遵循: 在生成音乐的过程中,“琴乐”遵循音乐理论,确保旋律、和弦、节拍等元素符合音乐逻辑和人类审美。
体验和使用“琴乐”:
用户可以通过访问腾讯音乐启明星平台(https://y.qq.com/venus/#/venus/aigc/ai_compose)免费注册体验“琴乐”。在体验页面上,用户只需输入音乐关键词、语句或描述,选择音乐时长,点击开始生成,即可获得由“琴乐”生成的音乐。
“琴乐”的技术原理:
“琴乐”由多个模块协同工作,包括音频文本对齐模型、乐谱/音频表征提取模型、大语言模型、流匹配与声码器技术等。
- 音频文本对齐模型: 使用对比学习构建音频标签或文本描述与音频之间的共享特征空间,理解文本和音频之间的语义关系,并提供条件控制信号。
- 乐谱/音频表征提取模型: 将乐谱或音频转换为离散的特征序列,为大语言模型的预测提供基础。
- 大语言模型: 使用decoder-only结构的大语言模型,通过特征预测(next token prediction)训练,预测出的序列可以转换回乐谱或音频。
- 流匹配与声码器技术: 将预测出的音频表征序列转换为可听音频,增强音频的真实感。
未来展望:
“琴乐”的发布标志着人工智能在音乐创作领域取得了突破性进展。未来,研究团队还计划在模型中加入人声、歌词等要素的生成能力,以更好地服务音乐创作需求。随着人工智能技术的不断发展,“琴乐”有望成为音乐创作领域不可或缺的工具,为音乐创作带来更多可能性。
【source】https://ai-bot.cn/tencent-ai-music-llm/
Views: 0