Chinese University and iFlytek Release Open-Source Music Generation Model

作者智能小编

10 月 6, 2024 #open, #ustc, #每日AI快讯

上海的陆家嘴

中科大联合科大讯飞推出开源音乐生成模型 QA-MDT，赋能音乐创作新纪元

中国科学技术大学与科大讯飞近日联合发布了开源音乐生成模型 QA-MDT（Quality-aware Masked Diffusion Transformer），为音乐创作领域带来了新的突破。 该模型基于文本描述生成高质量且音乐性强的音乐，其创新的质量感知训练策略在训练过程中识别并提升音乐波形的质量，为音乐制作和多媒体创作提供了强大的工具。

QA-MDT 的核心功能包括：

文本到音乐的生成： 用户只需提供文本描述，QA-MDT 就能生成与之相匹配的音乐，为音乐创作提供了更便捷的途径。
质量控制： 模型通过识别和提升生成音乐的质量，确保输出的音乐具有高保真度，满足专业音乐制作的标准。
数据集优化： 通过预处理和优化数据集，提高音乐和文本的对齐度，使生成的音乐更符合文本描述。
多样性生成： 模型能生成风格多样的音乐，满足不同用户的需求，为音乐创作提供了更多可能性。

QA-MDT 的技术原理主要基于以下几个方面：

文本到音乐的生成： 利用自然语言处理 (NLP) 技术解析文本，将其转换为音乐特征，并最终生成音乐。
质量感知训练： 在训练过程中，使用质量评分模型（如伪MOS分数）评估音乐样本的质量，引导模型生成高质量音乐。
*掩蔽扩散变换器 (MDT)：基于 Transformer 架构，通过掩蔽和预测音乐信号的部分内容来学习音乐的潜在表示，提高音乐生成的准确性和效率。

QA-MDT 的开源发布将为音乐创作领域带来以下积极影响：