Adobe联手加大，DITTO-2音乐生成模型震撼发布！

旧金山/北京 [日期] – 在人工智能音乐创作领域，一场新的技术革命正在悄然发生。Adobe与加州大学的研究人员近日联合推出了一款名为DITTO-2的音乐生成模型，该模型以其卓越的生成速度和高度的可控性，引发了业界的广泛关注。

DITTO-2并非横空出世，而是站在了巨人肩膀上。它巧妙地利用了扩散模型推理时间优化（Inference-Time Optimization, ITO）技术，并通过模型蒸馏技术，如一致性模型（Consistency Model, CM）和一致性轨迹模型（Consistency Trajectory Model, CTM），实现了惊人的速度提升。据研究人员透露，DITTO-2的生成速度已经超越了实时，这无疑为音乐创作带来了前所未有的可能性。

DITTO-2：不止是快，更是全能

DITTO-2的功能远不止于速度。它支持多种复杂的音乐生成任务，包括：

音乐修复与扩展： 能够对现有音乐片段进行智能填充和延续，为音乐创作提供更多灵感。
强度控制： 用户可以自定义音乐的强度变化曲线，创造出更具表现力的作品。
旋律控制： 通过输入参考旋律，DITTO-2可以生成与之匹配的音乐，实现个性化定制。
音乐结构控制： 支持对音乐结构的精细控制，例如定义A段和B段的时长，让音乐创作更加灵活。
文本到音乐生成： DITTO-2可以将无条件扩散模型转换为具有先进文本控制能力的模型，通过最大化CLAP分数实现高质量的文本到音乐生成，真正实现了“文字变音符”的奇妙过程。

技术解析：速度背后的秘密

DITTO-2的卓越性能源于其独特的技术原理：

扩散模型蒸馏： 通过CM和CTM两种模型蒸馏技术，将基础扩散模型提炼为一个单步采样的新网络，极大地提高了生成效率。
推理时间优化（ITO）： 在生成过程中实时调整模型状态，使其更好地符合控制条件或目标，实现对音乐强度、旋律、结构等的精准控制。
代理优化与多步解码： 将优化过程与最终解码过程分离，在保持快速推理的同时，显著提升了生成音乐的质量。

更令人惊喜的是，DITTO-2的训练成本相对较低，仅需在A100 GPU上训练30多小时，这无疑降低了AI音乐创作的门槛，让更多人有机会参与其中。

应用前景：无限可能

DITTO-2的应用场景十分广泛：

音乐创作与生成： 通过简单的文本描述，即可生成高质量的音乐，为音乐人提供强大的创作工具。
实时音乐生成： 适用于需要快速生成音乐的场景，如实时音乐创作或现场表演，为表演者带来更多创意空间。
音乐教育： 实时生成示例音乐，帮助学生更好地理解和学习音乐理论，为教师提供更生动的教学素材。
有声读物和多媒体内容创作： 将文本描述转换为音乐，为有声读物、播客或多媒体项目生成背景音乐，提升作品的艺术感染力。

专家观点

“DITTO-2的出现，标志着AI音乐生成技术进入了一个新的阶段。”一位不愿透露姓名的音乐科技专家表示，“它不仅在速度上取得了突破，更在可控性和生成质量上达到了新的高度。我们有理由相信，DITTO-2将为音乐创作带来革命性的变革。”

展望未来

DITTO-2的发布，无疑为AI音乐创作领域注入了新的活力。随着技术的不断发展和完善，我们有理由期待，AI将在音乐创作中扮演越来越重要的角色，为我们带来更多美妙的音乐体验。

项目地址：

项目官网：https://ditto-music.github.io/ditto2
arXiv技术论文：https://arxiv.org/pdf/2405.20289

参考文献：

DITTO-2项目官网
DITTO-2 arXiv技术论文
相关音乐生成模型研究报告

（完）

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30