港科大联手月之暗面，AI音频生成新突破！

香港，[日期] – 香港科技大学与人工智能公司月之暗面近日联合发布了一款名为AudioX的创新型扩散变换器模型，该模型能够根据任意内容生成音频，标志着AI在跨模态学习领域取得了又一项重大突破。AudioX的发布，无疑将为视频配乐、动画音效、音乐生成等领域带来革命性的变革。

AudioX：打破模态壁垒，实现音频自由生成

AudioX的核心在于其强大的多模态输入支持，它能够处理文本、视频、图像、音乐和音频等多种输入模态，并生成高质量的音频输出。这意味着，用户只需输入一段文字描述，一段视频片段，甚至是一张图片，AudioX就能智能地生成与之匹配的音效或音乐。

例如，用户输入“狗吠声”，AudioX便能生成逼真的狗吠音频；输入一段汽车行驶的视频，模型则可以生成汽车发动机的轰鸣声。这种强大的能力，得益于AudioX所采用的统一扩散变压器模型和多模态掩码训练策略。

技术解析：扩散模型与多模态掩码训练

AudioX的技术原理主要基于扩散模型（Diffusion Model）。扩散模型的核心思想是将输入数据逐步添加噪声，然后通过一个逆向过程逐步去除噪声，最终生成高质量的音频或音乐。

具体而言，AudioX的前向扩散过程是将输入数据逐步添加高斯噪声，生成一系列含噪的潜变量。而反向去噪过程则是通过训练一个去噪网络（通常是一个 Transformer），逐步去除噪声，重建干净的音频数据。

为了增强模型的跨模态学习能力，AudioX采用了多模态掩码训练策略。在训练过程中，模型会随机掩码部分输入模态，迫使模型从不完整的输入中学习，提高模型的鲁棒性和泛化能力。

此外，AudioX还集成了多种专用编码器，分别处理不同模态的输入数据，然后将这些编码后的特征融合到一个统一的潜空间中。这些编码器包括：

通过线性变换和连接操作，不同模态的特征被融合到一个统一的多模态嵌入向量中，并作为条件输入，帮助模型生成与输入条件一致的音频或音乐。

应用前景：赋能各行各业，开启音频创作新纪元

AudioX的应用场景十分广泛，它能够：

AudioX的发布，不仅展示了香港科技大学和月之暗面在人工智能领域的强大实力，也预示着AI技术将在音频创作领域发挥越来越重要的作用。未来，随着AudioX的不断完善和应用，我们有理由相信，它将为各行各业带来更多的创新和机遇。

项目地址：

参考文献：

Zeyue Tian, et al. AudioX: Unified Diffusion Transformer for Any-to-Audio Generation. arXiv preprint arXiv:2503.10522 (2025).

结语：

AudioX的问世，是人工智能领域在跨模态生成方面的一次重要飞跃。它不仅展现了AI在理解和生成复杂音频内容方面的潜力，也为未来的内容创作和人机交互开辟了新的可能性。随着技术的不断进步，我们期待看到更多类似AudioX的创新成果，为人类的生活带来更多的便利和乐趣。