Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

90年代申花出租车司机夜晚在车内看文汇报90年代申花出租车司机夜晚在车内看文汇报
0

香港,[日期] – 香港科技大学与人工智能公司月之暗面近日联合发布了一款名为AudioX的创新型扩散变换器模型,该模型能够根据任意内容生成音频,标志着AI在跨模态学习领域取得了又一项重大突破。AudioX的发布,无疑将为视频配乐、动画音效、音乐生成等领域带来革命性的变革。

AudioX:打破模态壁垒,实现音频自由生成

AudioX的核心在于其强大的多模态输入支持,它能够处理文本、视频、图像、音乐和音频等多种输入模态,并生成高质量的音频输出。这意味着,用户只需输入一段文字描述,一段视频片段,甚至是一张图片,AudioX就能智能地生成与之匹配的音效或音乐。

例如,用户输入“狗吠声”,AudioX便能生成逼真的狗吠音频;输入一段汽车行驶的视频,模型则可以生成汽车发动机的轰鸣声。这种强大的能力,得益于AudioX所采用的统一扩散变压器模型和多模态掩码训练策略。

技术解析:扩散模型与多模态掩码训练

AudioX的技术原理主要基于扩散模型(Diffusion Model)。扩散模型的核心思想是将输入数据逐步添加噪声,然后通过一个逆向过程逐步去除噪声,最终生成高质量的音频或音乐。

具体而言,AudioX的前向扩散过程是将输入数据逐步添加高斯噪声,生成一系列含噪的潜变量。而反向去噪过程则是通过训练一个去噪网络(通常是一个 Transformer),逐步去除噪声,重建干净的音频数据。

为了增强模型的跨模态学习能力,AudioX采用了多模态掩码训练策略。在训练过程中,模型会随机掩码部分输入模态,迫使模型从不完整的输入中学习,提高模型的鲁棒性和泛化能力。

此外,AudioX还集成了多种专用编码器,分别处理不同模态的输入数据,然后将这些编码后的特征融合到一个统一的潜空间中。这些编码器包括:

  • 视频编码器: 使用 CLIP-ViT-B/32 提取视频帧的特征。
  • 文本编码器: 使用 T5-base 提取文本的特征。
  • 音频编码器: 使用自编码器提取音频的特征。

通过线性变换和连接操作,不同模态的特征被融合到一个统一的多模态嵌入向量中,并作为条件输入,帮助模型生成与输入条件一致的音频或音乐。

应用前景:赋能各行各业,开启音频创作新纪元

AudioX的应用场景十分广泛,它能够:

  • 为视频配乐: 根据视频内容自动生成背景音乐或音效,提升视频的吸引力和情感共鸣。
  • 为动画制作音效: 为动画场景生成匹配的音效,如脚步声、风声、爆炸声等,增强动画的沉浸感。
  • 辅助音乐创作: 根据文本描述或风格要求生成音乐,为音乐创作者提供灵感或辅助创作。
  • 改善语言学习体验: 生成与语言学习内容相关的音效或背景音乐,增强学习体验。

AudioX的发布,不仅展示了香港科技大学和月之暗面在人工智能领域的强大实力,也预示着AI技术将在音频创作领域发挥越来越重要的作用。未来,随着AudioX的不断完善和应用,我们有理由相信,它将为各行各业带来更多的创新和机遇。

项目地址:

参考文献:

  • Zeyue Tian, et al. AudioX: Unified Diffusion Transformer for Any-to-Audio Generation. arXiv preprint arXiv:2503.10522 (2025).

结语:

AudioX的问世,是人工智能领域在跨模态生成方面的一次重要飞跃。它不仅展现了AI在理解和生成复杂音频内容方面的潜力,也为未来的内容创作和人机交互开辟了新的可能性。随着技术的不断进步,我们期待看到更多类似AudioX的创新成果,为人类的生活带来更多的便利和乐趣。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注