英伟达联手新科大，开源TANGOFLUX音频模型

好的，请看我为您撰写的这篇新闻报道：

标题：TANGOFLUX：英伟达与新加坡科技设计大学联手开源文本到音频生成新星

引言：

在人工智能领域，文本到音频的转换技术正以前所未有的速度发展。近日，由科技巨头英伟达与新加坡科技设计大学（SUTD）联合开发的开源模型TANGOFLUX横空出世，以其卓越的性能和高效的生成速度，迅速吸引了全球研究人员和开发者的目光。这款拥有5.15亿参数的模型，不仅能在短短几秒内生成高质量音频，更在技术架构和应用场景上展现出巨大的潜力，预示着音频内容创作的新纪元即将到来。

主体：

TANGOFLUX：技术突破与高效性能的完美结合

TANGOFLUX并非简单的文本到音频转换工具，它代表着该领域的技术前沿。该模型的核心优势在于其高效的音频生成能力。据官方数据，TANGOFLUX仅需3.7秒即可在单个A40 GPU上生成长达30秒的44.1kHz高质量音频，这一速度在同类模型中堪称翘楚。

其技术原理也颇具创新性。TANGOFLUX采用了变分自编码器（VAE）将音频波形编码为潜在表示，并通过文本和时长嵌入来控制生成音频的内容和时长。更值得一提的是，该模型基于FluxTransformer架构，结合了Diffusion Transformer (DiT) 和 Multimodal Diffusion Transformer (MMDiT) 的优势，能够更有效地处理文本提示并生成高质量音频。

此外，TANGOFLUX还引入了流匹配（Flow Matching, FM）框架，学习从简单先验分布到复杂目标分布的映射，从而生成更自然的音频样本。为了进一步优化音频输出，该模型采用了CLAP-Ranked Preference Optimization (CRPO) 框架，通过迭代生成偏好数据对，并使用CLAP模型作为代理奖励模型，评估音频质量，最终实现音频与文本描述的高度对齐。直接偏好优化（DPO）的应用，则进一步提高了模型在音频生成方面的准确性和用户满意度。

开源共享：推动音频生成技术发展

TANGOFLUX的开源性质是其另一大亮点。项目团队在GitHub、HuggingFace等平台公开了模型的代码和模型权重，并提供了在线体验Demo，为研究人员和开发者提供了便捷的接入方式。这种开放共享的精神，无疑将加速文本到音频生成技术的发展，并推动其在更广泛领域的应用。

项目地址：
- 项目官网：tangoflux.github.io
- GitHub仓库：https://github.com/declare-lab/TangoFlux
- HuggingFace模型库：https://huggingface.co/declare-lab/TangoFlux
- arXiv技术论文：https://export.arxiv.org/pdf/2412.21037
- 在线体验Demo：https://huggingface.co/spaces/declare-lab/TangoFlux

广泛的应用前景：赋能多行业音频内容创作

TANGOFLUX的应用场景十分广泛，几乎涵盖了所有需要音频内容创作的领域。

多媒体内容创作： 在电影、游戏、广告和视频制作中，TANGOFLUX可以快速生成背景音乐、声效和配音，极大地提高制作效率并降低成本。
音频制作和设计： 音乐制作人和声音设计师可以利用TANGOFLUX创作新的音乐作品或设计特定的声音效果，为创意表达提供更多可能性。
播客和有声书： TANGOFLUX可以为播客或有声书自动生成背景音乐和声效，增强听众的听觉体验。
教育和培训： 在教育领域，TANGOFLUX可以创建模拟真实场景的音频，辅助语言学习或专业技能训练，提高学习效果。
虚拟助手和聊天机器人： TANGOFLUX可以为虚拟助手和聊天机器人提供更自然、更丰富的语音响应，提升用户交互体验。

结论：

TANGOFLUX的出现，不仅代表了文本到音频生成技术的又一次突破，更预示着人工智能在音频内容创作领域的巨大潜力。其高效的生成速度、高质量的音频输出以及开源共享的理念，将为全球研究人员和开发者提供强大的工具，推动该领域的技术进步和应用普及。随着TANGOFLUX的不断完善和应用，我们有理由相信，未来的音频内容创作将更加便捷、高效和个性化。

参考文献：