周五. 11 月 15th, 2024

中科院美团联手，视频音频一键生成震撼发布！

作者智能小编

9 月 20, 2024 #中科院, #每日AI快讯, #视频

（2023年10月26日）近日，中国科学院自动化研究所与美团点评共同研发的“Draw an Audio”视频生成音频系统正式亮相。该系统基于先进的AI技术，能够根据视频内容自动生成匹配的声音效果，为视频内容创作者提供高效、灵活的声音设计工具，标志着我国在AI视频生成领域取得了新的突破。

技术创新，打造高效声音设计工具

“Draw an Audio”系统利用潜在扩散模型（LDM）、文本条件模型、掩码注意力模块（MAM）和时间-响度模块（TLM）等核心技术，实现了视频内容与音频效果的精准匹配。系统分析视频内容，结合多种输入指令，如文本、视频遮罩和响度信号，生成与视频内容、时间和响度一致的音频。

该系统的主要功能包括：

内容一致性：根据视频内容生成匹配的声音效果，如动物叫声、物体碰撞声等。
时间一致性：音频与视频中的动作精确同步，确保声音效果在正确的时间点出现。
响度一致性：根据视频中的动作强度调整声音的响度，如远处物体声音较小，近处物体声音较大。
多指令输入：支持多种输入指令，如视频本身、相关文本描述、视频遮罩和响度信号，音频生成更加灵活和可控。
高质量的同步音频：通过多指令的利用，生成与视频内容自然同步的高质量音频，提升观看体验。

应用场景广泛，助力影视产业升级

“Draw an Audio”视频生成音频系统具有广泛的应用场景，包括：

电影和视频制作：为无声视频添加匹配的音效，提高制作效率并减少成本。
游戏开发：为游戏中的动画和场景生成逼真的声音效果，增强玩家沉浸感。
虚拟现实（VR）和增强现实（AR）：在虚拟环境中生成与场景相匹配的声音，提升用户体验。
教育和培训：为教育视频自动生成解释性的声音，帮助学生更好地理解和吸收知识。
动画制作：自动生成动画角色的对话和环境音效，使动画制作更加高效。
广告制作：为广告视频生成吸引人的音频效果，增强广告的吸引力和记忆点。

AI赋能，开启影视制作新篇章

“Draw an Audio”视频生成音频系统的推出，标志着我国在AI视频生成领域取得了新的突破。该系统利用AI技术，为影视制作提供了高效、灵活的声音设计工具，将极大地推动影视产业的升级和发展。

未来，随着AI技术的不断进步，相信“Draw an Audio”视频生成音频系统将在更多领域发挥重要作用，为人们带来更加丰富、精彩的视听体验。

>>> Read more <<<

Views: 0

相关文章

OpenAICo-Founder Brockman Returns as President Focusing on Major Tech Challenges

11 月 15, 2024 智能小编

ShopifySoars 20% What’s Behind the Surge?

11 月 15, 2024 智能小编

OpenAI联合创始人回归，担任总裁！

11 月 15, 2024 智能小编

发表回复取消回复

为您推荐

OpenAICo-Founder Brockman Returns as President Focusing on Major Tech Challenges

2024年11月15日

ShopifySoars 20% What’s Behind the Surge?

2024年11月15日

OpenAI联合创始人回归，担任总裁！

2024年11月15日

Shopify暴涨20%！秘密何在？

2024年11月15日