(2023年10月26日)近日,中国科学院自动化研究所与美团点评共同研发的“Draw an Audio”视频生成音频系统正式亮相。该系统基于先进的AI技术,能够根据视频内容自动生成匹配的声音效果,为视频内容创作者提供高效、灵活的声音设计工具,标志着我国在AI视频生成领域取得了新的突破。
技术创新,打造高效声音设计工具
“Draw an Audio”系统利用潜在扩散模型(LDM)、文本条件模型、掩码注意力模块(MAM)和时间-响度模块(TLM)等核心技术,实现了视频内容与音频效果的精准匹配。系统分析视频内容,结合多种输入指令,如文本、视频遮罩和响度信号,生成与视频内容、时间和响度一致的音频。
该系统的主要功能包括:
- 内容一致性:根据视频内容生成匹配的声音效果,如动物叫声、物体碰撞声等。
- 时间一致性:音频与视频中的动作精确同步,确保声音效果在正确的时间点出现。
- 响度一致性:根据视频中的动作强度调整声音的响度,如远处物体声音较小,近处物体声音较大。
- 多指令输入:支持多种输入指令,如视频本身、相关文本描述、视频遮罩和响度信号,音频生成更加灵活和可控。
- 高质量的同步音频:通过多指令的利用,生成与视频内容自然同步的高质量音频,提升观看体验。
应用场景广泛,助力影视产业升级
“Draw an Audio”视频生成音频系统具有广泛的应用场景,包括:
- 电影和视频制作:为无声视频添加匹配的音效,提高制作效率并减少成本。
- 游戏开发:为游戏中的动画和场景生成逼真的声音效果,增强玩家沉浸感。
- 虚拟现实(VR)和增强现实(AR):在虚拟环境中生成与场景相匹配的声音,提升用户体验。
- 教育和培训:为教育视频自动生成解释性的声音,帮助学生更好地理解和吸收知识。
- 动画制作:自动生成动画角色的对话和环境音效,使动画制作更加高效。
- 广告制作:为广告视频生成吸引人的音频效果,增强广告的吸引力和记忆点。
AI赋能,开启影视制作新篇章
“Draw an Audio”视频生成音频系统的推出,标志着我国在AI视频生成领域取得了新的突破。该系统利用AI技术,为影视制作提供了高效、灵活的声音设计工具,将极大地推动影视产业的升级和发展。
未来,随着AI技术的不断进步,相信“Draw an Audio”视频生成音频系统将在更多领域发挥重要作用,为人们带来更加丰富、精彩的视听体验。
Views: 0