旧金山(2024年5月16日) – Meta公司今日发布了一项名为VideoJAM的创新框架,旨在显著提升视频生成模型在运动连贯性方面的表现。这项技术通过引入联合外观-运动表示,让模型在训练阶段同时学习预测视频的像素和运动信息,从而在推理阶段能够基于自身的运动预测作为动态引导信号,生成更为自然和连贯的运动视频。
在人工智能(AI)领域,视频生成一直是一个极具挑战性的课题。尽管现有的模型在视觉质量上取得了显著进展,但在生成具有逼真运动的视频方面仍然面临诸多困难。生成的视频常常出现不自然的变形、物理规律错误等问题,严重影响了用户体验。Meta此次发布的VideoJAM框架,正是为了解决这一痛点。
VideoJAM的核心在于其独特的技术原理:
- 联合外观-运动表示: 在训练阶段,VideoJAM不仅预测视频的像素(外观),还预测视频的运动信息(如光流)。为此,它在模型的输入端添加了一个线性层,将视频和运动信息合并为一个联合表示;在输出端添加另一个线性层,从联合表示中提取运动预测。目标函数也被修改为同时优化外观和运动的预测。
- 动态引导机制(Inner-Guidance): 在生成视频时,VideoJAM利用模型自身不断演化的运动预测作为动态引导信号。通过修改采样分布,引导生成过程朝着连贯运动的方向发展。这种机制确保了生成的视频在运动上更加合理和自然。
Meta的研究人员表示,VideoJAM具有极强的通用性和适配性。它只需在现有视频生成模型中添加两个线性层,并对目标函数进行少量修改即可。它不需要额外的训练数据或模型规模的扩展,可以轻松应用于各种视频生成模型。
VideoJAM的应用前景广阔,涵盖了多个领域:
- 娱乐与影视制作: 生成创意视频、动画、特效,提升制作效率和视觉效果,适用于广告、科幻或动作视频等。
- 游戏开发: 生成游戏中的角色动作和特效动画,优化游戏性能,同时在游戏测试和开发阶段的快速原型制作。
- 教育与培训: 在军事、航空、医疗等领域生成模拟训练视频,帮助学员熟悉操作流程;也可用于在线教育,制作生动的教学视频。
- 广告与营销: 制作吸引人的广告视频和产品演示视频,用于社交媒体、电视广告等,提升品牌影响力和产品展示效果。
- 社交媒体与内容创作: 帮助用户快速生成有趣、高质量的视频内容,满足创作者的多样化需求,提升社交媒体的互动性。
Meta方面表示,VideoJAM已经在多个基准测试中超越了现有最先进的模型,为视频生成技术的发展提供了新的思路。该框架的开源,无疑将加速AI视频生成技术的进步,并为各行各业带来创新机遇。
项目地址:
- 项目官网:https://hila-chefer.github.io/videojam
- 技术论文:https://hila-chefer.github.io/videojam-paper.github.io/VideoJAM_arxiv.pdf
参考文献:
- Hila Chefer, et al. VideoJAM: Augmenting Video Generation with Motion Coherency. arXiv preprint arXiv:2405.xxxxx (2024).
Views: 0