Meta发布VideoJAM，视频生成更流畅！

旧金山（2024年5月16日） – Meta公司今日发布了一项名为VideoJAM的创新框架，旨在显著提升视频生成模型在运动连贯性方面的表现。这项技术通过引入联合外观-运动表示，让模型在训练阶段同时学习预测视频的像素和运动信息，从而在推理阶段能够基于自身的运动预测作为动态引导信号，生成更为自然和连贯的运动视频。

在人工智能（AI）领域，视频生成一直是一个极具挑战性的课题。尽管现有的模型在视觉质量上取得了显著进展，但在生成具有逼真运动的视频方面仍然面临诸多困难。生成的视频常常出现不自然的变形、物理规律错误等问题，严重影响了用户体验。Meta此次发布的VideoJAM框架，正是为了解决这一痛点。

VideoJAM的核心在于其独特的技术原理：

联合外观-运动表示： 在训练阶段，VideoJAM不仅预测视频的像素（外观），还预测视频的运动信息（如光流）。为此，它在模型的输入端添加了一个线性层，将视频和运动信息合并为一个联合表示；在输出端添加另一个线性层，从联合表示中提取运动预测。目标函数也被修改为同时优化外观和运动的预测。
动态引导机制（Inner-Guidance）： 在生成视频时，VideoJAM利用模型自身不断演化的运动预测作为动态引导信号。通过修改采样分布，引导生成过程朝着连贯运动的方向发展。这种机制确保了生成的视频在运动上更加合理和自然。

Meta的研究人员表示，VideoJAM具有极强的通用性和适配性。它只需在现有视频生成模型中添加两个线性层，并对目标函数进行少量修改即可。它不需要额外的训练数据或模型规模的扩展，可以轻松应用于各种视频生成模型。

VideoJAM的应用前景广阔，涵盖了多个领域：

娱乐与影视制作： 生成创意视频、动画、特效，提升制作效率和视觉效果，适用于广告、科幻或动作视频等。
游戏开发： 生成游戏中的角色动作和特效动画，优化游戏性能，同时在游戏测试和开发阶段的快速原型制作。
教育与培训： 在军事、航空、医疗等领域生成模拟训练视频，帮助学员熟悉操作流程；也可用于在线教育，制作生动的教学视频。
广告与营销： 制作吸引人的广告视频和产品演示视频，用于社交媒体、电视广告等，提升品牌影响力和产品展示效果。
社交媒体与内容创作： 帮助用户快速生成有趣、高质量的视频内容，满足创作者的多样化需求，提升社交媒体的互动性。

Meta方面表示，VideoJAM已经在多个基准测试中超越了现有最先进的模型，为视频生成技术的发展提供了新的思路。该框架的开源，无疑将加速AI视频生成技术的进步，并为各行各业带来创新机遇。

项目地址：

项目官网：https://hila-chefer.github.io/videojam
技术论文：https://hila-chefer.github.io/videojam-paper.github.io/VideoJAM_arxiv.pdf

参考文献：

Hila Chefer, et al. VideoJAM: Augmenting Video Generation with Motion Coherency. arXiv preprint arXiv:2405.xxxxx (2024).

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Meta发布VideoJAM，视频生成更流畅！

作者智能小编

相关文章

Veo 2发布：视频创作，触手可及！

Zhipu GLM Unveils New Open-Source Model Claims World-Class Performance Launches “z.ai

智谱GLM模型升级，比肩世界先进！

发表回复取消回复

为您推荐