Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

旧金山(2024年5月16日) – Meta公司今日发布了一项名为VideoJAM的创新框架,旨在显著提升视频生成模型在运动连贯性方面的表现。这项技术通过引入联合外观-运动表示,让模型在训练阶段同时学习预测视频的像素和运动信息,从而在推理阶段能够基于自身的运动预测作为动态引导信号,生成更为自然和连贯的运动视频。

在人工智能(AI)领域,视频生成一直是一个极具挑战性的课题。尽管现有的模型在视觉质量上取得了显著进展,但在生成具有逼真运动的视频方面仍然面临诸多困难。生成的视频常常出现不自然的变形、物理规律错误等问题,严重影响了用户体验。Meta此次发布的VideoJAM框架,正是为了解决这一痛点。

VideoJAM的核心在于其独特的技术原理:

  • 联合外观-运动表示: 在训练阶段,VideoJAM不仅预测视频的像素(外观),还预测视频的运动信息(如光流)。为此,它在模型的输入端添加了一个线性层,将视频和运动信息合并为一个联合表示;在输出端添加另一个线性层,从联合表示中提取运动预测。目标函数也被修改为同时优化外观和运动的预测。
  • 动态引导机制(Inner-Guidance): 在生成视频时,VideoJAM利用模型自身不断演化的运动预测作为动态引导信号。通过修改采样分布,引导生成过程朝着连贯运动的方向发展。这种机制确保了生成的视频在运动上更加合理和自然。

Meta的研究人员表示,VideoJAM具有极强的通用性和适配性。它只需在现有视频生成模型中添加两个线性层,并对目标函数进行少量修改即可。它不需要额外的训练数据或模型规模的扩展,可以轻松应用于各种视频生成模型。

VideoJAM的应用前景广阔,涵盖了多个领域:

  • 娱乐与影视制作: 生成创意视频、动画、特效,提升制作效率和视觉效果,适用于广告、科幻或动作视频等。
  • 游戏开发: 生成游戏中的角色动作和特效动画,优化游戏性能,同时在游戏测试和开发阶段的快速原型制作。
  • 教育与培训: 在军事、航空、医疗等领域生成模拟训练视频,帮助学员熟悉操作流程;也可用于在线教育,制作生动的教学视频。
  • 广告与营销: 制作吸引人的广告视频和产品演示视频,用于社交媒体、电视广告等,提升品牌影响力和产品展示效果。
  • 社交媒体与内容创作: 帮助用户快速生成有趣、高质量的视频内容,满足创作者的多样化需求,提升社交媒体的互动性。

Meta方面表示,VideoJAM已经在多个基准测试中超越了现有最先进的模型,为视频生成技术的发展提供了新的思路。该框架的开源,无疑将加速AI视频生成技术的进步,并为各行各业带来创新机遇。

项目地址:

参考文献:

  • Hila Chefer, et al. VideoJAM: Augmenting Video Generation with Motion Coherency. arXiv preprint arXiv:2405.xxxxx (2024).


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注