腾讯开源图像到视频模型 Follow-Your-Click:只需点击,就能让静态图像动起来!

北京,2024年4月1日 – 腾讯公司(混元团队)联合清华大学和香港科技大学的研究人员共同研发了一款名为 Follow-Your-Click 的图像到视频生成模型,并已于近日开源。该模型能够通过简单的点击和简短的动作提示,将静态图像转换为动态视频,实现局部图像动画,为用户提供了一种全新的图像动画创作方式。

Follow-Your-Click 的诞生,旨在解决现有大多数图像到视频方法无法实现局部动画的缺陷。传统方法往往只能移动整个场景,而无法对图像中的特定区域进行独立的动画处理。Follow-Your-Click 的出现,则为用户提供了更灵活、更精细的图像动画控制能力。

Follow-Your-Click 的主要功能:

  • 简单友好的交互: 用户只需通过点击图像中的特定区域,并输入简短的动作提示,即可生成局部动画效果。
  • 局部动画生成: 用户可以选择图像的任何部分,并为其添加动态效果,例如让物体微笑、摇摆或移动。
  • 多对象动画: 模型支持对图像中的多个对象同时进行动画处理,允许用户创建更为丰富和复杂的动态场景。
  • 简短动作提示: 用户只需提供简短的动作描述,模型就能够理解并生成相应的动画效果,简化了动画制作过程。
  • 高质量视频生成: 模型采用了先进的技术策略,如第一帧遮罩策略和基于光流的运动幅度控制,确保生成的视频具有高质量和真实感。
  • 运动速度控制: 模型还允许用户控制动画对象的运动速度,通过精确的控制来满足不同的动画需求。

Follow-Your-Click 的工作原理:

  1. 用户交互: 用户通过点击图像上的特定位置选择需要动画化的对象区域,并提供一个简短的动作提示。
  2. 图像分割: 框架集成了 SAM(Segment Anything)工具,根据用户的点击生成高质量的对象掩码。
  3. 第一帧遮罩策略: 模型在训练过程中会随机遮罩一部分输入图像的潜在表示,以增强模型学习时间相关性的能力。
  4. 运动增强模块: 该模块通过交叉注意力层增强模型对动作相关词汇的响应,并使用短动作提示进行训练。
  5. 基于光流的运动幅度控制: 模型通过计算光流的平均幅度,精确控制单个对象的运动速度。
  6. 视频生成: 模型结合用户指定的区域掩码和动作提示,生成一系列连贯的动画帧,最终输出动画视频。

Follow-Your-Click 的意义:

Follow-Your-Click 的开源,为图像动画领域带来了新的突破。它不仅为用户提供了更加便捷的图像动画创作方式,也为图像到视频生成技术的发展提供了新的方向。该模型的应用场景十分广泛,例如:

  • 游戏开发: 可以用于创建更逼真的游戏角色动画和场景动画。
  • 影视制作: 可以用于制作更精细的特效和动画。
  • 教育和培训: 可以用于制作更生动的教学视频和培训视频。
  • 广告和营销: 可以用于制作更吸引人的广告和营销视频。

随着技术的不断发展,相信 Follow-Your-Click 会在未来得到更广泛的应用,为人们的生活带来更多便利和乐趣。

相关链接:

  • 官方项目主页:https://follow-your-click.github.io/
  • arXiv 研究论文:https://arxiv.org/abs/2403.08268
  • GitHub 代码库:https://github.com/mayuelala/FollowYourClick

【source】https://ai-bot.cn/follow-your-click/

Views: 2

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注