腾讯开源图像到视频模型 Follow-Your-Click:只需点击,就能让静态图像动起来!
北京,2024年4月1日 – 腾讯公司(混元团队)联合清华大学和香港科技大学的研究人员共同研发了一款名为 Follow-Your-Click 的图像到视频生成模型,并已于近日开源。该模型能够通过简单的点击和简短的动作提示,将静态图像转换为动态视频,实现局部图像动画,为用户提供了一种全新的图像动画创作方式。
Follow-Your-Click 的诞生,旨在解决现有大多数图像到视频方法无法实现局部动画的缺陷。传统方法往往只能移动整个场景,而无法对图像中的特定区域进行独立的动画处理。Follow-Your-Click 的出现,则为用户提供了更灵活、更精细的图像动画控制能力。
Follow-Your-Click 的主要功能:
- 简单友好的交互: 用户只需通过点击图像中的特定区域,并输入简短的动作提示,即可生成局部动画效果。
- 局部动画生成: 用户可以选择图像的任何部分,并为其添加动态效果,例如让物体微笑、摇摆或移动。
- 多对象动画: 模型支持对图像中的多个对象同时进行动画处理,允许用户创建更为丰富和复杂的动态场景。
- 简短动作提示: 用户只需提供简短的动作描述,模型就能够理解并生成相应的动画效果,简化了动画制作过程。
- 高质量视频生成: 模型采用了先进的技术策略,如第一帧遮罩策略和基于光流的运动幅度控制,确保生成的视频具有高质量和真实感。
- 运动速度控制: 模型还允许用户控制动画对象的运动速度,通过精确的控制来满足不同的动画需求。
Follow-Your-Click 的工作原理:
- 用户交互: 用户通过点击图像上的特定位置选择需要动画化的对象区域,并提供一个简短的动作提示。
- 图像分割: 框架集成了 SAM(Segment Anything)工具,根据用户的点击生成高质量的对象掩码。
- 第一帧遮罩策略: 模型在训练过程中会随机遮罩一部分输入图像的潜在表示,以增强模型学习时间相关性的能力。
- 运动增强模块: 该模块通过交叉注意力层增强模型对动作相关词汇的响应,并使用短动作提示进行训练。
- 基于光流的运动幅度控制: 模型通过计算光流的平均幅度,精确控制单个对象的运动速度。
- 视频生成: 模型结合用户指定的区域掩码和动作提示,生成一系列连贯的动画帧,最终输出动画视频。
Follow-Your-Click 的意义:
Follow-Your-Click 的开源,为图像动画领域带来了新的突破。它不仅为用户提供了更加便捷的图像动画创作方式,也为图像到视频生成技术的发展提供了新的方向。该模型的应用场景十分广泛,例如:
- 游戏开发: 可以用于创建更逼真的游戏角色动画和场景动画。
- 影视制作: 可以用于制作更精细的特效和动画。
- 教育和培训: 可以用于制作更生动的教学视频和培训视频。
- 广告和营销: 可以用于制作更吸引人的广告和营销视频。
随着技术的不断发展,相信 Follow-Your-Click 会在未来得到更广泛的应用,为人们的生活带来更多便利和乐趣。
相关链接:
- 官方项目主页:https://follow-your-click.github.io/
- arXiv 研究论文:https://arxiv.org/abs/2403.08268
- GitHub 代码库:https://github.com/mayuelala/FollowYourClick
【source】https://ai-bot.cn/follow-your-click/
Views: 2