shanghaishanghai

清华大学、香港科技大学、腾讯AI Lab以及中国科学院的研究团队近日开源了一项名为“Follow Your Pose”的创新视频生成框架。该框架允许用户通过文本描述和指定的人物姿态,生成高度一致且连贯的视频内容。

文本到视频生成,创新交互体验

Follow Your Pose 的核心功能是将用户的文本输入转化为生动的视频。用户可以提供详细的场景描述和角色动作,框架将依据这些信息生成相应的视频,涵盖角色行为、背景环境以及视觉风格,为创意表达提供了全新的工具。

姿态控制,精确动作定制

此框架的一大亮点是其姿态控制能力。用户可以设定人物的动作序列,确保视频中角色的每一个动作细节都能按照预设进行,为视频创作提供了前所未有的精细度。

时间连贯性与多样化生成

Follow Your Pose 保证了视频在时间上的连贯性,使得动作和场景变化流畅自然。同时,框架能够生成多样化的角色和背景,适应不同的艺术风格,如现实、卡通或赛博朋克等。

多角色与风格化视频

不仅如此,该框架还支持多角色视频的生成,可以同时处理多个角色的身份和动作,创造出丰富多样的叙事场景。用户还可以通过添加特定风格描述,生成具有独特艺术风格的视频作品。

两阶段训练策略,确保生成质量

Follow Your Pose 的工作原理基于两阶段训练。首先,姿态编码器学习姿态信息,并将这些特征注入到预训练的文本到图像模型中。然后,在第二阶段,通过3D网络结构和跨帧自注意力模块,模型在无姿态标注的视频数据集上学习时间连贯性,进一步提升视频生成的连贯性和一致性。

这一开源项目不仅展现了人工智能在视频生成领域的最新进展,也为内容创作者提供了强大的工具,有望推动创意产业的创新和发展。感兴趣的用户可以通过官方项目主页、GitHub代码库以及多个在线运行平台进行访问和试用。

【source】https://ai-bot.cn/follow-your-pose/

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注