清华大学、香港科技大学、腾讯AI Lab以及中国科学院的研究团队近日开源了一项名为“Follow Your Pose”的创新视频生成框架。该框架允许用户通过文本描述和指定的人物姿态,生成高度一致且连贯的视频内容。
文本到视频生成,创新交互体验
Follow Your Pose 的核心功能是将用户的文本输入转化为生动的视频。用户可以提供详细的场景描述和角色动作,框架将依据这些信息生成相应的视频,涵盖角色行为、背景环境以及视觉风格,为创意表达提供了全新的工具。
姿态控制,精确动作定制
此框架的一大亮点是其姿态控制能力。用户可以设定人物的动作序列,确保视频中角色的每一个动作细节都能按照预设进行,为视频创作提供了前所未有的精细度。
时间连贯性与多样化生成
Follow Your Pose 保证了视频在时间上的连贯性,使得动作和场景变化流畅自然。同时,框架能够生成多样化的角色和背景,适应不同的艺术风格,如现实、卡通或赛博朋克等。
多角色与风格化视频
不仅如此,该框架还支持多角色视频的生成,可以同时处理多个角色的身份和动作,创造出丰富多样的叙事场景。用户还可以通过添加特定风格描述,生成具有独特艺术风格的视频作品。
两阶段训练策略,确保生成质量
Follow Your Pose 的工作原理基于两阶段训练。首先,姿态编码器学习姿态信息,并将这些特征注入到预训练的文本到图像模型中。然后,在第二阶段,通过3D网络结构和跨帧自注意力模块,模型在无姿态标注的视频数据集上学习时间连贯性,进一步提升视频生成的连贯性和一致性。
这一开源项目不仅展现了人工智能在视频生成领域的最新进展,也为内容创作者提供了强大的工具,有望推动创意产业的创新和发展。感兴趣的用户可以通过官方项目主页、GitHub代码库以及多个在线运行平台进行访问和试用。
【source】https://ai-bot.cn/follow-your-pose/
Views: 0