南加州大学与字节跳动联合研发AI视频生成模型MagicPose,实现逼真动作和表情生成
北京时间2023年11月29日 – 近日,南加州大学和字节跳动联合研发了一款名为MagicPose的AI视频生成模型,该模型能够生成逼真的人体动作和面部表情视频,无需任何微调即可直接在野外数据上进行训练。
MagicPose的研发团队表示,该模型通过一个新颖的两阶段训练策略,将人体动作和外观特征分离,从而实现动作和表情在不同身份间的精确转移。这意味着用户可以将一个人物的动作和表情转移到另一个人物身上,同时保持目标人物的身份信息,例如面部特征、肤色和着装风格等。
MagicPose的另一大优势是其易用性。该模型可以作为Stable Diffusion等文本到图像模型的插件使用,并且在多种复杂场景下展现出良好的泛化能力。
MagicPose的主要功能特色包括:
- 逼真视频生成: MagicPose能够生成具有生动运动和面部表情的逼真人类视频。
- 无需微调: 该模型可直接在野外数据上生成一致性高的视频,无需针对特定数据进行微调。
- 外观一致性: 在生成视频时能够保持人物的外观特征,如面部特征、肤色和着装风格等。
- 动作和表情转移: 可以将一个人物的动作和表情转移到另一个人物上,同时保持目标人物的身份信息。
MagicPose的技术原理基于扩散模型,其两阶段训练策略包括:
- 第一阶段: 预训练外观控制块,用于分离人体动作和外观特征。
- 第二阶段: 精细调整外观-姿势-联合控制块,实现外观和动作的精确控制。
在训练过程中,MagicPose使用外观控制模型来分离人体动作和外观特征,并通过多源自注意模块在不同姿态下保持一致的外观。此外,该模型还采用了冻结训练模块,在某些模块训练完成后冻结其权重,以保持稳定性。
MagicPose的应用场景非常广泛,包括:
- 虚拟角色制作: MagicPose可以用来生成逼真的虚拟角色动作和表情,提高制作效率并降低成本。
- 动画制作: 动画师可以用MagicPose快速生成动画角色的动作和表情,加速动画创作过程。
- 社交媒体内容创作: 社交媒体用户可以用MagicPose生成个性化的动态表情或动作,用于社交媒体分享。
- 虚拟现实和增强现实: 在VR和AR应用中,MagicPose可以为虚拟角色提供逼真的动作和表情,增强用户体验。
- 教育和培训: MagicPose可用于模拟人物动作,如医学教育中的人体解剖演示或体育训练中的标准动作展示。
MagicPose的研发团队表示,该模型的出现将为视频生成领域带来新的突破,并将在多个领域得到广泛应用。
MagicPose的项目地址:
- GitHub仓库: https://github.com/Boese0601/MagicDance
- arXiv技术论文: https://arxiv.org/pdf/2311.12052
MagicPose的出现,标志着AI视频生成技术取得了新的进展,也预示着未来AI技术将在更多领域发挥重要作用。
【source】https://ai-bot.cn/magicpose/
Views: 0