腾讯开源照片对口型视频生成框架 AniPortrait:让照片“开口说话”
北京,2024年4月2日 – 腾讯近日开源了其照片对口型视频生成框架 AniPortrait,该框架能够通过音频和一张参考肖像图片生成高质量的动画,让静态照片“开口说话”。AniPortrait 的出现,标志着 AI 技术在视频生成领域取得了新的突破,为用户提供了更加便捷、高效的视频制作工具。
AniPortrait 的工作原理
AniPortrait 的工作原理分为两个阶段:
- 音频到面部标记点 (Audio2Lmk):该模块首先使用预训练的 wav2vec 模型提取音频特征,识别音频中的发音和语调,并将其转换为 3D 面部网格和头部姿势信息。然后,通过透视投影将 3D 网格和姿势信息转换为2D 面部标记点序列。
- 面部标记点到视频 (Lmk2Video):该模块以参考肖像图像和面部标记点序列为输入,使用 Stable Diffusion 1.5 作为骨干网络,结合时间运动模块,将多帧噪声输入转换为一系列视频帧。同时,引入 ReferenceNet 模块提取参考图像的外观信息,确保生成的动画在视觉上与原始肖像保持一致。
AniPortrait 的优势
AniPortrait 拥有以下优势:
- 高质量的视觉效果:该框架能够生成高分辨率、视觉上逼真的肖像动画,提供出色的视觉体验。
- 时间一致性:生成的动画在时间上保持连贯性,角色动作流畅自然,没有突兀的跳跃或不一致。
- 灵活性和可控性:框架提供了对动画编辑的灵活性,允许用户对生成的动画进行进一步的定制和调整。
- 精确捕捉面部表情和嘴唇动作:AniPortrait 能够精确捕捉和再现嘴唇的微妙动作和复杂的面部表情。
- 与参考图像的一致性:框架确保生成的动画在视觉上与原始肖像保持一致,避免了身份不匹配的问题。
AniPortrait 的应用场景
AniPortrait 的应用场景非常广泛,例如:
- 视频制作:可以将静态照片制作成动态视频,用于广告、宣传片、短视频等场景。
- 虚拟主播:可以将虚拟主播的形象与音频进行同步,实现更加逼真的虚拟直播体验。
- 教育和培训:可以将教学视频制作成更加生动有趣的动画形式,提高学习效率。
- 娱乐和游戏:可以将游戏角色的形象制作成动态视频,增强游戏体验。
开源的意义
腾讯开源 AniPortrait,不仅为开发者提供了强大的视频生成工具,也推动了 AI 技术在视频领域的发展。开发者可以基于 AniPortrait 框架进行二次开发,探索更多创新应用场景。
总结
AniPortrait 是一个强大的照片对口型视频生成框架,它能够将静态照片“开口说话”,为用户提供了更加便捷、高效的视频制作工具。相信随着 AI 技术的不断发展,AniPortrait 将会得到更广泛的应用,为视频制作领域带来更多可能性。
相关链接
- AniPortrait 官网入口: https://github.com/Zejun-Yang/AniPortrait
- arXiv 研究论文: https://arxiv.org/abs/2403.17694
- Hugging Face 模型: https://huggingface.co/ZJYang/AniPortrait/tree/main
- Hugging Face Demo: https://huggingface.co/spaces/ZJYang/AniPortrait_official
【source】https://ai-bot.cn/aniportrait-ai/
Views: 0