腾讯开源照片对口型视频生成框架 AniPortrait

腾讯开源照片对口型视频生成框架 AniPortrait：让照片“开口说话”

北京，2024年4月2日 – 腾讯近日开源了其照片对口型视频生成框架 AniPortrait，该框架能够通过音频和一张参考肖像图片生成高质量的动画，让静态照片“开口说话”。AniPortrait 的出现，标志着 AI 技术在视频生成领域取得了新的突破，为用户提供了更加便捷、高效的视频制作工具。

AniPortrait 的工作原理

AniPortrait 的工作原理分为两个阶段：

音频到面部标记点 (Audio2Lmk)：该模块首先使用预训练的 wav2vec 模型提取音频特征，识别音频中的发音和语调，并将其转换为 3D 面部网格和头部姿势信息。然后，通过透视投影将 3D 网格和姿势信息转换为2D 面部标记点序列。
面部标记点到视频 (Lmk2Video)：该模块以参考肖像图像和面部标记点序列为输入，使用 Stable Diffusion 1.5 作为骨干网络，结合时间运动模块，将多帧噪声输入转换为一系列视频帧。同时，引入 ReferenceNet 模块提取参考图像的外观信息，确保生成的动画在视觉上与原始肖像保持一致。

AniPortrait 的优势

AniPortrait 拥有以下优势：

高质量的视觉效果：该框架能够生成高分辨率、视觉上逼真的肖像动画，提供出色的视觉体验。
时间一致性：生成的动画在时间上保持连贯性，角色动作流畅自然，没有突兀的跳跃或不一致。
灵活性和可控性：框架提供了对动画编辑的灵活性，允许用户对生成的动画进行进一步的定制和调整。
精确捕捉面部表情和嘴唇动作：AniPortrait 能够精确捕捉和再现嘴唇的微妙动作和复杂的面部表情。
与参考图像的一致性：框架确保生成的动画在视觉上与原始肖像保持一致，避免了身份不匹配的问题。

AniPortrait 的应用场景

AniPortrait 的应用场景非常广泛，例如：

视频制作：可以将静态照片制作成动态视频，用于广告、宣传片、短视频等场景。
虚拟主播：可以将虚拟主播的形象与音频进行同步，实现更加逼真的虚拟直播体验。
教育和培训：可以将教学视频制作成更加生动有趣的动画形式，提高学习效率。
娱乐和游戏：可以将游戏角色的形象制作成动态视频，增强游戏体验。

开源的意义

腾讯开源 AniPortrait，不仅为开发者提供了强大的视频生成工具，也推动了 AI 技术在视频领域的发展。开发者可以基于 AniPortrait 框架进行二次开发，探索更多创新应用场景。

总结

AniPortrait 是一个强大的照片对口型视频生成框架，它能够将静态照片“开口说话”，为用户提供了更加便捷、高效的视频制作工具。相信随着 AI 技术的不断发展，AniPortrait 将会得到更广泛的应用，为视频制作领域带来更多可能性。

相关链接

AniPortrait 官网入口： https://github.com/Zejun-Yang/AniPortrait
arXiv 研究论文： https://arxiv.org/abs/2403.17694
Hugging Face 模型： https://huggingface.co/ZJYang/AniPortrait/tree/main
Hugging Face Demo： https://huggingface.co/spaces/ZJYang/AniPortrait_official

【source】https://ai-bot.cn/aniportrait-ai/

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

腾讯开源照片对口型视频生成框架 AniPortrait

作者智能小编

腾讯开源照片对口型视频生成框架 AniPortrait：让照片“开口说话”

相关文章

免费短剧，爆发式增长！或短剧免费：流量密码？或免费引爆！短剧狂飙

拼多多：降速，还是求变？拼多多战略转向：降速求变拼多多放慢脚步，谋求转型拼多多：从高速增长到精细运营拼多多：减速背后的战

阿里整合电商，家居小家电瞄准日本或者：阿里巴巴布局海外，日本成小家电新蓝海

发表回复取消回复

为您推荐

免费短剧，爆发式增长！或短剧免费：流量密码？或免费引爆！短剧狂飙

拼多多：降速，还是求变？拼多多战略转向：降速求变拼多多放慢脚步，谋求转型拼多多：从高速增长到精细运营拼多多：减速背后的战

阿里整合电商，家居小家电瞄准日本或者：阿里巴巴布局海外，日本成小家电新蓝海

石头科技：寻找下一个增长点石头科技谋求“第二曲线” 石头科技：转型升级在路上石头科技的第二曲线难题石头科技：巨头焦虑与突围

作者智能小编

腾讯开源照片对口型视频生成框架 AniPortrait：让照片“开口说话”

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复