腾讯等推出人像动画框架 Follow-Your-Emoji:让静态肖像“活”起来
香港科技大学、腾讯混元和清华大学的研究人员近日联合推出了一款名为 Follow-Your-Emoji 的人像动画框架,该框架利用扩散模型技术,能够将预定义或实时捕获的表情序列精确同步到静态参考肖像上,实现如眨眼、微笑、皱眉等复杂表情的动态变化,让静态肖像“活”起来。
Follow-Your-Emoji 的核心技术在于其基于扩散模型的框架,该框架能够生成高质量的图像和视频内容。研究人员利用 MediaPipe 等工具从动态视频中提取3D 关键点,然后将其投影到 2D 平面,形成用于指导动画过程的表情感知标志点。这些标志点特别关注于表情变化的关键区域,如眼睛(瞳孔点)和嘴巴,以实现更精确的表情同步。
为了确保动画效果的自然流畅,研究人员还引入了一种新的损失函数,通过面部遮罩和表情遮罩来指导模型在训练过程中更加关注面部表情的细节。该损失函数通过计算预测结果与真实结果在遮罩区域内的差异,帮助模型学习如何更好地捕捉微妙的表情变化。
Follow-Your-Emoji 的主要功能特色包括:
- 动态表情同步: 将预定义或实时捕获的表情序列精确同步到静态参考肖像上,实现复杂表情的动态变化。
- 身份特征保持: 在动画化过程中,框架特别设计了机制来确保参考肖像的关键身份特征得以保留,即使在表情变化剧烈时也能防止身份信息的失真或泄露。
- 夸张表情表现: 能够捕捉并再现夸张的表情动作,例如在卡通或漫画风格中常见的大幅度瞳孔扩张或收缩,增强动画的表现力。
- 多风格适应: 不仅限于现实风格的肖像,还能够适应并动画化卡通、雕塑、动物等不同艺术风格和表现形式的肖像。
- 时间连贯性: 确保整个动画序列在时间上的自然过渡和流畅表现。
- 长期动画生成: 能够生成不仅在短期内连贯,而且在长期播放中也能保持稳定性和高质量的动画效果。
- 高度控制性: 用户可以细致地控制表情序列,从而对动画输出进行精确调整,允许用户根据特定需求定制动画效果,实现个性化创作。
Follow-Your-Emoji 的技术原理主要包括:
- 基于扩散模型的框架: 使用扩散模型(Stable Diffusion)作为基础,能够生成高质量的图像和视频内容。
- 表情感知标志点: 利用 MediaPipe 等工具从动态视频中提取 3D 关键点,然后将其投影到 2D 平面,形成用于指导动画过程的表情感知标志点。
- 面部精细损失: 引入一种新的损失函数,通过面部遮罩和表情遮罩来指导模型在训练过程中更加关注面部表情的细节。
- 多风格适应性: 框架设计为能够适应不同风格的肖像,无论是真人、卡通、雕塑还是动物,都能够实现自然的动画效果。
- 渐进式生成策略: 采用从粗糙到精细的渐进式生成策略,首先生成关键帧,然后通过插值生成中间帧,以保持动画的连贯性和稳定性。
- 时间注意力机制: 在 UNet 网络中加入时间注意力层,以保持动画帧之间的时间一致性和动态连贯性。
- 预训练与微调: 使用大量的表达训练数据集对模型进行预训练,然后针对特定的动画任务进行微调,以提高模型的表现力和准确性。
Follow-Your-Emoji 的推出,标志着人像动画技术取得了新的突破。该框架不仅可以用于制作更逼真、更具表现力的动画,还可以应用于各种领域,例如游戏开发、虚拟现实、电影制作等。
Follow-Your-Emoji 的官方项目主页: https://follow-your-emoji.github.io/
Follow-Your-Emoji 的 arXiv 技术论文: https://arxiv.org/abs/2406.01900
【source】https://ai-bot.cn/follow-your-emoji/
Views: 0