无需训练即可创建数字人,字节PersonaTalk视频口型编辑技术领跑AIGC
在 AIGC 的热潮下,基于语音驱动的视频口型编辑技术成为了视频内容个性化与智能化的重要手段之一。 近两年,数字人直播带货、霉霉讲中文、郭德纲用英语讲相声等现象级案例,都印证着视频口型编辑技术已经逐渐在行业中被广泛应用,备受市场关注。近期,字节跳动一项名为 PersonaTalk 的相关技术成果入选了 SIGGRAPH Asia 2024-Conference Track,该方案能不受原视频质量的影响,保障生成视频质量的同时兼顾 zero-shot技术的便捷和稳定,可以通过非常便捷高效的方式用语音修改视频中人物的口型,完成高质量视频编辑,快速实现数字人视频制作以及口播内容的二次创作。
目前,视频改口型技术大致可以分为两类:
- 定制化训练: 需要用户提供人物视频数据进行模型训练,效果成熟但耗时较长,成本高,对视频质量要求高。
- zero-shot 方案: 通过预训练模型,无需针对特定人物进行微调,即插即用,成本低,但往往忽略视频生成的质量,导致最终视频与本人存在明显差异。
PersonaTalk 作为一项创新视频生成技术,构建了一个基于注意力机制的双阶段框架,实现了这两类方案优势的统一。
技术方案:
- Style-Aware Geometry Construction: 通过语音信号和参考视频提取人物面部特征,生成具备说话者风格的 3D 口型动画序列。
- Dual-Attention Face Rendering: 使用 Face-Attention 和 Lip-Attention 模块,融合 3D 动画和人物参考图特征,分别渲染脸部和嘴部的纹理,确保视频画面的稳定性和保真度。
实验效果:
- PersonaTalk 在唇动同步、视觉质量与个性化特征保留方面均表现突出,明显优于其他 zero-shot 方法,甚至优于学术界最新的定制化训练方案。
- 用户调查显示,大多数用户对 PersonaTalk 生成内容感到满意,认为其足够逼真且高度还原了人物特征。
应用场景:
- 视频翻译
- 虚拟教师
- AIGC 创作
结论:
PersonaTalk 通过注意力机制的双阶段框架,突破了传统视频口型编辑技术的局限性,实现了 zero-shot 技术与高质量视频生成的完美结合,为数字人视频制作和口播内容的二次创作提供了高效便捷的解决方案。该技术的应用将进一步推动 AIGC 技术的发展,为视频内容创作带来更多可能性。
参考文献:
注: 以上内容基于网络公开数据和 AIGC 生成,如有错误或不足,欢迎指正。
Views: 0