清华联合百度推出AI视频编辑工具ReSyncer,赋能视频创作新纪元
北京,2024年8月29日 – 清华大学与百度联合推出的AI视频编辑工具ReSyncer正式发布,该工具通过音频驱动生成与声音同步的高质量嘴唇动作视频,为视频创作领域带来革命性的变革。
ReSyncer的核心技术在于利用Style-SyncFormer模型分析声音并创建3D面部模型,结合目标视频生成同步且表情丰富的虚拟人物。该工具支持个性化微调、说话风格转换和换脸功能,适用于虚拟主持人、表演者创作及实时直播等场景,在视听面部信息同步方面的效果卓越。
ReSyncer的主要功能包括:
- 口型同步:根据给定的音频生成与声音同步的嘴唇动作,确保视频中人物的口型与声音完美匹配。
- 风格迁移:将特定的说话风格或面部表情迁移到目标视频中,例如将一个人的说话风格迁移到另一个人的视频中,或将一个人的面部表情迁移到另一个人的视频中。
- 个性化微调:快速调整生成的面部动画以匹配特定人物的面部特征,使虚拟人物更加逼真。
- 视频驱动的口型同步:使用目标视频的面部图像来驱动口型动画,使生成的嘴唇动作更加自然流畅。
- 换脸技术:将一个人的面部特征替换为另一个人的,用于身份转换或特效制作,例如将一个人的脸替换成另一个人的脸,或将一个人的脸替换成一个动物的脸。
ReSyncer的技术原理主要基于以下几个方面:
- 3D面部模型生成:使用Style-SyncFormer,一个深度学习模型,根据声音特征预测3D面部动态。
- 风格化面部动态:通过Transformer结构学习风格化的3D面部动态,实现面部表情和口型的精确同步。
- 基于风格的生成器:将预测得到的3D面部动态与目标视频中的面部图像结合,生成高保真的面部图像。
- 面部特征融合:在生成过程中,通过简单的插入机制将3D面部网格信息与风格化特征融合,提高嘴唇同步的质量和稳定性。
ReSyncer的应用场景十分广泛,包括:
- 电影和视频制作:在电影和视频制作中,ReSyncer可以用来实现复杂的特效,如换脸或对口型,增加视觉吸引力。
- 广告行业:广告制作中,风格迁移功能可以用来创造独特的视觉效果,吸引观众的注意力。
- 社交媒体和内容创作:内容创作者可以用ReSyncer增强他们的视频内容,例如通过换脸技术制作有趣的模仿视频。
- 教育和培训:在语言学习或专业培训中,对口型功能可以帮助学习者更好地理解和模仿发音。
ReSyncer的发布标志着AI视频编辑技术取得了重大突破,为视频创作领域带来了新的可能性。未来,随着技术的不断发展,ReSyncer将进一步提升视频制作效率,降低创作门槛,为用户带来更丰富、更精彩的视频体验。
相关链接:
- GitHub仓库:https://guanjz20.github.io/projects/ReSyncer/
- arXiv技术论文:https://arxiv.org/pdf/2408.03284v1
版权声明: 本文版权归AI工具集所有,未经允许禁止任何形式的转载。
【source】https://ai-bot.cn/resyncer/
Views: 0