Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

无需训练即可创建数字人,字节PersonaTalk视频口型编辑技术领跑AIGC

在 AIGC 的热潮下,基于语音驱动的视频口型编辑技术成为了视频内容个性化与智能化的重要手段之一。 近两年,数字人直播带货、霉霉讲中文、郭德纲用英语讲相声等现象级案例,都印证着视频口型编辑技术已经逐渐在行业中被广泛应用,备受市场关注。近期,字节跳动一项名为 PersonaTalk 的相关技术成果入选了 SIGGRAPH Asia 2024-Conference Track,该方案能不受原视频质量的影响,保障生成视频质量的同时兼顾 zero-shot技术的便捷和稳定,可以通过非常便捷高效的方式用语音修改视频中人物的口型,完成高质量视频编辑,快速实现数字人视频制作以及口播内容的二次创作。

目前,视频改口型技术大致可以分为两类:

  • 定制化训练: 需要用户提供人物视频数据进行模型训练,效果成熟但耗时较长,成本高,对视频质量要求高。
  • zero-shot 方案: 通过预训练模型,无需针对特定人物进行微调,即插即用,成本低,但往往忽略视频生成的质量,导致最终视频与本人存在明显差异。

PersonaTalk 作为一项创新视频生成技术,构建了一个基于注意力机制的双阶段框架,实现了这两类方案优势的统一。

技术方案:

  • Style-Aware Geometry Construction: 通过语音信号和参考视频提取人物面部特征,生成具备说话者风格的 3D 口型动画序列。
  • Dual-Attention Face Rendering: 使用 Face-Attention 和 Lip-Attention 模块,融合 3D 动画和人物参考图特征,分别渲染脸部和嘴部的纹理,确保视频画面的稳定性和保真度。

实验效果:

  • PersonaTalk 在唇动同步、视觉质量与个性化特征保留方面均表现突出,明显优于其他 zero-shot 方法,甚至优于学术界最新的定制化训练方案。
  • 用户调查显示,大多数用户对 PersonaTalk 生成内容感到满意,认为其足够逼真且高度还原了人物特征。

应用场景:

  • 视频翻译
  • 虚拟教师
  • AIGC 创作

结论:

PersonaTalk 通过注意力机制的双阶段框架,突破了传统视频口型编辑技术的局限性,实现了 zero-shot 技术与高质量视频生成的完美结合,为数字人视频制作和口播内容的二次创作提供了高效便捷的解决方案。该技术的应用将进一步推动 AIGC 技术的发展,为视频内容创作带来更多可能性。

参考文献:

注: 以上内容基于网络公开数据和 AIGC 生成,如有错误或不足,欢迎指正。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注