字节跳动推出单图驱动视频生成模型 X-Portrait 2:将静态照片变为生动视频

北京,2023年10月26日 – 字节跳动智能创作团队今日宣布推出全新单图驱动视频生成模型 X-Portrait 2,该模型能够基于一张静态照片和一段驱动视频生成高质量、电影级视频,为电影、动画、游戏、虚拟主播等领域带来革新。

X-Portrait 2 突破了传统视频生成技术的局限,将静态照片转化为生动的人物形象,赋予其逼真的表情和动作。它保留了原图的身份特征,并能够准确捕捉细微的表情和情绪变化,实现跨风格动作迁移,适用于写实人像和卡通图像。与前代模型 Act-One 相比,X-Portrait 2 在快速头部动作、细微表情变化和强烈个人情感的表现上更为真实,为用户带来更加沉浸式的体验。

X-Portrait 2 的核心功能包括:

  • 表情和情绪迁移: X-Portrait 2 可以将驱动视频中的表情和情绪迁移到静态肖像上,生成具有丰富表情的视频内容。
    *高保真度: 在生成视频中保持高保真度,确保表情和情绪的细微变化得到准确再现。
  • 跨风格和跨域迁移: 模型支持将表情迁移到不同风格和领域的图像上,包括写实肖像和卡通图像。
    *实时视频生成: 实时生成视频,减少传统动作捕捉和角色动画的复杂性。
  • 广泛的应用场景: 适用于真实世界叙事、角色动画、虚拟代理和视觉效果等多种场景。

X-Portrait 2 的技术原理:

X-Portrait2 的技术核心在于表情编码器模型和生成式扩散模型的结合。

  • 表情编码器模型: X-Portrait 2 构建了一个表情编码器模型,该模型从输入中隐式编码每一个微小的表情变化,基于在大规模数据集上的训练实现。
  • 生成式扩散模型: 将表情编码器与生成式扩散模型相结合,生成流畅且富有表现力的视频。
  • 外观与运动解耦: 在训练表情编码器时,确保外观和运动信息的强解耦,让编码器只关注驱动视频中与表情相关的信息。
  • 跨风格和跨域表达转移: 模型实现跨风格和跨域的表情转移,覆盖写实肖像和卡通图像,提高模型的适应性和应用范围。
  • 细节捕捉: 捕捉、迁移包括快速头部动作、细微表情变化和强烈个人情感在内的复杂表情和动作,对于高质量的动画内容创作至关重要。

X-Portrait 2 的应用场景:

X-Portrait 2 的应用场景十分广泛,它将为多个领域带来革命性的改变:

  • 电影和动画制作: 在电影和动画产业中,X-Portrait 2 可以生成或增强角色的表情和动作,减少传统动作捕捉的需求,降低成本、提高效率。
  • 游戏开发: 游戏开发者可以利用 X-Portrait 2 为游戏角色创建更加真实和动态的表情和动作,提升玩家的沉浸感。
  • 虚拟主播和虚拟偶像: 在直播和娱乐领域,X-Portrait 2 可以创建虚拟主播和虚拟偶像,让表情和动作更加自然和生动。
  • 社交媒体和内容创作: 内容创作者可以利用 X-Portrait 2 为视频添加动态表情,提高内容的吸引力和互动性。
  • 教育和培训: 在教育领域,X-Portrait 2 可以创建教育视频,让教学内容更加生动和易于理解。

X-Portrait 2 的推出标志着人工智能技术在视频生成领域的又一重大突破,它将为电影、动画、游戏等领域带来新的创作方式和体验。未来,随着技术的不断发展,X-Portrait 2 将会更加智能化和人性化,为用户带来更加丰富多彩的视频内容。

项目地址:

  • 项目官网:byteaigc.github.io/X-Portrait2

结论:

X-Portrait 2 的出现将为视频生成领域带来革命性的改变,它将为电影、动画、游戏、虚拟主播等领域带来新的创作方式和体验,并为用户带来更加沉浸式的体验。未来,随着技术的不断发展,X-Portrait 2 将会更加智能化和人性化,为用户带来更加丰富多彩的视频内容。


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注