Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

90年代申花出租车司机夜晚在车内看文汇报90年代申花出租车司机夜晚在车内看文汇报
0

微软推出静态照片对口型视频生成框架 VASA-1:让照片“开口说话”

微软亚洲研究院近日发布了一项名为 VASA-1 的突破性技术,它能够将静态照片转换为对口型动态视频,让照片“开口说话”。这项技术基于深度学习模型,能够根据单张静态人脸照片和一段语音音频,实时生成逼真的 3D 说话面部动画。

VASA-1的核心创新在于其全貌面部动态和头部运动生成模型,该模型在面部潜在空间中工作,能够高效地生成高分辨率的视频,同时支持在线生成和低延迟。

VASA-1 的主要功能特性包括:

  • 逼真的唇音同步: VASA-1 能够生成与输入语音音频精确同步的唇部动作,提供高度逼真的说话效果。
  • 丰富的面部表情: 除了唇部动作,VASA-1 还能捕捉并再现一系列复杂的面部表情和微妙的情感细节,增加动画的真实感。
  • 自然的头部运动: 模型能够模拟自然的头部动作,如转动和倾斜,使得生成的说话面部视频更加生动。
  • 高效视频生成: VASA-1 支持在线生成高达 40 FPS 的 512×512 分辨率视频,且具有极低的初始延迟,适合实时应用。
  • 灵活可控生成: 通过接受可选信号作为条件,如主要目光方向、头部距离和情感偏移,VASA-1 能够控制生成过程,提高输出的多样性和适应性。
  • 处理不同输入: VASA-1 能够处理训练分布之外的照片和音频输入,如艺术照片、歌唱音频和非英语语音。

VASA-1 的工作原理如下:

  1. 输入准备: VASA-1 接受两个主要输入:一张任意个体的静态面部图像和一个来自任何个人的语音音频剪辑。
  2. 面部特征提取: 使用面部编码器从输入的静态面部图像中提取 3D 外观体积、身份代码、头部姿态和面部动态代码等特征。
  3. 面部潜在空间建模: 构建一个面部潜在空间,该空间能够高度解耦面部动态和其他因素(如身份和外观),并具有丰富的表情细节和动态细微差别的表达能力。
  4. 扩散模型训练: 训练一个基于扩散的模型(Diffusion Transformer),该模型能够在面部潜在空间中生成全面的面部动态和头部运动,条件是给定的音频和可选的控制信号。
  5. 条件信号整合: 将主要目光方向、头部距离和情感偏移等控制信号作为条件,输入到扩散模型中,以指导面部动态的生成。
  6. 面部动态和头部运动生成: 利用训练好的扩散模型,根据输入的音频特征和条件信号,生成面部动态和头部运动的潜在代码序列。
  7. 视频帧生成: 使用面部解码器和从编码器中提取的外观及身份特征,根据生成的面部动态和头部运动潜在代码,产生最终的视频帧。

VASA-1 的应用场景非常广泛,例如:

  • 虚拟角色生成: VASA-1 可以用于生成逼真的虚拟角色,用于游戏、电影、动画等领域。
  • 视频会议和直播: VASA-1 可以用于生成虚拟主播,为用户提供更加生动和有趣的直播体验。
  • 教育和培训: VASA-1 可以用于生成虚拟老师,为学生提供更加个性化的教学体验。
  • 数字营销和广告: VASA-1 可以用于生成虚拟代言人,为品牌提供更加生动和吸引人的广告宣传。

VASA-1 的出现,标志着人工智能技术在图像生成领域取得了新的突破。这项技术有望在未来改变我们与数字内容的交互方式,并为我们带来更加丰富多彩的数字世界。

【source】https://ai-bot.cn/vasa-1/

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注