微软VASA-1：静态照片也能“开口说话”

微软推出静态照片对口型视频生成框架 VASA-1：让照片“开口说话”

微软亚洲研究院近日发布了一项名为 VASA-1 的突破性技术，它能够将静态照片转换为对口型动态视频，让照片“开口说话”。这项技术基于深度学习模型，能够根据单张静态人脸照片和一段语音音频，实时生成逼真的 3D 说话面部动画。

VASA-1的核心创新在于其全貌面部动态和头部运动生成模型，该模型在面部潜在空间中工作，能够高效地生成高分辨率的视频，同时支持在线生成和低延迟。

VASA-1 的主要功能特性包括：

VASA-1 的工作原理如下：

输入准备： VASA-1 接受两个主要输入：一张任意个体的静态面部图像和一个来自任何个人的语音音频剪辑。
面部特征提取： 使用面部编码器从输入的静态面部图像中提取 3D 外观体积、身份代码、头部姿态和面部动态代码等特征。
面部潜在空间建模： 构建一个面部潜在空间，该空间能够高度解耦面部动态和其他因素（如身份和外观），并具有丰富的表情细节和动态细微差别的表达能力。
扩散模型训练： 训练一个基于扩散的模型（Diffusion Transformer），该模型能够在面部潜在空间中生成全面的面部动态和头部运动，条件是给定的音频和可选的控制信号。
条件信号整合： 将主要目光方向、头部距离和情感偏移等控制信号作为条件，输入到扩散模型中，以指导面部动态的生成。
面部动态和头部运动生成： 利用训练好的扩散模型，根据输入的音频特征和条件信号，生成面部动态和头部运动的潜在代码序列。
视频帧生成： 使用面部解码器和从编码器中提取的外观及身份特征，根据生成的面部动态和头部运动潜在代码，产生最终的视频帧。

VASA-1 的应用场景非常广泛，例如：

VASA-1 的出现，标志着人工智能技术在图像生成领域取得了新的突破。这项技术有望在未来改变我们与数字内容的交互方式，并为我们带来更加丰富多彩的数字世界。

【source】https://ai-bot.cn/vasa-1/