微软推出静态照片对口型视频生成框架 VASA-1:让照片“开口说话”
微软亚洲研究院近日发布了一项名为 VASA-1 的突破性技术,它能够将静态照片转换为对口型动态视频,让照片“开口说话”。这项技术基于深度学习模型,能够根据单张静态人脸照片和一段语音音频,实时生成逼真的 3D 说话面部动画。
VASA-1的核心创新在于其全貌面部动态和头部运动生成模型,该模型在面部潜在空间中工作,能够高效地生成高分辨率的视频,同时支持在线生成和低延迟。
VASA-1 的主要功能特性包括:
- 逼真的唇音同步: VASA-1 能够生成与输入语音音频精确同步的唇部动作,提供高度逼真的说话效果。
- 丰富的面部表情: 除了唇部动作,VASA-1 还能捕捉并再现一系列复杂的面部表情和微妙的情感细节,增加动画的真实感。
- 自然的头部运动: 模型能够模拟自然的头部动作,如转动和倾斜,使得生成的说话面部视频更加生动。
- 高效视频生成: VASA-1 支持在线生成高达 40 FPS 的 512×512 分辨率视频,且具有极低的初始延迟,适合实时应用。
- 灵活可控生成: 通过接受可选信号作为条件,如主要目光方向、头部距离和情感偏移,VASA-1 能够控制生成过程,提高输出的多样性和适应性。
- 处理不同输入: VASA-1 能够处理训练分布之外的照片和音频输入,如艺术照片、歌唱音频和非英语语音。
VASA-1 的工作原理如下:
- 输入准备: VASA-1 接受两个主要输入:一张任意个体的静态面部图像和一个来自任何个人的语音音频剪辑。
- 面部特征提取: 使用面部编码器从输入的静态面部图像中提取 3D 外观体积、身份代码、头部姿态和面部动态代码等特征。
- 面部潜在空间建模: 构建一个面部潜在空间,该空间能够高度解耦面部动态和其他因素(如身份和外观),并具有丰富的表情细节和动态细微差别的表达能力。
- 扩散模型训练: 训练一个基于扩散的模型(Diffusion Transformer),该模型能够在面部潜在空间中生成全面的面部动态和头部运动,条件是给定的音频和可选的控制信号。
- 条件信号整合: 将主要目光方向、头部距离和情感偏移等控制信号作为条件,输入到扩散模型中,以指导面部动态的生成。
- 面部动态和头部运动生成: 利用训练好的扩散模型,根据输入的音频特征和条件信号,生成面部动态和头部运动的潜在代码序列。
- 视频帧生成: 使用面部解码器和从编码器中提取的外观及身份特征,根据生成的面部动态和头部运动潜在代码,产生最终的视频帧。
VASA-1 的应用场景非常广泛,例如:
- 虚拟角色生成: VASA-1 可以用于生成逼真的虚拟角色,用于游戏、电影、动画等领域。
- 视频会议和直播: VASA-1 可以用于生成虚拟主播,为用户提供更加生动和有趣的直播体验。
- 教育和培训: VASA-1 可以用于生成虚拟老师,为学生提供更加个性化的教学体验。
- 数字营销和广告: VASA-1 可以用于生成虚拟代言人,为品牌提供更加生动和吸引人的广告宣传。
VASA-1 的出现,标志着人工智能技术在图像生成领域取得了新的突破。这项技术有望在未来改变我们与数字内容的交互方式,并为我们带来更加丰富多彩的数字世界。
【source】https://ai-bot.cn/vasa-1/
Views: 0