复旦百度开源AI口型视频生成框架

复旦、百度等机构开源AI口型肖像视频生成框架“Hallo”，打造逼真动态肖像动画

上海，中国 – 近日，复旦大学、百度公司、苏黎世联邦理工学院和南京大学的研究人员联合发布了一个名为“Hallo”的开源AI口型肖像视频生成框架，该框架可以基于语音音频输入生成逼真且动态的肖像图像视频。这一突破性技术有望在虚拟人物、数字人、视频会议等领域带来革新。

Hallo：基于扩散模型和分层音频驱动，实现精准唇动同步

Hallo的核心技术在于采用了基于扩散的生成模型和分层音频驱动视觉合成模块，有效提升了音频与视觉输出之间的同步精度。该框架整合了UNet去噪器、时间对齐技术和参考网络，增强了动画的质量和真实感。

Hallo的主要功能特点：

音频同步动画： Hallo利用先进的音频分析技术，将输入的语音音频与肖像图像相结合，生成动态的面部动画。通过精确的唇动同步算法，确保视频动画中的嘴唇动作与音频中的声音同步，创造出逼真的说话效果。
*面部表情生成：根据音频信号中的情感和语调变化，Hallo能够自动识别并生成相应的面部表情，包括微笑、皱眉、惊讶等表情，使视频动画角色的“表演”更加自然和富有情感。
头部姿态控制： Hallo允许对视频动画中的头部姿态进行细致的调整，如头部的倾斜、转动等，使得视频动画能够更好地反映音频内容的意图和情感，增强视觉与听觉的协调性。
个性化动画定制： 用户可以根据不同的应用场景和个人特征，对动画的风格、表情和动作进行定制。Hallo的个性化定制功能支持用户创造出独一无二的角色，满足特定的视觉和情感表达需求。
时间一致性维护： Hallo通过时间对齐技术，确保动画中的动作和表情在时间上流畅过渡，避免突兀和不自然的变化。
动作多样性： 除了同步音频的基本动作外，Hallo还支持生成多样化的动作和风格。用户可以根据需要选择不同的动作库，为动画角色添加更多动态元素，如手势、眨眼等，从而丰富视频的表现力。

Hallo的技术原理：

分层音频驱动视觉合成： Hallo采用分层的方法来处理音频和视觉信息。这种分层结构允许模型分别处理嘴唇动作、面部表情和头部姿态，然后通过自适应权重将这些元素融合在一起。
端到端扩散模型： Hallo使用基于扩散的生成模型，一种从潜在空间生成数据的方法。在训练阶段，数据逐渐被加入噪声，然后在逆过程中去除噪声以重建清晰的图像。
交叉注意力机制： 通过交叉注意力机制，Hallo能够在音频特征和视觉特征之间建立联系。该机制使得模型能够集中注意力于与当前音频输入最相关的面部区域。
UNet去噪器： Hallo利用基于UNet的去噪器来逐步去除图像中的噪声，生成清晰的动画帧。UNet结构因其在图像分割任务中的有效性而闻名，通过跳跃连接使用低层特征图来提高生成质量。
时间对齐技术： 为了保持动画在时间上的连贯性，Hallo采用了时间对齐技术，这有助于确保连续帧之间的平滑过渡和一致性。
参考网络（ReferenceNet）： ReferenceNet用于编码全局视觉纹理信息，以实现一致且可控的角色动画，可帮助模型在生成过程中参考现有的图像，以增强输出的视觉质量。
面部和音频编码器： Hallo使用预训练的面部编码器来提取肖像的身份特征，同时使用音频编码器来提取语音信息。

开源的意义：

Hallo的开源意味着开发者可以自由地使用和改进该框架，这将加速AI口型肖像视频生成技术的发展和应用。未来，我们可以期待看到更多基于Hallo的创新应用，例如：

展望未来：

随着AI技术的不断发展，Hallo框架有望进一步提升生成视频的质量和真实感，并扩展到更多应用场景。未来，我们可能会看到更加逼真、更加智能的AI口型肖像视频生成技术，为人们带来更加丰富多彩的数字体验。

相关链接：

【source】https://ai-bot.cn/hallo/