复旦百度联手，AI肖像动画新突破

上海讯 – 近日，复旦大学与百度公司联合开源了一项名为Hallo3的创新技术，该技术基于扩散变换器网络（Diffusion Transformer Networks），能够生成高度动态和逼真的肖像动画视频。这一突破性进展不仅解决了现有技术在处理非正面视角、动态对象渲染以及生成沉浸式背景方面的挑战，还为游戏开发、电影制作、社交媒体、在线教育以及虚拟现实等多个领域带来了新的可能性。

打破传统，实现多视角动画的飞跃

传统的肖像动画技术往往局限于正面视角，难以捕捉人物在不同角度下的动态变化。而Hallo3的出现，彻底打破了这一限制。它能够从正面、侧面、俯视甚至低角度等多种视角生成动画肖像，使得人物形象更加立体和生动。更令人印象深刻的是，Hallo3还能处理肖像周围的动态对象，例如人物手持的智能手机、麦克风，甚至是紧贴身体的配饰，都能在视频序列中呈现出真实的运动轨迹，这无疑大大增强了动画的真实感。

沉浸式背景，打造身临其境的体验

除了人物本身的动画效果，Hallo3还具备生成沉浸式背景的能力。无论是前景中的篝火，还是背景中熙熙攘攘的街道，Hallo3都能将其融入到动画中，让观众仿佛置身于真实的场景之中。这种身临其境的体验，对于提升视频的吸引力和感染力至关重要。

身份一致性，确保动画的连贯性

在长时间的动画中，保持人物面部特征的稳定性和一致性是一项巨大的挑战。Hallo3通过其独特的身份参考网络，有效地解决了这个问题。该网络能够从参考图像中提取身份特征，并将其嵌入到去噪潜在代码中，确保即使在长时间的动画中，人物的面部特征也能保持高度的一致性和连贯性。

语音驱动，让动画“开口说话”

Hallo3的另一大亮点是其语音驱动的动画功能。通过分析语音音频，Hallo3能够驱动肖像的面部表情和嘴唇动作，实现高度同步的语音和面部动画。这使得动画人物不仅看起来真实，而且“说起话来”也更加自然和逼真。

技术解析：预训练模型与多重条件机制

Hallo3的技术核心在于其预训练的变换器视频生成模型，该模型以CogVideoX模型为基础架构，并使用3D变分自编码器（VAE）对视频数据进行压缩。为了实现多重条件下的动画生成，Hallo3引入了三种条件机制：文本提示（ctext）、语音音频条件（caudio）和身份外观条件（cid）。这些条件信息通过交叉注意力和自适应层归一化（adaLN）进行整合，使得模型能够根据不同的输入生成不同的动画效果。

此外，Hallo3还采用了身份参考网络，该网络通过因果3D VAE结合42层变换器层，从参考图像中提取身份特征，并将其融入到去噪潜在代码中。为了实现语音驱动的动画，Hallo3使用wav2vec框架提取音频特征，并将其转化为适合模型的表示。最后，通过引入运动帧作为条件信息，Hallo3实现了时间一致的长视频推理。

应用前景：从游戏到教育，潜力无限

Hallo3的应用场景十分广泛。在游戏开发领域，它可以为游戏角色生成动态的肖像动画，使角色在游戏中的表现更加自然和逼真。在电影制作领域，它可以生成逼真的角色动画，提升电影和动画的视觉效果和沉浸感。在社交媒体领域，它可以为用户生成动态头像，使用户的个人资料更加生动有趣。在在线教育领域，它可以生成虚拟讲师的动画，让在线课程更加生动和有趣。在虚拟现实和增强现实领域，它可以生成虚拟角色，提供更加逼真的交互体验。

开源共享，推动AI技术发展

复旦大学和百度公司选择开源Hallo3，无疑将加速这项技术的普及和发展。目前，Hallo3的项目官网、GitHub仓库、HuggingFace模型库以及arXiv技术论文均已开放，供研究人员和开发者学习和使用。

结论：

Hallo3的开源，标志着肖像动画技术迈向了一个新的高度。它不仅在技术上取得了突破，还在应用场景上展现了巨大的潜力。我们有理由相信，随着Hallo3的不断发展和完善，它将为各行各业带来更多的惊喜和变革。

参考文献：