上海讯 – 近日,复旦大学与百度公司联合开源了一项名为Hallo3的创新技术,该技术基于扩散变换器网络(Diffusion Transformer Networks),能够生成高度动态和逼真的肖像动画视频。这一突破性进展不仅解决了现有技术在处理非正面视角、动态对象渲染以及生成沉浸式背景方面的挑战,还为游戏开发、电影制作、社交媒体、在线教育以及虚拟现实等多个领域带来了新的可能性。
打破传统,实现多视角动画的飞跃
传统的肖像动画技术往往局限于正面视角,难以捕捉人物在不同角度下的动态变化。而Hallo3的出现,彻底打破了这一限制。它能够从正面、侧面、俯视甚至低角度等多种视角生成动画肖像,使得人物形象更加立体和生动。更令人印象深刻的是,Hallo3还能处理肖像周围的动态对象,例如人物手持的智能手机、麦克风,甚至是紧贴身体的配饰,都能在视频序列中呈现出真实的运动轨迹,这无疑大大增强了动画的真实感。
沉浸式背景,打造身临其境的体验
除了人物本身的动画效果,Hallo3还具备生成沉浸式背景的能力。无论是前景中的篝火,还是背景中熙熙攘攘的街道,Hallo3都能将其融入到动画中,让观众仿佛置身于真实的场景之中。这种身临其境的体验,对于提升视频的吸引力和感染力至关重要。
身份一致性,确保动画的连贯性
在长时间的动画中,保持人物面部特征的稳定性和一致性是一项巨大的挑战。Hallo3通过其独特的身份参考网络,有效地解决了这个问题。该网络能够从参考图像中提取身份特征,并将其嵌入到去噪潜在代码中,确保即使在长时间的动画中,人物的面部特征也能保持高度的一致性和连贯性。
语音驱动,让动画“开口说话”
Hallo3的另一大亮点是其语音驱动的动画功能。通过分析语音音频,Hallo3能够驱动肖像的面部表情和嘴唇动作,实现高度同步的语音和面部动画。这使得动画人物不仅看起来真实,而且“说起话来”也更加自然和逼真。
技术解析:预训练模型与多重条件机制
Hallo3的技术核心在于其预训练的变换器视频生成模型,该模型以CogVideoX模型为基础架构,并使用3D变分自编码器(VAE)对视频数据进行压缩。为了实现多重条件下的动画生成,Hallo3引入了三种条件机制:文本提示(ctext)、语音音频条件(caudio)和身份外观条件(cid)。这些条件信息通过交叉注意力和自适应层归一化(adaLN)进行整合,使得模型能够根据不同的输入生成不同的动画效果。
此外,Hallo3还采用了身份参考网络,该网络通过因果3D VAE结合42层变换器层,从参考图像中提取身份特征,并将其融入到去噪潜在代码中。为了实现语音驱动的动画,Hallo3使用wav2vec框架提取音频特征,并将其转化为适合模型的表示。最后,通过引入运动帧作为条件信息,Hallo3实现了时间一致的长视频推理。
应用前景:从游戏到教育,潜力无限
Hallo3的应用场景十分广泛。在游戏开发领域,它可以为游戏角色生成动态的肖像动画,使角色在游戏中的表现更加自然和逼真。在电影制作领域,它可以生成逼真的角色动画,提升电影和动画的视觉效果和沉浸感。在社交媒体领域,它可以为用户生成动态头像,使用户的个人资料更加生动有趣。在在线教育领域,它可以生成虚拟讲师的动画,让在线课程更加生动和有趣。在虚拟现实和增强现实领域,它可以生成虚拟角色,提供更加逼真的交互体验。
开源共享,推动AI技术发展
复旦大学和百度公司选择开源Hallo3,无疑将加速这项技术的普及和发展。目前,Hallo3的项目官网、GitHub仓库、HuggingFace模型库以及arXiv技术论文均已开放,供研究人员和开发者学习和使用。
结论:
Hallo3的开源,标志着肖像动画技术迈向了一个新的高度。它不仅在技术上取得了突破,还在应用场景上展现了巨大的潜力。我们有理由相信,随着Hallo3的不断发展和完善,它将为各行各业带来更多的惊喜和变革。
参考文献:
- Hallo3项目官网:https://fudan-generative-vision.github.io/hallo3
- Hallo3 GitHub仓库:https://github.com/fudan-generative-vision/hallo3
- Hallo3 HuggingFace模型库:https://huggingface.co/fudan-generative-ai/hallo3
- Hallo3 arXiv技术论文:https://arxiv.org/pdf/2412.00733
(注:本文所有信息均来源于上述公开资料,并经过核实。)
Views: 0