90年代申花出租车司机夜晚在车内看文汇报90年代申花出租车司机夜晚在车内看文汇报

商汤科技推出音频驱动3D面部动画生成模型 UniTalker,赋能虚拟角色更逼真

北京,2024年8月29日 – 商汤科技今日宣布推出音频驱动3D面部动画生成模型 UniTalker,该模型能够根据输入的音频生成逼真的面部动作,为虚拟角色带来更生动的表情和口型,进一步提升虚拟角色的真实感和互动性。

UniTalker 采用统一的多头架构模型,能够处理多种语言和音频类型,包括语音和歌曲。无论是清晰的人声,还是带点噪音的歌声,UniTalker 都能精准地生成对应面部动作。此外,UniTalker 可以同时为多个角色生成面部动作,无需重新设计,极大地提高了模型的灵活性和效率。

UniTalker 的主要功能包括:

  • 音频驱动3D面部动画: UniTalker 根据输入的音频生成逼真的 3D 面部动作,虚拟角色的面部表情和口型能与声音同步。
  • 支持多语言和多音频: UniTalker 能处理不同语言的语音和不同类型的音频文件,在国际化的应用场景尤为有用。
  • 统一模型架构: UniTalker 采用统一的多头架构模型,可以在一个框架内同时处理多种不同的数据集和注释类型,提高了模型的通用性和灵活性。
  • 训练稳定性和一致性: UniTalker 采用主成分分析(PCA)、模型预热和枢纽身份嵌入等训练策略,在训练过程中展现出更好的稳定性,并确保了多头输出之间的一致性。

UniTalker 的技术原理:

  • 多头架构模型: UniTalker 采用统一的多头架构设计,基于不同标注的数据集训练,处理各种 3D 面部动画的需求。
  • 训练策略: 为了提高训练的稳定性并确保多头输出的一致性,UniTalker 采用了三种训练策略,包括主成分分析(PCA)、模型预热和枢纽身份嵌入。
  • 大规模数据集: 研究团队构建了 A2F-Bench,基准测试包含了五个公开可用的数据集和三个新编纂的数据集,扩大了训练数据的规模和多样性,覆盖了多语言语音和歌曲。
  • 音频编码器: UniTalker 用音频编码器将输入的音频转换成上下文化的音频特征,为后续的面部动作生成提供基础。

UniTalker 的应用场景:

  • 动画制作: UniTalker 可以根据输入的音频生成逼真的 3D 面部动作,为动画角色创建丰富的表情和口型。
  • 虚拟现实 (VR): 在虚拟现实环境中,UniTalker 可以根据语音指令生成相应的面部动作,提升沉浸式体验。
  • 游戏开发: UniTalker 可以为游戏中的非玩家角色 (NPC) 生成自然的面部表情和动作,增强游戏的互动性和真实感。
  • 语言学习: UniTalker 能生成特定语言的口型和表情,帮助学习者模仿发音和表情,提高语言学习效果。
  • 多语言支持: UniTalker 支持多种语言的音频输入,处理包括中文在内的多语言语音,适用于国际化的场景。

UniTalker 的推出标志着商汤科技在虚拟角色技术领域取得了新的突破,为虚拟角色的制作和应用提供了更强大的技术支持。未来,商汤科技将继续探索和创新,推动虚拟角色技术的发展,为用户带来更丰富、更真实的虚拟体验。

项目地址:

  • 项目官网:https://x-niper.github.io/projects/UniTalker/
  • Github 库:https://github.com/X-niper/UniTalker
  • arXiv技术论文:https://arxiv.org/pdf/2408.00762

【source】https://ai-bot.cn/unitalker/

Views: 1

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注