商汤推出UniTalker：音频驱动3D面部动画生成模型

商汤科技推出音频驱动3D面部动画生成模型 UniTalker，赋能虚拟角色更逼真

北京，2024年8月29日 – 商汤科技今日宣布推出音频驱动3D面部动画生成模型 UniTalker，该模型能够根据输入的音频生成逼真的面部动作，为虚拟角色带来更生动的表情和口型，进一步提升虚拟角色的真实感和互动性。

UniTalker 采用统一的多头架构模型，能够处理多种语言和音频类型，包括语音和歌曲。无论是清晰的人声，还是带点噪音的歌声，UniTalker 都能精准地生成对应面部动作。此外，UniTalker 可以同时为多个角色生成面部动作，无需重新设计，极大地提高了模型的灵活性和效率。

UniTalker 的主要功能包括：

音频驱动3D面部动画： UniTalker 根据输入的音频生成逼真的 3D 面部动作，虚拟角色的面部表情和口型能与声音同步。
支持多语言和多音频： UniTalker 能处理不同语言的语音和不同类型的音频文件，在国际化的应用场景尤为有用。
统一模型架构： UniTalker 采用统一的多头架构模型，可以在一个框架内同时处理多种不同的数据集和注释类型，提高了模型的通用性和灵活性。
训练稳定性和一致性： UniTalker 采用主成分分析（PCA）、模型预热和枢纽身份嵌入等训练策略，在训练过程中展现出更好的稳定性，并确保了多头输出之间的一致性。

UniTalker 的技术原理：

多头架构模型： UniTalker 采用统一的多头架构设计，基于不同标注的数据集训练，处理各种 3D 面部动画的需求。
训练策略： 为了提高训练的稳定性并确保多头输出的一致性，UniTalker 采用了三种训练策略，包括主成分分析（PCA）、模型预热和枢纽身份嵌入。
大规模数据集： 研究团队构建了 A2F-Bench，基准测试包含了五个公开可用的数据集和三个新编纂的数据集，扩大了训练数据的规模和多样性，覆盖了多语言语音和歌曲。
音频编码器： UniTalker 用音频编码器将输入的音频转换成上下文化的音频特征，为后续的面部动作生成提供基础。

UniTalker 的应用场景：

UniTalker 的推出标志着商汤科技在虚拟角色技术领域取得了新的突破，为虚拟角色的制作和应用提供了更强大的技术支持。未来，商汤科技将继续探索和创新，推动虚拟角色技术的发展，为用户带来更丰富、更真实的虚拟体验。

项目地址：

【source】https://ai-bot.cn/unitalker/