北京 – 人工智能领域再添新突破。由清华大学、东京大学、庆应义塾大学等机构联合推出的EMAGE(Expressive Masked Audio-conditioned GEsture modeling)框架,为音频驱动的全身共语手势生成带来了全新的解决方案。该框架能够根据音频输入和部分遮蔽的手势提示,生成与音频同步的完整全身手势,包括面部表情、身体动作、手势和全局运动,为虚拟现实、动画制作、虚拟客服等多个领域带来革新。
EMAGE是什么?
EMAGE的核心在于其能够理解音频内容并将其转化为自然流畅的身体语言。传统的虚拟角色生成往往依赖于人工设计,成本高昂且效率低下。EMAGE的出现,则有望通过AI自动化生成,大幅降低制作成本,并提升虚拟角色的表现力。
技术原理:掩蔽音频手势变换器与预训练VQ-VAE
EMAGE的技术核心在于掩蔽音频手势变换器和预训练的VQ-VAE(Vector Quantized Variational AutoEncoders)。掩蔽音频手势变换器通过联合训练音频到手势的生成和掩蔽手势重建,有效编码音频和身体手势提示。这种掩蔽机制类似于自然语言处理中的BERT模型,能够增强模型对局部和全局信息的理解能力。
同时,EMAGE采用四个组合的预训练VQ-VAE解码局部面部和身体动作,并基于预训练的全局运动预测器解码全局平移。这种分段建模方式能够更好地捕捉不同身体部位与音频之间的独特关系,提高生成手势的准确性和多样性。
主要功能与应用场景:
EMAGE的主要功能包括:
- 生成与音频同步的手势: 根据输入的音频信号,生成与音频节奏和语义相匹配的全身手势。
- 接受部分预定义手势输入: 基于用户提供的部分手势(如特定动作或姿势)作为提示,生成完整的、自然的手势序列。
- 生成多样化的手势: 组合多个预训练的VQ-VAE,生成丰富多样的手势动作,避免单一和重复的结果。
- 支持全身手势生成: 支持生成面部和上肢动作和下肢和全局运动,实现更自然、完整的人体动画效果。
这些功能使得EMAGE在以下场景中具有广泛的应用前景:
- 虚拟现实(VR)与增强现实(AR): 生成虚拟角色的自然手势和表情,提升虚拟社交、虚拟会议、虚拟游戏等场景中的交互体验。
- 动画制作: 辅助动画电影、电视剧及动态广告的制作,根据对话内容自动生成角色手势和表情,减少动画师工作量,提高制作效率。
- 虚拟客服与数字人: 为在线客服、智能助手等创建自然流畅的手势和表情,在与用户交流时更具亲和力和真实感,提升用户体验。
- 教育与培训: 在教育领域,虚拟教师根据讲解内容生成相应手势,帮助学生更好地理解知识;在培训场景中,生成逼真的操作演示手势,辅助教学。
- 娱乐行业: 在游戏开发中,根据角色语音生成匹配的手势和表情,增强游戏的沉浸感和真实感。
项目地址与体验:
感兴趣的开发者和研究者可以通过以下链接了解更多信息并体验EMAGE:
- 项目官网: https://pantomatrix.github.io/EMAGE
- GitHub仓库: https://github.com/PantoMatrix/EMAGE
- arXiv技术论文: https://arxiv.org/pdf/2401.00374
- 在线体验Demo: https://huggingface.co/spaces/H-Liu1997/EMAGE
未来展望:
EMAGE的发布标志着AI在虚拟角色生成领域迈出了重要一步。随着技术的不断发展,我们有理由相信,未来的虚拟角色将更加生动、自然,并将在各个领域发挥更大的作用。然而,我们也应关注AI技术可能带来的伦理问题,例如数据隐私、算法偏见等,并积极探索解决方案,确保AI技术的可持续发展。
参考文献:
- PantoMatrix. EMAGE: Expressive Masked Audio-conditioned GEsture modeling. arXiv:2401.00374, 2024. Available: https://arxiv.org/pdf/2401.00374
- EMAGE项目官网: https://pantomatrix.github.io/EMAGE
- EMAGE GitHub仓库: https://github.com/PantoMatrix/EMAGE
- EMAGE在线体验Demo: https://huggingface.co/spaces/H-Liu1997/EMAGE
Views: 0