北京 – 人工智能领域再添新星。由清华大学、东京大学、庆应义塾大学等机构联合推出的EMAGE(Expressive Masked Audio-conditioned GEsture modeling)框架,为音频驱动的全身共语手势生成带来了新的突破。该框架能够根据音频输入,生成与音频同步且自然的全身手势,包括面部表情、身体动作、手势和全局运动,为虚拟现实、动画制作、数字人等领域带来了广阔的应用前景。
EMAGE的核心技术在于其独特的掩蔽音频手势变换器。该变换器通过联合训练音频到手势的生成和掩蔽手势的重建,有效编码音频和身体手势提示。类似于自然语言处理中的BERT模型,EMAGE在训练过程中随机遮蔽部分手势数据,并基于音频和其他未遮蔽的手势信息预测遮蔽部分,从而增强模型对局部和全局信息的理解能力。
该框架还巧妙地利用了预训练的VQ-VAE(Vector Quantized Variational AutoEncoders)来解码局部面部和身体动作,并基于预训练的全局运动预测器解码全局平移。这种分段建模方式能够更好地捕捉不同身体部位与音频之间的独特关系,提高生成手势的准确性和多样性。
EMAGE的主要功能包括:
- 生成与音频同步的手势: 能够根据输入的音频信号,生成与音频节奏和语义相匹配的全身手势。
- 接受部分预定义手势输入: 能够基于用户提供的部分手势(如特定动作或姿势)作为提示,生成完整的、自然的手势序列。
- 生成多样化的手势: 组合多个预训练的VQ-VAE,生成丰富多样的手势动作,避免单一和重复的结果。
- 支持全身手势生成: 支持生成面部和上肢动作,以及下肢和全局运动,实现更自然、完整的人体动画效果。
EMAGE的应用场景广泛,潜力巨大:
- 虚拟现实(VR)与增强现实(AR): EMAGE能够生成虚拟角色的自然手势和表情,提升虚拟社交、虚拟会议、虚拟游戏等场景中的交互体验,让虚拟角色更加生动逼真。
- 动画制作: EMAGE可以辅助动画电影、电视剧及动态广告的制作,根据对话内容自动生成角色手势和表情,减少动画师工作量,提高制作效率。
- 虚拟客服与数字人: EMAGE能够为在线客服、智能助手等创建自然流畅的手势和表情,在与用户交流时更具亲和力和真实感,提升用户体验。
- 教育与培训: 在教育领域,虚拟教师可以根据讲解内容生成相应手势,帮助学生更好地理解知识;在培训场景中,可以生成逼真的操作演示手势,辅助教学。
- 娱乐行业: 在游戏开发中,EMAGE可以根据角色语音生成匹配的手势和表情,增强游戏的沉浸感和真实感。
EMAGE的开源项目地址已公布,包括项目官网、GitHub仓库和在线体验Demo,方便研究人员和开发者进行学习和使用。
- 项目官网: https://pantomatrix.github.io/EMAGE
- GitHub仓库: https://github.com/PantoMatrix/EMAGE
- arXiv技术论文: https://arxiv.org/pdf/2401.00374
- 在线体验Demo: https://huggingface.co/spaces/H-Liu1997/EMAGE
EMAGE的发布,标志着音频驱动的全身共语手势生成技术迈上了一个新的台阶。随着技术的不断发展和完善,相信EMAGE将在更多领域发挥重要作用,为人们带来更加智能、便捷和自然的交互体验。
未来展望:
EMAGE的成功为未来的研究方向提供了新的思路。例如,可以探索如何将EMAGE与其他人工智能技术(如自然语言处理、计算机视觉)相结合,实现更加智能化的手势生成。此外,还可以研究如何利用EMAGE来创建更加个性化和定制化的虚拟角色,满足不同用户的需求。随着技术的不断进步,我们有理由相信,音频驱动的全身共语手势生成技术将在未来发挥更加重要的作用。
Views: 0