新加坡/上海 – 人工智能领域再次迎来突破。近日,南洋理工大学S-Lab、上海AI Lab以及香港大学联合推出了一款名为AvatarGO的新型框架,该框架能够从文本输入直接生成可动画化的4D人体与物体交互场景。这一创新成果有望在虚拟现实、增强现实、数字内容创作等领域带来革命性变革。
AvatarGO是什么?
AvatarGO旨在解决传统方法在生成日常人体与物体交互(Human-Object Interaction, HOI)场景时,因缺乏大规模交互数据而受限的问题。其核心在于利用零样本(zero-shot)方法,基于预训练的扩散模型,实现高质量、高逼真度的4D场景生成。
技术原理
AvatarGO框架主要包含以下几个关键技术:
- LLM引导的接触重定位: 借助Lang-SAM(Language Segment Anything Model)从文本提示中识别接触部位,确保人体与物体的空间关系精确表示。该方法将3D人体模型渲染成2D图像,结合文本提示,生成人体接触部位的分割掩码,并反向投影到3D模型中,从而初始化物体的位置。
- 空间感知的分数蒸馏采样: 引入SSDS(Spatial-aware Score Distillation Sampling),增强与人体-物体交互相关的文本标记的注意力权重,帮助扩散模型理解人体与物体之间的空间关系。
- 对应关系感知的运动优化: 利用SMPL-X模型作为中介,为人体和物体构建运动场。基于线性混合蒙皮(LBS)函数,将物体的运动与人体的运动同步优化。同时,引入新的训练目标——对应关系感知损失,最小化人体与物体之间的空间偏差,确保在动画过程中两者不会出现穿透现象。
- 基于扩散模型的3D和4D生成: 3D生成方面,采用DreamGaussian方法生成高质量的3D人体和物体模型,并使用基于3D高斯点云表示场景的分数蒸馏采样(SDS)优化生成结果。4D动画生成则在3D模型的基础上,基于HexPlane特征和SMPL-X模型生成动态的4D动画,优化物体的全局参数(如旋转、平移)和人体的运动序列,生成连贯且逼真的4D动画。
主要功能
AvatarGO框架具备以下主要功能:
- 从文本生成4D交互场景: 基于简单的文本描述直接生成包含人体和物体交互的4D动画。
- 精确的人体与物体接触表示: 准确识别人体与物体的接触部位,确保生成的3D和4D场景中,人体与物体的空间关系合理。
- 解决动画中的穿透问题: 在动画生成过程中,有效避免人体与物体之间的穿透现象。
- 多样化的4D动画生成: 生成动态的4D动画,支持多种人物动作和物体交互。
- 支持多种人物和物体组合: 处理各种人物和物体的组合,包括虚拟角色和现实人物,以及各种日常物品。
应用场景
AvatarGO的应用前景广阔,包括但不限于:
- 虚拟导购员: 在商店中为顾客提供商品信息和购物建议。
- 展厅讲解员: 在博物馆或展厅中介绍展品和产品信息。
- 数字大堂经理: 在银行或营业厅提供咨询和引导服务。
- 车载虚拟助手: 在汽车中作为智能助手,提供陪伴和交互体验。
- VR/AR内容创作: 生成4D动画,用于虚拟现实和增强现实中的角色和交互设计。
项目地址
- 项目官网: https://yukangcao.github.io/AvatarGO
- GitHub仓库: https://github.com/yukangcao/AvatarGO
- arXiv技术论文: https://arxiv.org/pdf/2410.07164
展望
AvatarGO的推出,标志着人工智能在4D场景生成领域迈出了重要一步。其零样本学习能力和对复杂交互场景的处理能力,为未来的虚拟现实、增强现实以及数字内容创作提供了强大的技术支持。随着技术的不断发展和完善,AvatarGO有望在更多领域发挥重要作用,为人们带来更加丰富和真实的交互体验。
参考文献:
- Yukang Cao, et al. AvatarGO: Animatable 4D Human-Object Interaction Generation from Text. arXiv preprint arXiv:2410.07164 (2024).
- Project Website: https://yukangcao.github.io/AvatarGO
- GitHub Repository: https://github.com/yukangcao/AvatarGO
Views: 0