Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

新加坡/上海 – 人工智能领域再次迎来突破。近日,南洋理工大学S-Lab、上海AI Lab以及香港大学联合推出了一款名为AvatarGO的新型框架,该框架能够从文本输入直接生成可动画化的4D人体与物体交互场景。这一创新成果有望在虚拟现实、增强现实、数字内容创作等领域带来革命性变革。

AvatarGO是什么?

AvatarGO旨在解决传统方法在生成日常人体与物体交互(Human-Object Interaction, HOI)场景时,因缺乏大规模交互数据而受限的问题。其核心在于利用零样本(zero-shot)方法,基于预训练的扩散模型,实现高质量、高逼真度的4D场景生成。

技术原理

AvatarGO框架主要包含以下几个关键技术:

  • LLM引导的接触重定位: 借助Lang-SAM(Language Segment Anything Model)从文本提示中识别接触部位,确保人体与物体的空间关系精确表示。该方法将3D人体模型渲染成2D图像,结合文本提示,生成人体接触部位的分割掩码,并反向投影到3D模型中,从而初始化物体的位置。
  • 空间感知的分数蒸馏采样: 引入SSDS(Spatial-aware Score Distillation Sampling),增强与人体-物体交互相关的文本标记的注意力权重,帮助扩散模型理解人体与物体之间的空间关系。
  • 对应关系感知的运动优化: 利用SMPL-X模型作为中介,为人体和物体构建运动场。基于线性混合蒙皮(LBS)函数,将物体的运动与人体的运动同步优化。同时,引入新的训练目标——对应关系感知损失,最小化人体与物体之间的空间偏差,确保在动画过程中两者不会出现穿透现象。
  • 基于扩散模型的3D和4D生成: 3D生成方面,采用DreamGaussian方法生成高质量的3D人体和物体模型,并使用基于3D高斯点云表示场景的分数蒸馏采样(SDS)优化生成结果。4D动画生成则在3D模型的基础上,基于HexPlane特征和SMPL-X模型生成动态的4D动画,优化物体的全局参数(如旋转、平移)和人体的运动序列,生成连贯且逼真的4D动画。

主要功能

AvatarGO框架具备以下主要功能:

  • 从文本生成4D交互场景: 基于简单的文本描述直接生成包含人体和物体交互的4D动画。
  • 精确的人体与物体接触表示: 准确识别人体与物体的接触部位,确保生成的3D和4D场景中,人体与物体的空间关系合理。
  • 解决动画中的穿透问题: 在动画生成过程中,有效避免人体与物体之间的穿透现象。
  • 多样化的4D动画生成: 生成动态的4D动画,支持多种人物动作和物体交互。
  • 支持多种人物和物体组合: 处理各种人物和物体的组合,包括虚拟角色和现实人物,以及各种日常物品。

应用场景

AvatarGO的应用前景广阔,包括但不限于:

  • 虚拟导购员: 在商店中为顾客提供商品信息和购物建议。
  • 展厅讲解员: 在博物馆或展厅中介绍展品和产品信息。
  • 数字大堂经理: 在银行或营业厅提供咨询和引导服务。
  • 车载虚拟助手: 在汽车中作为智能助手,提供陪伴和交互体验。
  • VR/AR内容创作: 生成4D动画,用于虚拟现实和增强现实中的角色和交互设计。

项目地址

展望

AvatarGO的推出,标志着人工智能在4D场景生成领域迈出了重要一步。其零样本学习能力和对复杂交互场景的处理能力,为未来的虚拟现实、增强现实以及数字内容创作提供了强大的技术支持。随着技术的不断发展和完善,AvatarGO有望在更多领域发挥重要作用,为人们带来更加丰富和真实的交互体验。

参考文献:


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注