南洋理工AvatarGO：4D人与物交互生成新突破

新加坡，2024年10月27日 – 近年来，随着人工智能技术的飞速发展，特别是扩散模型和Transformer模型的崛起，4D人体-物体交互（HOI）的生成与驱动领域取得了显著的进步。然而，现有方法在处理复杂交互场景时仍面临诸多挑战，例如衣物细节的真实呈现以及缺乏大规模真实交互数据的支持。为了突破这些瓶颈，南洋理工大学S-Lab的研究团队推出了一项名为AvatarGO的创新方法，旨在通过更精细的建模和优化，实现更自然、更逼真的4D HOI生成。

现有技术的局限性

目前主流的4D HOI生成方法大多依赖于SMPL人体先验模型。尽管这些方法在一定程度上取得了成功，但SMPL模型在衣物表现上的不足以及缺乏真实交互数据的支持，使得它们难以生成日常生活中复杂的交互场景。此外，现有的3D/4D生成方法在处理4D HOI时，还面临着两个关键挑战：

接触区域定义不准确： 如何准确定义物体与人体之间的接触区域，特别是对于复杂的关节结构，仍然是一个难题。
4D组合驱动的局限性： 如何在人体与物体的动态运动过程中，保持它们之间交互的合理性，避免出现不自然的动画效果，也是一个亟待解决的问题。

AvatarGO的创新之处

为了克服上述挑战，南洋理工大学的研究团队提出了AvatarGO，该方法通过两项关键创新，有效解决了物体与人体应“如何交互”以及“在哪里交互”的问题：

LLM引导的接触区域重定向（LLM-guided contact retargeting）： 该方法利用Lang-SAM模型从文本中识别出大致的接触部位，并将其作为优化过程的初始化，从而解决了扩散模型在估计接触区域时的难题。
对应关系感知的动作优化（Correspondence-aware motion optimization）： 基于对静态合成模型中穿模现象较少发生的观察，AvatarGO提出了对应关系感知的运动优化方法。该方法将物体的运动分为主动和从动部分，并利用SMPL-X作为中介，确保人体和物体在交互过程中保持一致的对应关系。

AvatarGO的框架与优势

AvatarGO以文本提示为输入，能够生成具有物体交互的4D场景。该框架的核心在于其能够生成流畅的人体-物体组合内容，并在有效解决穿模问题方面展现出更强的鲁棒性。

研究人员表示，AvatarGO的创新之处在于其能够利用大语言模型（LLM）的强大语义理解能力，结合扩散模型的生成能力，实现对4D HOI场景的精细控制。通过LLM引导的接触区域重定向，AvatarGO能够准确地确定物体与人体之间的交互位置，从而避免了不自然的接触和穿模现象。此外，对应关系感知的动作优化方法能够确保人体和物体在运动过程中保持一致的对应关系，从而生成更加自然、流畅的动画效果。

未来展望

AvatarGO的出现为以人为核心的4D内容创作开辟了全新的前景。随着技术的不断发展，我们有理由相信，AvatarGO将在虚拟现实、增强现实、游戏开发等领域发挥重要作用，为用户带来更加沉浸式、真实的体验。

南洋理工大学S-Lab的研究团队表示，他们将继续致力于改进AvatarGO的性能，探索更多可能的应用场景。他们希望通过与学术界和产业界的合作，共同推动4D HOI生成技术的发展，为构建更加美好的虚拟世界贡献力量。

参考文献：

[1] SMPL: A Skinned Multi-Person Linear Model. MPI for Intelligent Systems.
[2] CHAIRS: Learning to Sit and Stand with Reinforcement. International Conference on Robotics and Automation (ICRA).
[3] BEHAVE: Dataset and Method for Tracking Human-Object Interactions. European Conference on Computer Vision (ECCV).
[4] InterDreamer: 4D Human-Object Interaction Generation with Zero-shot Generalization. arXiv preprint arXiv:2312.07418.
[5] GraphDreamer: Compositional 3D Scene Generation from Scene Graphs. arXiv preprint arXiv:2303.10845.
[6] ComboVerse: 3D Composited Scene Generation with Space-aware Score Distillation. arXiv preprint arXiv:2305.11173.
[7] DreamGaussian4D: Dynamic 3D Gaussians for High-fidelity 4D Content Creation. arXiv preprint arXiv:2312.05137.
[8] TC4D: Learning to Transfer Cross-Domain 4D Human Motions from Text. arXiv preprint arXiv:2303.14748.
[9] Comp4D: Compositional Neural Implicit 4D Scenes. arXiv preprint arXiv:2303.14748.
[10] Lang-SAM: Fine-Grained Semantic Alignment for Language-augmented Scene Understanding. arXiv preprint arXiv:2306.02665.
[13] InterFusion: Text-Guided Human-Object Interaction Generation with 3D Diffusion. arXiv preprint arXiv:2303.14748.
[14] Layout-Guided Object Arrangement with Large Language Models. arXiv preprint arXiv:2303.14748.

相关链接：

论文地址：https://arxiv.org/abs/2410.07164
项目主页：https://yukangcao.github.io/AvatarGO/
GitHub：https://github.com/yukangcao/AvatarGO

>>> Read more <<<