引言:
想象一下,未来的机器人不仅能听懂你的指令,还能“看懂”周围的世界,精准地识别出哪些物体可以交互,以及如何交互。这一愿景正随着 3D Affordance Learning 技术的进步逐渐成为现实。然而,3D 数据标注的困难和现有模型泛化能力的不足,一直是阻碍其发展的两大难题。近日,新加坡国立大学的研究团队提出了一种名为 GEAL (Generalizable 3D Affordance Learning) 的创新方法,巧妙地利用 2D 大模型的力量,无需大量 3D 数据标注,即可实现对 3D 场景中可交互区域的精确预测。这项研究已被 CVPR 2025 接收,为通用且鲁棒的 3D Affordance Learning 提供了新的思路。
3D Affordance Learning 的挑战与机遇:
在机器人操作和人机交互领域,理解 3D 场景中物体可交互的部位(Affordance)至关重要。3D Affordance Learning 旨在让模型能够根据视觉和语言线索,自动推理出物体可供哪些操作,以及可交互区域的空间位置。这使得机器人或人工智能系统能够理解物体潜在的操作方式,从而更好地与环境互动。
然而,与 2D 任务相比,3D 数据的获取与高精度标注通常更为困难且成本高昂。大规模高质量的 3D 标注数据稀缺,阻碍了模型在新物体或场景中的泛化。此外,现有 3D 模型多依赖几何与位置编码来表征空间结构,难以从外观语义中充分汲取上下文信息,容易受到传感器误差和场景复杂性的影响,导致鲁棒性不足。
GEAL:2D 大模型赋能 3D Affordance 预测的新范式:
为了克服上述挑战,新加坡国立大学的研究团队另辟蹊径,提出了 GEAL。GEAL 的核心思想是利用大规模预训练的 2D 模型所蕴含的强大表征能力,同时兼顾 3D 模态下细节和结构信息的准确对齐。
GEAL 的主要创新点包括:
- 利用 3D Gaussian Splatting 渲染稀疏点云,高效引入 2D 分支: GEAL 首先利用 3D Gaussian Splatting 技术将稀疏点云转换为可在 2D 模型中处理的真实感渲染图。通过可学习的高斯基元对每个三维点进行表示,并通过光栅化与 α- 混合在 2D 图像中生成具有深度、透明度与颜色信息的像素,从而获得更为平滑、逼真的二维视图。这些视图为 2D 模型提供了足以辨别纹理和轮廓的语义特征,也为后续跨模态步骤中与点云的几何结构建立一一对应关系打下基础。
- 跨模态特征对齐: 在 2D 和 3D 分支分别获得多尺度特征后,GEAL 通过颗粒度自适应融合模块(Granularity-Adaptive Fusion Module, GAFM) 与一致性对齐模块(Consistency Alignment Module,CAM) 实现语义与几何间的双向对齐。GAFM 针对 2D 与 3D 在不同层级上所捕获的细节与全局信息,通过自适应权重聚合和文本引导的视觉对齐,将最相关的多粒度特征与用户指令相互融合。CAM 基于 Gaussian Splatting 所构建的像素 – 点云映射,将 3D 分支提取的点云特征再度渲染至二维空间,并与 2D 特征进行对齐。
- 全新基准数据集: 团队还构建了针对真实场景扰动的全新基准数据集,全面评估模型的稳健性。
实验结果与未来展望:
实验结果表明,GEAL 无论在公共数据集还是各种噪声环境下,都显著优于现有方法。这证明了 GEAL 在通用性和鲁棒性方面的优势,为 3D Affordance Learning 领域带来了新的突破。
GEAL 的成功,不仅为 3D Affordance Learning 提供了一种新的解决思路,也为未来机器人交互的发展带来了新的可能性。随着技术的不断进步,我们有理由相信,未来的机器人将能够更好地理解和适应周围的世界,为人类提供更加智能、便捷的服务。
参考文献:
- 论文:https://arxiv.org/abs/2412.09511
- 代码:https://github.com/DylanOrange/geal
- 项目主页:https://dylanorange.github.io/projects/geal/
致谢:
感谢新加坡国立大学鲁东岳博士、Gim Hee Lee 副教授及其团队为本文提供的资料和信息。
(本文作者:[你的名字],曾供职于新华社、人民日报、中央电视台、华尔街日报、纽约时报等资深新闻媒体)
Views: 0