Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

新加坡/牛津 – 在人工智能领域,3D模型生成一直是研究的热点。近日,南洋理工大学与牛津大学等机构联合推出了一款名为Amodal3R的条件式3D生成模型,该模型能够从部分可见的2D物体图像中推测并重建完整的3D形态和外观,为遮挡场景下的3D重建带来了突破性进展。

Amodal3R:遮挡场景下的3D重建利器

传统的3D重建方法在面对图像中物体被遮挡的情况时,往往表现不佳。Amodal3R的出现,旨在解决这一难题。该模型基于“基础”3D生成模型TRELLIS构建,通过引入掩码加权多头交叉注意力机制和遮挡感知注意力层,利用遮挡先验知识指导重建过程,从而实现对遮挡物体的精准3D重建。

“Amodal3R的核心在于其能够理解和利用遮挡信息,”南洋理工大学的研究员吴博士表示,“通过掩码加权多头交叉注意力机制,模型可以更加关注可见部分,并根据遮挡先验知识推测被遮挡区域的形状和纹理。”

技术原理:多重创新,提升重建精度

Amodal3R的技术原理主要体现在以下几个方面:

  • 基础3D生成模型扩展: 从一个“基础”3D生成模型出发,扩展其处理遮挡2D图像的能力,恢复出合理的3D几何形状和外观。
  • 掩码加权多头交叉注意力机制: 通过掩码引导注意力机制,使模型在生成过程中更加关注可见部分,利用遮挡先验知识来推测被遮挡区域的形状和纹理。
  • 遮挡感知注意力层: 在掩码加权多头交叉注意力机制之后,进一步引入遮挡感知注意力层,提升模型对遮挡的处理能力。
  • 基于DINOv2的特征提取: 利用DINOv2进行高质量的视觉特征提取,为3D重建提供更多上下文信息,帮助模型更准确地进行3D重建。

值得一提的是,Amodal3R仅使用合成数据进行训练,却能在真实场景中表现出色,这表明该模型具有较强的泛化能力,能将从合成数据中学到的知识应用到真实场景中。

应用前景:赋能多领域,重塑3D视觉体验

Amodal3R的出现,为众多领域带来了新的可能性:

  • 增强现实(AR)和虚拟现实(VR): 可以帮助从部分可见的2D图像中重建完整的3D模型,提供更加沉浸式的体验。
  • 机器人视觉: 帮助机器人在复杂环境中更准确地感知和理解被部分遮挡的物体,更好地进行路径规划和任务执行。
  • 自动驾驶: 从部分遮挡的图像中重建完整的3D模型,帮助自动驾驶系统更准确地识别和处理复杂的交通场景。
  • 3D资产创建: 从简单的2D图像中生成高质量的3D模型,简化了游戏开发、电影制作等领域中的3D建模流程。

挑战与展望:持续创新,迎接3D视觉新时代

尽管Amodal3R在遮挡场景下的3D重建方面取得了显著进展,但仍面临一些挑战。例如,对于遮挡程度过高或物体结构过于复杂的场景,模型的重建效果仍有提升空间。

展望未来,研究团队表示将继续探索更高效的3D重建算法,并尝试将Amodal3R应用于更多实际场景中。“我们相信,随着技术的不断发展,Amodal3R将在3D视觉领域发挥越来越重要的作用,”吴博士说道。

项目地址:

参考文献:

  • Sm0kyWu. (2024). Amodal3R: Reconstructing Complete 3D Objects from Partially Observed 2D Images. arXiv preprint arXiv:2503.13439.

关键词: Amodal3R, 3D重建, 遮挡感知, 人工智能, 计算机视觉, 南洋理工大学, 牛津大学


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注