Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

shanghaishanghai
0

Qwen赋能AI“看见”三维世界,SeeGround实现零样本开放词汇3D视觉定位

[机器之心快讯] 在即将到来的CVPR 2025大会上,一项突破性的研究成果——SeeGround,将为人工智能领域带来全新的视角。该研究由香港科技大学(广州)、新加坡A*STAR研究院和新加坡国立大学的研究团队联合推出,利用Qwen等先进技术,成功实现了零样本开放词汇3D视觉定位(3DVG)。这意味着AI无需大量的3D标注数据训练,也能根据自然语言描述,精准地在三维场景中定位目标物体。

3D视觉定位:AI理解世界的关键一步

3D视觉定位(3DVG)是智能体理解和交互三维世界的关键技术。它要求AI能够根据自然语言描述,在复杂的3D环境中找到对应的物体,并以3D包围框的形式输出其位置。相比于传统的目标检测,3DVG需要AI同时理解文本、视觉和空间信息,难度显著提升。

长期以来,3DVG主要依赖于监督学习方法,但这种方法需要海量的3D标注数据,成本高昂且难以泛化到未知的类别和环境。近年来,虽然出现了弱监督和零样本方法,但它们要么依赖少量3D训练数据,要么忽略了3D视觉细节,导致定位精度受限。

SeeGround:让AI“看见”三维世界

为了解决上述挑战,研究团队提出了SeeGround框架,该框架无需任何3D训练数据,仅通过2D视觉语言模型(VLM)即可实现3D物体定位。这项技术的关键在于,它能够将3D场景转换为2D-VLM可处理的形式,从而利用2D视觉任务的强大能力来解决3D问题,实现对任意物体和场景的泛化。

SeeGround框架的核心在于两个关键模块:

  • 透视自适应模块(PAM): 该模块通过动态视角选择,确保VLM能够准确理解物体的空间关系。传统方法通常使用固定视角渲染3D场景,但VLM本质上是基于平面的视觉感知模型,难以推理3D物体的空间位置。PAM能够根据用户输入的文本,识别出描述中涉及的锚定物体,并据此计算最佳观察角度,从而使VLM能够更清晰地理解物体间的相对位置关系。

  • 融合对齐模块(FAM): 该模块通过视觉提示增强技术,将2D图像中的物体与3D坐标信息对齐,提升定位精度。由于VLM无法直接推理3D物体的空间信息,FAM通过将3D场景表示为2D渲染图像+文本3D坐标信息的方式,让VLM能够将图像中的物体与对应的3D坐标关联起来,从而实现精准定位。

Qwen的助力与未来展望

值得一提的是,SeeGround框架的成功离不开Qwen等先进技术的支持。Qwen作为一种强大的大语言模型,为SeeGround提供了强大的文本理解和推理能力,使其能够更好地理解用户的自然语言描述,并将其转化为对3D场景的理解。

SeeGround的出现,有望为3D视觉理解领域带来革命性的变革。它不仅降低了3D视觉定位的成本和门槛,还提高了其泛化能力和精度,为实际应用提供了更高效的解决方案。未来,SeeGround有望在机器人导航、自动驾驶、虚拟现实等领域发挥重要作用,推动人工智能技术的发展。

论文信息:

关键词: CVPR 2025, Qwen, 3D视觉定位, 零样本学习, 开放词汇, SeeGround, 人工智能, 机器人, 自动驾驶, 虚拟现实

“`

说明:

  • 标题和引言: 标题简洁明了,突出核心信息,引言迅速抓住读者的兴趣,概括文章的主要内容。
  • 主体结构: 文章分为几个部分,分别介绍了3D视觉定位的背景、SeeGround框架的核心创新、Qwen的技术支持以及未来的应用前景。
  • 内容准确性: 文章基于你提供的信息,力求准确地描述SeeGround框架的技术细节和优势。
  • 专业性: 文章使用了专业的术语和表达方式,体现了新闻记者的专业素养。
  • 结论: 文章总结了SeeGround的重要性和影响,并展望了其未来的应用前景。
  • 参考文献: 提供了论文的链接,方便读者进一步了解相关信息。

希望这篇新闻稿能够满足你的要求。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注