Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

90年代申花出租车司机夜晚在车内看文汇报90年代申花出租车司机夜晚在车内看文汇报
0

北京讯 – 人工智能领域迎来一项重要突破。近日,群核科技(酷家乐)正式开源其研发的空间理解多模态模型SpatialLM。该模型旨在赋予机器人和智能系统类似人类的空间认知能力,通过分析普通手机拍摄的视频,即可重建出详细的3D场景布局,并标注房间结构、家具摆放、通道宽度等关键信息。这一创新有望显著推动具身智能、AR/VR、建筑设计等领域的发展。

SpatialLM的发布,标志着AI在理解和模拟物理世界方面迈出了重要一步。长期以来,大型语言模型(LLM)在处理文本和图像方面表现出色,但在理解物理世界的几何和空间关系方面存在局限。SpatialLM的出现,填补了这一空白。

技术原理:视频到3D场景的转化

SpatialLM的核心技术在于将视频转化为结构化的3D场景。其技术流程主要包括以下几个步骤:

  1. 视频输入与点云重建: 模型采用MASt3R-SLAM技术处理输入的RGB视频,将视频分解为帧,提取物体的细节空间点,计算其深度和位置,生成高密度的3D点云模型。
  2. 点云编码与特征提取: 点云数据通过编码器转化为紧凑的特征向量,保留场景中物体的关键几何和语义信息。
  3. 大语言模型生成场景代码: 利用大型语言模型(LLM),将点云特征转化为结构化的场景代码,包含空间结构的坐标和尺寸,标注物体的语义边界框(例如,“沙发 – 长 1.8 米 – 距墙 0.5 米”)。
  4. 结构化3D布局生成: 场景代码被进一步转换为结构化的3D场景布局,明确标注每个物体的三维坐标、尺寸参数和类别信息,最终可以通过可视化工具还原为可交互的3D场景。
  5. 物理规则嵌入: 为了确保生成的3D场景符合现实世界的物理规律,SpatialLM内置了物理常识,例如“家具不能悬空”、“通道宽度≥0.8 米”等。

SpatialLM的主要功能和优势

  • 视频生成3D场景: 通过普通手机拍摄的视频,即可重建出详细的3D场景布局。
  • 空间认知与推理: 突破传统大语言模型对物理世界几何与空间关系的理解局限,赋予机器类似人类的空间认知和解析能力。
  • 低成本数据采集: 无需借助复杂的传感器或智能穿戴设备,降低了数据采集的门槛。
  • 具身智能训练: 为具身智能领域提供了基础的空间理解训练框架,可针对特定场景进行微调,实现机器人在复杂环境中的导航、避障和任务执行能力。
  • 虚拟场景生成: 可以将现实世界的数据转化为虚拟环境中的丰富场景,为虚拟现实、增强现实和游戏开发等领域提供强大的支持。

应用场景:潜力无限

SpatialLM的应用场景广泛,涵盖了多个领域:

  • 具身智能训练: 帮助机器人在虚拟环境中进行障碍规避、物体抓取等任务的训练。
  • 自动导航: 在机器人导航任务中,实时解析环境中的空间信息,帮助机器人避开障碍物并规划最优路径。
  • AR/VR领域: 将现实世界的场景快速转化为虚拟环境中的丰富场景,支持增强现实和虚拟现实应用的开发。
  • 建筑设计与规划: 分析建筑物的3D点云数据,识别墙体、门窗等结构信息,帮助建筑设计和规划人员更高效地进行设计工作。
  • 教育与培训: 开发教育软件,帮助学生学习3D建模和空间视觉能力。

开源与未来展望

群核科技选择开源SpatialLM,旨在促进人工智能领域的合作与创新。通过开放源代码,研究人员和开发者可以更方便地使用和改进该模型,共同推动空间理解技术的发展。

SpatialLM的项目地址:

群核科技表示,未来将继续投入研发,不断提升SpatialLM的性能和功能,并积极探索其在更多领域的应用。SpatialLM的开源,无疑为人工智能领域注入了新的活力,预示着具身智能和空间理解技术将迎来更加广阔的发展前景。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注