群核科技开源SpatialLM，空间理解AI新突破！

北京讯 – 人工智能领域迎来一项重要突破。近日，群核科技（酷家乐）正式开源其研发的空间理解多模态模型SpatialLM。该模型旨在赋予机器人和智能系统类似人类的空间认知能力，通过分析普通手机拍摄的视频，即可重建出详细的3D场景布局，并标注房间结构、家具摆放、通道宽度等关键信息。这一创新有望显著推动具身智能、AR/VR、建筑设计等领域的发展。

SpatialLM的发布，标志着AI在理解和模拟物理世界方面迈出了重要一步。长期以来，大型语言模型（LLM）在处理文本和图像方面表现出色，但在理解物理世界的几何和空间关系方面存在局限。SpatialLM的出现，填补了这一空白。

技术原理：视频到3D场景的转化

SpatialLM的核心技术在于将视频转化为结构化的3D场景。其技术流程主要包括以下几个步骤：

视频输入与点云重建： 模型采用MASt3R-SLAM技术处理输入的RGB视频，将视频分解为帧，提取物体的细节空间点，计算其深度和位置，生成高密度的3D点云模型。
点云编码与特征提取： 点云数据通过编码器转化为紧凑的特征向量，保留场景中物体的关键几何和语义信息。
大语言模型生成场景代码： 利用大型语言模型（LLM），将点云特征转化为结构化的场景代码，包含空间结构的坐标和尺寸，标注物体的语义边界框（例如，“沙发 – 长 1.8 米 – 距墙 0.5 米”）。
结构化3D布局生成： 场景代码被进一步转换为结构化的3D场景布局，明确标注每个物体的三维坐标、尺寸参数和类别信息，最终可以通过可视化工具还原为可交互的3D场景。
物理规则嵌入： 为了确保生成的3D场景符合现实世界的物理规律，SpatialLM内置了物理常识，例如“家具不能悬空”、“通道宽度≥0.8 米”等。

SpatialLM的主要功能和优势

视频生成3D场景： 通过普通手机拍摄的视频，即可重建出详细的3D场景布局。
空间认知与推理： 突破传统大语言模型对物理世界几何与空间关系的理解局限，赋予机器类似人类的空间认知和解析能力。
低成本数据采集： 无需借助复杂的传感器或智能穿戴设备，降低了数据采集的门槛。
具身智能训练： 为具身智能领域提供了基础的空间理解训练框架，可针对特定场景进行微调，实现机器人在复杂环境中的导航、避障和任务执行能力。
虚拟场景生成： 可以将现实世界的数据转化为虚拟环境中的丰富场景，为虚拟现实、增强现实和游戏开发等领域提供强大的支持。

应用场景：潜力无限

SpatialLM的应用场景广泛，涵盖了多个领域：

具身智能训练： 帮助机器人在虚拟环境中进行障碍规避、物体抓取等任务的训练。
自动导航： 在机器人导航任务中，实时解析环境中的空间信息，帮助机器人避开障碍物并规划最优路径。
AR/VR领域： 将现实世界的场景快速转化为虚拟环境中的丰富场景，支持增强现实和虚拟现实应用的开发。
建筑设计与规划： 分析建筑物的3D点云数据，识别墙体、门窗等结构信息，帮助建筑设计和规划人员更高效地进行设计工作。
教育与培训： 开发教育软件，帮助学生学习3D建模和空间视觉能力。

开源与未来展望

群核科技选择开源SpatialLM，旨在促进人工智能领域的合作与创新。通过开放源代码，研究人员和开发者可以更方便地使用和改进该模型，共同推动空间理解技术的发展。

SpatialLM的项目地址：

Github仓库：https://github.com/manycore-research/SpatialLM
HuggingFace模型库：https://huggingface.co/manycore-research/SpatialLM-Llama-1B

群核科技表示，未来将继续投入研发，不断提升SpatialLM的性能和功能，并积极探索其在更多领域的应用。SpatialLM的开源，无疑为人工智能领域注入了新的活力，预示着具身智能和空间理解技术将迎来更加广阔的发展前景。

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

群核科技开源SpatialLM，空间理解AI新突破！

作者智能小编

相关文章

陈春花：智能寻捷径，智慧照亮生命

智谱AI CEO：大模型领域存在“反共识”

语音交互：AI应用新王牌，巨头B2C掉队？

发表回复取消回复

为您推荐