李飞飞团队重磅发布：视觉空间智能新基准VSI-Bench

好的，这是一篇基于您提供的资料，并按照您提出的专业新闻写作要求撰写的文章：

标题：李飞飞、谢赛宁团队发布VSI-Bench：为多模态大模型注入“空间智能”

引言：

在人工智能领域，让机器像人类一样理解和感知世界一直是研究人员孜孜以求的目标。近日，由著名人工智能学者李飞飞和谢赛宁领衔的研究团队推出了一项名为VSI-Bench（Visual-Spatial Intelligence Benchmark）的视觉空间智能基准测试集。这一数据集的发布，不仅为评估多模态大型语言模型（MLLMs）的空间认知能力提供了新的标准，也为未来机器人、增强现实、自动驾驶等领域的发展奠定了坚实基础。

主体：

一、VSI-Bench：解锁机器的“空间感知”

VSI-Bench，顾名思义，旨在测试和评估人工智能模型在视觉空间智能方面的能力。这不仅仅是简单的图像识别，而是深入到对空间关系、物体位置、尺寸以及时间序列的理解。该基准测试集包含超过5000个精心设计的问题-答案对，涵盖了近290个真实的室内场景视频，这些场景涵盖了住宅、办公室和工厂等多种环境。

VSI-Bench的任务类型多样，主要分为以下三类：

配置型任务： 这类任务侧重于对场景中物体的数量、相对距离、相对方向以及路线规划等进行理解。例如，模型需要回答“房间里有多少把椅子？”或者“桌子在沙发的前面还是后面？”等问题。
测量估计： 这类任务要求模型能够估计物体的尺寸、房间的大小以及物体之间的绝对距离。例如，“这个柜子有多高？”或者“房间的长度是多少？”等问题。
时空任务： 这类任务关注物体在时间上的出现顺序以及变化。例如，模型需要回答“先出现的是书还是花瓶？”等问题。

VSI-Bench的独特之处在于，它采用了视频输入，而非静态图像。这种方式更贴近人类观察世界的方式，也更真实地反映了现实世界中空间信息的动态变化。

二、技术原理：从数据构建到模型评估

VSI-Bench的构建过程严谨而科学。研究团队基于多个公共室内3D场景重建数据集（如ScanNet、ScanNet++和ARKitScenes），构建了高保真度的视频扫描和对象级别的3D注释。这些数据集为VSI-Bench提供了丰富而准确的数据基础。

问题-答案对的生成采用了自动化和人工相结合的方式。研究人员利用数据集中的元信息（如对象类别、边界框）和问题模板自动生成问题-答案对，同时对路线规划等复杂任务进行人工标注。为了确保数据质量，研究团队还实施了人工审核流程，对问题进行校对，并对错误或模糊的问题进行溯源和修正。

在模型评估方面，VSI-Bench在零样本设置下评估多种视频支持的MLLMs。研究人员使用默认提示进行测试，并采用精确匹配和模糊匹配作为主要评价指标。对于多项选择题（MCA）任务，使用准确度（ACC）作为评价标准；对于数值答案（NA）任务，则引入了新的度量标准——平均相对准确度（MRA）。此外，研究人员还通过提示MLLMs预测视频中对象的中心位置，生成认知图，从而评估模型的内部空间表示和记忆能力。

三、应用前景：从机器人到智能家居

VSI-Bench的发布，不仅为研究人员提供了一个评估MLLMs空间智能的工具，也为多个应用领域带来了新的可能性：

机器人导航与交互： 在机器人技术领域，VSI-Bench可以用于评估和训练MLLMs，使其更好地理解空间布局，提高机器人在未知环境中的导航和避障能力。
增强现实（AR）/虚拟现实（VR）： 在AR/VR应用中，VSI-Bench可以帮助MLLMs更好地理解用户的物理空间环境，从而提供更自然的交互体验。
自动驾驶汽车： 自动驾驶系统需要精确的空间理解能力来处理复杂的交通场景。VSI-Bench可以用于开发和测试支持自动驾驶的视觉空间智能系统。
智能家居系统： 智能家居系统需要理解居住空间的布局和物体的位置。VSI-Bench可以帮助训练MLLMs，使其更好地服务于智能家居控制和自动化。
室内设计和建筑规划： VSI-Bench可以用于评估MLLMs在空间规划和设计中的应用，帮助系统提供更合理的布局建议。

结论：

VSI-Bench的发布，标志着人工智能在理解和感知空间方面迈出了重要一步。它不仅为研究人员提供了一个标准化的测试平台，也为未来的技术发展指明了方向。随着VSI-Bench的不断完善和应用，我们有理由相信，未来的机器将能够像人类一样，更好地理解和感知我们所处的空间环境，从而为我们的生活带来更多的便利和可能性。

参考文献：

VSI-Bench项目官网：vision-x-nyu.github.io/thinking-in-space
GitHub仓库：https://github.com/vision-x-nyu/thinking-in-space
HuggingFace模型库：https://huggingface.co/datasets/nyu-visionx/VSI-Bench
arXiv技术论文：https://arxiv.org/pdf/2412.14171

（注：以上参考文献链接均已更新为可点击跳转）

（声明：本文为原创内容，未经允许禁止任何形式的转载。）

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

李飞飞团队重磅发布：视觉空间智能新基准VSI-Bench

作者智能小编

相关文章

Tencent-Backed Founder Builds AIGC Platform Boasts High Engagement & Conversion

ICLR 2025：中国科大、Meta论文荣膺杰出奖

腾讯收购后再创业，AIGC交互平台用户粘性惊人

发表回复取消回复

为您推荐