Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

90年代的黄河路
0

3D基础模型时代开启?Meta与牛津大学联手推出VGGT,一站式Transformer开创高效3D视觉新范式

[摘要] 3D视觉领域迎来突破性进展。Meta AI 与牛津大学 VGG 团队联合发布 VGGT 模型,该模型基于纯前馈 Transformer 架构,能够从图像中直接推理出包括相机参数、深度图、点云和3D轨迹在内的核心几何信息,无需任何后处理优化。这一创新方法在多个3D任务中超越了传统优化方法和现有模型,并实现了秒级推理速度,预示着3D视觉领域或将迎来基础模型时代。

[北京/伦敦,2025年3月28日] 长期以来,3D视觉重建技术依赖于繁琐的几何迭代优化,计算成本高昂。如今,这一局面或将被彻底颠覆。Meta AI 与牛津大学视觉几何组(VGG)合作,推出了名为 VGGT(Visual Geometry Grounded Transformer)的全新模型,为3D视觉领域带来了革命性的突破。

VGGT 采用纯前馈 Transformer 架构,能够从单张、多张甚至上百张图像中直接推理出相机内参、外参、深度图、点云及 3D 点轨迹等关键几何信息。更令人瞩目的是,该模型无需任何后处理优化,便能在多个3D任务中显著超越传统优化方法与现有SOTA模型,推理速度更是达到了惊人的秒级。

打破传统范式:从迭代优化到端到端推理

传统 3D 重建技术高度依赖束调整(Bundle Adjustment, BA)等几何优化方法,需要反复迭代,计算成本居高不下。尽管近年来机器学习被引入辅助优化,但仍难以摆脱复杂后处理的限制。

VGGT 开创性地采用纯前馈设计,通过大规模 3D 标注数据与 Transformer 架构的结合,模型在一次前向传播中即可完成全部几何推理任务。实验结果表明,即使输入数百张图像,VGGT 仍能在数秒内输出高质量结果,在精度与速度上均超越了传统优化方法。

研究团队表示,VGGT 的成功并非源于复杂的结构设计或领域先验,而是得益于 Transformer 架构的通用性与大规模 3D 数据训练的协同效应。模型将输入图像转化为 Tokens 后,与随机初始化的相机 Tokens 共同输入交替注意力模块(Alternating-Attention),通过全局与帧级自注意力层的交替堆叠,逐步融合多视图几何信息。最终,相机参数经专用头部解码,图像 Tokens 则通过 DPT 头部生成密集预测(如深度图与点图)。

值得一提的是,VGGT 仅使用自注意力机制(self attention),未使用跨注意力(cross attention)。同时,为保持输入图像的置换不变性,VGGT 摒弃了帧索引位置编码,仅通过帧级自注意力机制动态关联同一图像的 Tokens。这种设计赋予了模型强大的泛化能力,即使训练时仅使用少量帧数据,测试时亦可轻松处理大量输入。

据悉,VGGT 收集了 17 个大型 3D 数据集进行联合训练,在 64 块 A100 GPU 上耗时 9 天。

性能与泛化性双突破

定性演示视频显示,VGGT 能够轻松应对不同数量图像及复杂场景的重建。与过去 SOTA 模型的对比显示,VGGT 可精准重建梵高油画等非真实场景的几何结构,甚至能处理无重叠视图或重复纹理的极端案例。用户可通过 Hugging Face Demo 上传图像,实时体验 3D 重建效果。

在定量实验中,VGGT 无需任何后处理即在相机姿势估计、多视图深度估计、点云重建等任务中全面领先,其推理速度较传统方法提升近 50 倍。即使与同期 CVPR 2025 的 Transformer-based 重建模型相比,VGGT 性能优势明显,并与速度最快的 Fast3R 相当。

研究团队还意外发现,利用模型预测的深度图与相机参数反投影生成的点云,其质量甚至超过直接回归的点图,揭示了模型对几何一致性内在规律的自发学习能力。

跨任务泛化的潜力 – 单目重建

尽管 VGGT 从未接受单图训练,但仍展现出强大的跨任务泛化能力。研究团队公布的单图重建定性结果显示,VGGT 在未专门训练的单目任务中表现出色。GitHub 社区测试显示,VGGT 在 NYU V2 等数据集上的表现已逼近单目 SOTA 水平,进一步印证了 VGGT 作为通用 3D 基础模型的潜力。

结语

视觉重建作为所有 3D 任务的核心,VGGT 的成功标志着 3D 视觉领域或许即将迎来一个全新的基础模型时代。正如论文作者所述,我们正在见证视觉几何从 “手工设计” 到 “数据驱动” 的范式迁移,而这可能仅仅是个开端。“简单架构 + 数据驱动” 的模式是否能如 2D 视觉和 NLP 领域般彻底重塑 3D 任务?让我们拭目以待。

论文信息:

作者信息:

  • 论文第一作者王建元为牛津大学视觉几何组(VGG)与 Meta AI 的联合培养博士生。

[完]


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注