Meta重磅发布VGGT，3D视觉迎来新纪元！

3D基础模型时代开启？Meta与牛津大学联手推出VGGT，一站式Transformer开创高效3D视觉新范式

[摘要] 3D视觉领域迎来突破性进展。Meta AI 与牛津大学 VGG 团队联合发布 VGGT 模型，该模型基于纯前馈 Transformer 架构，能够从图像中直接推理出包括相机参数、深度图、点云和3D轨迹在内的核心几何信息，无需任何后处理优化。这一创新方法在多个3D任务中超越了传统优化方法和现有模型，并实现了秒级推理速度，预示着3D视觉领域或将迎来基础模型时代。

[北京/伦敦，2025年3月28日] 长期以来，3D视觉重建技术依赖于繁琐的几何迭代优化，计算成本高昂。如今，这一局面或将被彻底颠覆。Meta AI 与牛津大学视觉几何组（VGG）合作，推出了名为 VGGT（Visual Geometry Grounded Transformer）的全新模型，为3D视觉领域带来了革命性的突破。

VGGT 采用纯前馈 Transformer 架构，能够从单张、多张甚至上百张图像中直接推理出相机内参、外参、深度图、点云及 3D 点轨迹等关键几何信息。更令人瞩目的是，该模型无需任何后处理优化，便能在多个3D任务中显著超越传统优化方法与现有SOTA模型，推理速度更是达到了惊人的秒级。

打破传统范式：从迭代优化到端到端推理

传统 3D 重建技术高度依赖束调整（Bundle Adjustment, BA）等几何优化方法，需要反复迭代，计算成本居高不下。尽管近年来机器学习被引入辅助优化，但仍难以摆脱复杂后处理的限制。

VGGT 开创性地采用纯前馈设计，通过大规模 3D 标注数据与 Transformer 架构的结合，模型在一次前向传播中即可完成全部几何推理任务。实验结果表明，即使输入数百张图像，VGGT 仍能在数秒内输出高质量结果，在精度与速度上均超越了传统优化方法。

研究团队表示，VGGT 的成功并非源于复杂的结构设计或领域先验，而是得益于 Transformer 架构的通用性与大规模 3D 数据训练的协同效应。模型将输入图像转化为 Tokens 后，与随机初始化的相机 Tokens 共同输入交替注意力模块（Alternating-Attention），通过全局与帧级自注意力层的交替堆叠，逐步融合多视图几何信息。最终，相机参数经专用头部解码，图像 Tokens 则通过 DPT 头部生成密集预测（如深度图与点图）。

值得一提的是，VGGT 仅使用自注意力机制（self attention），未使用跨注意力（cross attention）。同时，为保持输入图像的置换不变性，VGGT 摒弃了帧索引位置编码，仅通过帧级自注意力机制动态关联同一图像的 Tokens。这种设计赋予了模型强大的泛化能力，即使训练时仅使用少量帧数据，测试时亦可轻松处理大量输入。

据悉，VGGT 收集了 17 个大型 3D 数据集进行联合训练，在 64 块 A100 GPU 上耗时 9 天。

性能与泛化性双突破

定性演示视频显示，VGGT 能够轻松应对不同数量图像及复杂场景的重建。与过去 SOTA 模型的对比显示，VGGT 可精准重建梵高油画等非真实场景的几何结构，甚至能处理无重叠视图或重复纹理的极端案例。用户可通过 Hugging Face Demo 上传图像，实时体验 3D 重建效果。

在定量实验中，VGGT 无需任何后处理即在相机姿势估计、多视图深度估计、点云重建等任务中全面领先，其推理速度较传统方法提升近 50 倍。即使与同期 CVPR 2025 的 Transformer-based 重建模型相比，VGGT 性能优势明显，并与速度最快的 Fast3R 相当。

研究团队还意外发现，利用模型预测的深度图与相机参数反投影生成的点云，其质量甚至超过直接回归的点图，揭示了模型对几何一致性内在规律的自发学习能力。

跨任务泛化的潜力 – 单目重建

尽管 VGGT 从未接受单图训练，但仍展现出强大的跨任务泛化能力。研究团队公布的单图重建定性结果显示，VGGT 在未专门训练的单目任务中表现出色。GitHub 社区测试显示，VGGT 在 NYU V2 等数据集上的表现已逼近单目 SOTA 水平，进一步印证了 VGGT 作为通用 3D 基础模型的潜力。

结语

视觉重建作为所有 3D 任务的核心，VGGT 的成功标志着 3D 视觉领域或许即将迎来一个全新的基础模型时代。正如论文作者所述，我们正在见证视觉几何从 “手工设计” 到 “数据驱动” 的范式迁移，而这可能仅仅是个开端。“简单架构 + 数据驱动” 的模式是否能如 2D 视觉和 NLP 领域般彻底重塑 3D 任务？让我们拭目以待。

论文信息：

论文标题：VGGT: Visual Geometry Grounded Transformer
论文链接：https://arxiv.org/abs/2503.11651
代码链接：https://github.com/facebookresearch/vggt
演示平台：https://huggingface.co/spaces/facebook/vggt

作者信息：

论文第一作者王建元为牛津大学视觉几何组（VGG）与 Meta AI 的联合培养博士生。

[完]

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Meta重磅发布VGGT，3D视觉迎来新纪元！

作者智能小编

相关文章

智谱AI Agent：深度研究，操作自如，颠覆未来？

吉卜力风网页：Cursor与Claude-3.7共绘梦幻

Drinks Industry Bets on the Future at “Coldest in a Decade” Trade Show

发表回复取消回复

为您推荐