浙大蚂蚁联手，3D感知扩散模型Prometheus问世

引言：

在人工智能领域，文本到图像的生成技术已经取得了显著的进展，但将文本转化为复杂、逼真的3D场景仍然是一项挑战。近日，浙江大学联合蚂蚁集团等多所高校的研究团队，推出了一款名为“Prometheus”的创新型3D感知潜在扩散模型。该模型能够在短短几秒钟内，根据文本描述生成高质量的3D场景，为虚拟现实、增强现实、游戏开发、建筑设计等领域带来了革命性的变革。Prometheus的出现，不仅标志着3D内容创作效率的巨大飞跃，也预示着AI在三维世界理解和生成能力上的重大突破。

主体：

Prometheus：3D内容创作的“加速器”

Prometheus的核心优势在于其高效的3D生成能力。与传统的3D建模方法相比，Prometheus能够在几秒钟内生成复杂的3D场景，包括对象和整个场景级别。这得益于其创新的两阶段训练框架和前馈生成策略。

两阶段训练框架：
- 第一阶段：3D高斯变分自编码器（GS-VAE）。 该阶段利用预训练的图像编码器（如Stable Diffusion的编码器）将RGB图像和预测的单目深度图编码到潜在空间，并通过多视图Transformer整合跨视图信息，并注入相机姿态信息。然后，将融合后的隐空间变量解码为像素对齐的3D高斯场景，作为场景级别的表示。
- 第二阶段：多视图潜在扩散模型（MV-LDM）。 该阶段通过去噪扩散过程，联合预测多视图RGB-D潜在空间代码，条件为相机姿态和文本提示。从随机采样的高斯噪声开始，通过迭代去噪过程恢复多视图隐空间编码。多视图RGB-D潜在空间代码，用于生成最终的3D场景。
RGB-D潜在空间的引入： Prometheus巧妙地引入了RGB-D潜在空间，将外观（RGB）和几何信息（D）解耦，从而提升了生成的保真度和几何质量。这使得模型能够更高效地生成3D高斯，同时保持高质量的视觉效果。
前馈生成策略： 与传统的优化方法不同，Prometheus采用前馈生成策略，显著减少了生成时间，提高了生成效率。通过从潜在空间中采样多视图RGB-D潜在空间代码，并使用GS-VAE解码器解码为3D高斯场景，实现了快速且高质量的3D场景生成。
无分类器引导（CFG）： 为了确保生成的3D场景与文本提示对齐，Prometheus使用无分类器引导（CFG）来引导多视图生成过程。通过调整引导强度，平衡多视图一致性和保真度，避免生成结果中的多视图不一致问题。

技术细节的背后：大规模数据集和多重损失函数

Prometheus的强大能力并非凭空而来，而是建立在大规模数据集和精心设计的训练策略之上。研究团队在大规模单视图和多视图数据集上对模型进行了训练，确保模型具有良好的泛化能力。这些数据集涵盖了多种场景类型，如对象中心、室内、室外和驾驶场景，文本提示则由多模态大语言模型生成。

在训练过程中，Prometheus使用了多种损失函数，包括均方误差（MSE）损失、感知损失和尺度不变深度损失，以确保生成的3D场景在视觉和几何上与输入图像和深度图对齐。

Prometheus的应用前景：从虚拟现实到建筑设计

Prometheus的出现，为多个领域带来了新的可能性：

内容创作： Prometheus可以快速生成逼真的3D场景和对象，用于VR和AR应用中的虚拟环境构建。例如，创建虚拟展览、虚拟旅游、虚拟教育场景等。
实时交互： 在VR和AR应用中，用户可以通过文本输入实时生成和修改3D场景，增强交互体验。
场景设计： Prometheus可以快速生成游戏中的各种场景，如城市、森林、沙漠等，提高游戏开发效率。开发者可以通过简单的文本描述生成复杂的3D环境，减少手动建模的时间和成本。
概念设计： 建筑师和室内设计师可以使用Prometheus快速生成建筑和室内设计的3D模型，用于初步设计和客户展示。通过文本描述，快速生成不同风格和布局的3D场景，提高设计效率。
虚拟展示： 生成的3D场景可以用于虚拟展示，客户可以通过VR设备沉浸式地体验设计效果，提供更直观的反馈。

结论：

Prometheus的发布，不仅是人工智能在3D内容生成领域的一次重大突破，也为相关产业带来了新的发展机遇。其高效、高质量的3D生成能力，将极大地推动虚拟现实、增强现实、游戏开发、建筑设计等领域的发展。未来，随着技术的不断进步，我们有理由相信，Prometheus将在3D内容创作领域发挥更加重要的作用，为用户带来更加丰富和沉浸式的体验。

参考文献：

Prometheus项目官网：https://freemty.github.io/project-prometheus
Prometheus arXiv技术论文：https://arxiv.org/pdf/2412.21117

希望这篇新闻稿符合您的要求。如果您有任何其他问题或需要修改的地方，请随时告诉我。

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

浙大蚂蚁联手，3D感知扩散模型Prometheus问世

作者智能小编

相关文章

Here are a few options playing with different angles Long-Chain Thinking Massive Review Unlocks AI’s Reasoning Futu

AI老兵两年实战：经验之谈

AI研发工具大比拼：2025谁执牛耳？

发表回复取消回复

为您推荐