在即将召开的欧洲计算机视觉大会(ECCV 2024)上,来自南洋理工大学S-Lab、上海AI Lab和北京大学的研究团队带来了一项创新性成果——原生3D LDM(Latent Diffusion Model)生成框架,名为Latent Neural Fields 3D Diffusion(LN3Diff)。这一框架旨在解决当前3D生成模型的可拓展性差、训练效率低和泛化能力不足等问题。
研究背景与挑战
神经渲染技术在新视角合成、3D编辑和物体生成等领域取得了显著进步,但通用的3D生成框架仍相对匮乏。现有方法如基于SDS(Scene Description Signal)的蒸馏和多视图生成加Feedforward重建,分别面临优化时间长和多样性不足的挑战,限制了3D AI生成内容的性能和自由度。
LN3Diff:3D生成的新突破
为克服这些限制,研究团队引入了LDM框架到3D生成中,通过在3D隐空间直接进行diffusion采样,实现快速、高质量的3D内容生成。他们的方法,LN3Diff,是一个适用于任意神经场的通用框架,旨在提高生成效率和质量,同时保持良好的控制性。
3D-aware VAE:信息压缩的优化
LN3Diff的核心是3D-aware VAE,它以多视图图像、深度图和相机信息为输入,进行3D-aware attention运算,以保持3D一致性。在解码器端,优化的信息压缩技术进一步提升了模型的性能。
大规模训练与基准测试
该框架在Objaverse数据集上进行了大规模训练,并在多个基准测试中表现出色,同时具备更快的推理速度。这一进步对于推动3D人工智能内容生成(3D AIGC)的性能和自由度具有重要意义。
论文与代码资源
研究论文的项目主页位于https://nirvanalan.github.io/projects/ln3diff/,代码已经公开在GitHub上,可访问https://github.com/NIRVANALAN/LN3Diff获取。此外,研究者还提供了Gradio演示,供用户交互体验LN3Diff的3D生成效果。
论文作者
论文第一作者兰宇时是南洋理工大学的博士生,师从Chen Change Loy教授。他的主要研究兴趣集中在基于神经渲染的3D生成模型和3D重建与编辑。
未来展望
这项工作为3D生成模型的研究开辟了新的道路,有望在游戏、虚拟现实、建筑和产品设计等领域产生广泛影响。随着技术的不断进步,我们期待看到更多高效、灵活的3D生成工具,进一步推动人工智能与3D内容创作的融合。
【source】https://www.jiqizhixin.com/articles/2024-08-26-6
Views: 1