世界模型新突破:DriveDreamer4D 赋能 4D驾驶场景重建
闭环仿真技术是推动端到端自动驾驶系统发展的关键。 现有的传感器仿真方法,如 NeRF 和 3DGS,主要依赖于训练数据分布,当训练数据不足时,这些方法在复杂驾驶操作(例如变道、加速或减速)的重建效果不佳。近年来,自动驾驶世界模型(World Model)展现出生成丰富驾驶数据的潜力。
极佳科技联合中国科学院自动化研究所、理想汽车、北京大学、慕尼黑工业大学等单位,提出了 DriveDreamer4D,这是首个利用世界模型增强 4D 驾驶场景重建效果的算法。 DriveDreamer4D 可以为驾驶场景提供丰富多样的视角数据(包括变道、加速和减速等),以提升动态驾驶场景下的闭环仿真能力。
DriveDreamer4D 的核心在于利用世界模型作为数据引擎,基于真实世界的驾驶数据合成新轨迹视频(例如变道场景)。 如下图所示,DriveDreamer4D 不仅可以提升多种重建算法(PVG, S3Gaussian, Deformable-GS)的图像渲染质量,还可以提升驾驶前景(车辆)和背景(车道线)的时空一致性。
[图片:DriveDreamer4D 架构图,展示了世界模型如何生成新轨迹视频并提升 4D 重建效果]
DriveDreamer4D 的总体结构框图如下所示:
*轨迹生成模块 (NTGM): 用于调整原始轨迹动作(如转向角度和速度),以生成新的轨迹。这些新轨迹为提取结构化信息(如车辆 3D 框和背景车道线细节)提供了全新的视角。
* 基于世界模型的视频生成: 利用更新轨迹后得到的结构化信息作为控制条件,可以合成新轨迹的视频。
* 4DGS 模型优化: 将原始轨迹视频与新轨迹视频相结合,进行 4DGS 模型的优化。
实验结果表明,DriveDreamer4D 在复杂驾驶场景(例如变道、加速)下,可以显著提升多种重建算法的图像渲染质量和时空一致性。 例如,在变道场景下,传统算法在车道线、天空、车辆等方面会出现模糊甚至“鬼影”现象,而 DriveDreamer4D 可以消除这些问题,并提升交通元素的渲染质量。
定量实验结果也证明了 DriveDreamer4D 的有效性:
- 表 1: DriveDreamer4D 提升了车辆和车道线重建渲染的时空一致性。
- 表 2: DriveDreamer4D 提升了图像重建渲染质量。
- 表 3: 用户研究表明,超过 80% 的用户更偏好 DriveDreamer4D 的渲染效果。
[图片:表格 1、2、3,展示了 DriveDreamer4D 在定量实验和用户研究中的优势]
DriveDreamer4D 是极佳科技研究团队之前 DriveDreamer 和 DriveDreamer-2 工作的延续。 DriveDreamer 是首个面向真实驾驶场景的世界模型,可以根据不同的控制条件生成自动驾驶周视视频,有效提升了 BEV 感知的性能。DriveDreamer-2 在此基础上,引入大语言模型,可以生成用户自定义的驾驶数据,进一步提升了长尾和 corner case 场景下的数据生成能力。
DriveDreamer4D 针对端到端自动驾驶和闭环仿真对于场景重建的迫切需求,利用 DriveDreamer 系列工作的能力,生成新轨迹视频,从而大幅提升了多种 4DGS 算法的重建效果。
极佳科技是一家空间智能公司,致力于将视频生成提升到 4D 世界模型,赋予AI 大模型对于 4D 空间的理解、生成、常识和推理的能力,实现 4D 空间中的交互和行动,走向通用空间智能。 通用空间智能对于影视游戏、元宇宙等虚拟空间的内容创作,以及自动驾驶、具身智能等物理空间的数据生成和认知推理能力,都有巨大的价值和作用。
极佳科技是国内最早开始探索和布局世界模型和空间智能方向的公司,在物理空间和虚拟空间两方面都已取得显著的技术和商业进展,获得了行业广泛的认可。
论文链接: https://arxiv.org/abs/2410.13571
项目主页: https://drivedreamer4d.github.io/
代码地址: https://github.com/GigaAI-research/DriveDreamer4D
DriveDreamer4D 的出现,标志着世界模型在自动驾驶领域取得了新的突破,为推动端到端自动驾驶系统的发展和实现通用空间智能奠定了坚实的基础。
Views: 0