加利福尼亚州圣何塞 – 在英伟达GTC 2025大会上,中国造车新势力理想汽车发布了其下一代自动驾驶架构MindVLA,引发业界广泛关注。理想汽车自动驾驶技术研发负责人贾鹏在主题演讲中表示,MindVLA将“重新定义自动驾驶”,并将其比作“重新定义手机”的iPhone 4,预示着自动驾驶技术发展的新纪元。
MindVLA并非简单的技术升级,而是理想汽车对未来自动驾驶的深刻理解和前瞻布局。贾鹏强调,MindVLA是一个“机器人大模型”,它整合了空间智能、语言智能和行为智能,旨在将汽车从单纯的运输工具转变为能够“听得懂、看得见、找得到”的贴心专职司机,赋予车辆类似人类的认知和适应能力。
全栈自研:融合空间、语言与行为智能
理想汽车认为,MindVLA是机器人大模型的新范式,它赋予自动驾驶强大的3D空间理解能力、逻辑推理能力和行为生成能力,使车辆能够感知、思考和适应复杂多变的环境。与简单地将端到端模型和VLM模型结合不同,MindVLA的各个模块都经过了全新设计。
其中,3D空间编码器通过语言模型与逻辑推理相结合,给出合理的驾驶决策,并输出一组Action Token(动作词元)。这些Action Token是对周围环境和自车驾驶行为的编码,并通过Diffusion(扩散模型)进一步优化出最佳的驾驶轨迹。整个推理过程均在车端实时运行,对算力提出了极高的要求。
MindVLA的六大关键技术
为了实现上述目标,MindVLA采用了多项关键技术:
- 3D高斯(3D Gaussian)中间表征:打破传统自动驾驶技术框架设计模式,利用3D高斯承载丰富语义,具备出色的多粒度、多尺度3D几何表达能力,并通过海量数据进行自监督训练,提升下游任务性能。
- LLM基座模型:理想汽车从零开始设计和训练了适合MindVLA的LLM基座模型,采用MoE混合专家架构,引入Sparse Attention(稀疏注意力),实现模型稀疏化,保证模型规模增长的同时,不降低端侧的推理效率。
- 3D空间智能:在基座模型训练过程中,理想汽车加入大量3D数据,使模型具备3D空间理解和推理能力,并通过未来帧的预测生成和稠密深度的预测等训练任务,进一步激发模型的空间智能。
- 逻辑推理能力:训练LLM基座模型学习人类的思考过程,让快慢思考有机结合到同一模型中,并可以实现自主切换快思考和慢思考。
- 实时推理速度:为了把NVIDIA Drive AGX的性能发挥到极致,MindVLA采取小词表结合投机推理,以及创新性地应用并行解码技术,进一步提升了实时推理的速度,实现了模型参数规模与实时推理性能之间的平衡。
- Diffusion模型优化:MindVLA利用Diffusion将Action Token解码成优化的轨迹,并通过自车行为生成和他车轨迹预测的联合建模,提升在复杂交通环境中的博弈能力。同时,采用Ordinary Differential Equation(常微分方程)采样器,实现了2-3步就能完成高质量轨迹的生成。
解决长尾场景:RLHF微调
面对部分长尾场景,理想汽车建立起人类偏好数据集,并且创新性地应用RLHF(基于人类反馈的强化学习)微调模型的采样过程,最终使MindVLA能够学习和对齐人类驾驶行为,显著提升安全下限。
世界模型:从“错误中学习”
MindVLA基于自研的重建+生成云端统一世界模型,深度融合重建模型的三维场景还原能力与生成模型的新视角补全,以及未见视角预测能力,构建接近真实世界的仿真环境。通过基于仿真环境的大规模闭环强化学习,MindVLA实现了真正意义上的从“错误中学习”。
赋能汽车:重塑用户体验
MindVLA将为用户带来全新的产品形态和产品体验。例如,用户可以通过语音指令改变车辆的路线和行为,车辆可以在没有导航信息的情况下自主漫游找到目的地,甚至可以理解用户“开太快了”、“应该走左边这条路”等指令。此外,MindVLA还具备强大的通识能力,能够识别商店招牌,并根据用户提供的照片找到车辆位置。
未来展望
理想汽车MindVLA的发布,不仅展示了其在自动驾驶领域的强大技术实力,也预示着自动驾驶技术发展的新方向。通过深度融合空间、语言和行为智能,MindVLA有望将汽车转变为真正的“物理智能体”,为用户带来更加安全、便捷和智能的出行体验。然而,MindVLA的实际表现以及大规模应用仍面临诸多挑战,包括算力、数据安全、伦理道德等问题,需要整个行业共同努力解决。
参考文献
- 理想汽车官方新闻稿
- 机器之心相关报道
作者: [你的名字],资深新闻记者和编辑
Views: 0