Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

加利福尼亚州圣何塞 – 在英伟达GTC 2025大会上,中国造车新势力理想汽车发布了其下一代自动驾驶架构MindVLA,引发业界广泛关注。理想汽车自动驾驶技术研发负责人贾鹏在主题演讲中表示,MindVLA将“重新定义自动驾驶”,并将其比作“重新定义手机”的iPhone 4,预示着自动驾驶技术发展的新纪元。

MindVLA并非简单的技术升级,而是理想汽车对未来自动驾驶的深刻理解和前瞻布局。贾鹏强调,MindVLA是一个“机器人大模型”,它整合了空间智能、语言智能和行为智能,旨在将汽车从单纯的运输工具转变为能够“听得懂、看得见、找得到”的贴心专职司机,赋予车辆类似人类的认知和适应能力。

全栈自研:融合空间、语言与行为智能

理想汽车认为,MindVLA是机器人大模型的新范式,它赋予自动驾驶强大的3D空间理解能力、逻辑推理能力和行为生成能力,使车辆能够感知、思考和适应复杂多变的环境。与简单地将端到端模型和VLM模型结合不同,MindVLA的各个模块都经过了全新设计。

其中,3D空间编码器通过语言模型与逻辑推理相结合,给出合理的驾驶决策,并输出一组Action Token(动作词元)。这些Action Token是对周围环境和自车驾驶行为的编码,并通过Diffusion(扩散模型)进一步优化出最佳的驾驶轨迹。整个推理过程均在车端实时运行,对算力提出了极高的要求。

MindVLA的六大关键技术

为了实现上述目标,MindVLA采用了多项关键技术:

  1. 3D高斯(3D Gaussian)中间表征:打破传统自动驾驶技术框架设计模式,利用3D高斯承载丰富语义,具备出色的多粒度、多尺度3D几何表达能力,并通过海量数据进行自监督训练,提升下游任务性能。
  2. LLM基座模型:理想汽车从零开始设计和训练了适合MindVLA的LLM基座模型,采用MoE混合专家架构,引入Sparse Attention(稀疏注意力),实现模型稀疏化,保证模型规模增长的同时,不降低端侧的推理效率。
  3. 3D空间智能:在基座模型训练过程中,理想汽车加入大量3D数据,使模型具备3D空间理解和推理能力,并通过未来帧的预测生成和稠密深度的预测等训练任务,进一步激发模型的空间智能。
  4. 逻辑推理能力:训练LLM基座模型学习人类的思考过程,让快慢思考有机结合到同一模型中,并可以实现自主切换快思考和慢思考。
  5. 实时推理速度:为了把NVIDIA Drive AGX的性能发挥到极致,MindVLA采取小词表结合投机推理,以及创新性地应用并行解码技术,进一步提升了实时推理的速度,实现了模型参数规模与实时推理性能之间的平衡。
  6. Diffusion模型优化:MindVLA利用Diffusion将Action Token解码成优化的轨迹,并通过自车行为生成和他车轨迹预测的联合建模,提升在复杂交通环境中的博弈能力。同时,采用Ordinary Differential Equation(常微分方程)采样器,实现了2-3步就能完成高质量轨迹的生成。

解决长尾场景:RLHF微调

面对部分长尾场景,理想汽车建立起人类偏好数据集,并且创新性地应用RLHF(基于人类反馈的强化学习)微调模型的采样过程,最终使MindVLA能够学习和对齐人类驾驶行为,显著提升安全下限。

世界模型:从“错误中学习”

MindVLA基于自研的重建+生成云端统一世界模型,深度融合重建模型的三维场景还原能力与生成模型的新视角补全,以及未见视角预测能力,构建接近真实世界的仿真环境。通过基于仿真环境的大规模闭环强化学习,MindVLA实现了真正意义上的从“错误中学习”。

赋能汽车:重塑用户体验

MindVLA将为用户带来全新的产品形态和产品体验。例如,用户可以通过语音指令改变车辆的路线和行为,车辆可以在没有导航信息的情况下自主漫游找到目的地,甚至可以理解用户“开太快了”、“应该走左边这条路”等指令。此外,MindVLA还具备强大的通识能力,能够识别商店招牌,并根据用户提供的照片找到车辆位置。

未来展望

理想汽车MindVLA的发布,不仅展示了其在自动驾驶领域的强大技术实力,也预示着自动驾驶技术发展的新方向。通过深度融合空间、语言和行为智能,MindVLA有望将汽车转变为真正的“物理智能体”,为用户带来更加安全、便捷和智能的出行体验。然而,MindVLA的实际表现以及大规模应用仍面临诸多挑战,包括算力、数据安全、伦理道德等问题,需要整个行业共同努力解决。

参考文献

  • 理想汽车官方新闻稿
  • 机器之心相关报道

作者: [你的名字],资深新闻记者和编辑


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注