Waymo 推出端到端自动驾驶多模态模型 EMMA,迈向更智能的自动驾驶未来
硅谷,加利福尼亚州 – 自动驾驶领域的领军者 Waymo 近日发布了其最新的端到端自动驾驶多模态模型 EMMA,标志着自动驾驶技术迈向更智能、更安全和更可靠的未来。EMMA 基于 Google 的 Gemini 模型,能够将原始相机传感器数据直接映射到驾驶特定输出,如规划轨迹、感知对象和道路图元素。
EMMA 的核心优势在于其将非传感器输入和输出表示为自然语言文本,并利用预训练大型语言模型的世界知识,在统一的语言空间中联合处理多种驾驶任务。 这一创新性的设计使得 EMMA 能够更好地理解复杂的驾驶场景,并做出更精准的决策。
EMMA 的主要功能包括:
- 端到端运动规划: EMMA直接从原始相机传感器数据生成自动驾驶车辆的未来轨迹,并将其转化为车辆特定的控制动作,如加速和转向。
- 3D 对象检测: EMMA 使用摄像头作为主要传感器,检测和识别周围的物体,如车辆、行人和骑行者。
- 道路图元素识别: EMMA 识别和构建道路图,包括车道线、交通标志等关键道路元素。
- 场景理解: EMMA 理解整个场景的上下文,包括临时道路阻塞和其他影响驾驶的情况。
- 多任务处理: EMMA 在统一的语言空间中联合处理多种驾驶任务,用任务特定的提示生成输出。
- 链式思维推理: EMMA 基于链式思维推理提升模型的决策能力和可解释性,让模型在预测未来轨迹时能阐述其决策理由。
EMMA 的技术原理基于多模态大型语言模型 (MLLMs) 和自然语言表示。 模型在广泛的互联网规模数据上训练,拥有丰富的“世界知识”。所有非传感器输入和输出都表示为自然语言文本,并通过视觉问题回答 (VQA) 的方式,将驾驶任务重新构想为 VQA 问题,利用 Gemini 的预训练能力保留广泛的世界知识。EMMA 使用自回归 Gemini 模型处理交错的文本和视觉输入,生成文本输出,并通过端到端训练,直接从传感器数据生成驾驶动作,消除模块间符号化接口的需求。
EMMA 的应用场景广泛,包括:
- 城市和郊区驾驶: EMMA 能处理复杂的城市交通环境及郊区道路条件,提供实时的驾驶决策和轨迹规划。
- 交通拥堵和复杂路口: 在交通拥堵或多路口场景中,EMMA 能进行有效的路径规划和决策,确保安全高效的导航。
- 特殊天气和光照条件: EMMA 能适应不同的天气和光照条件,如雨、雾或夜间驾驶,保持稳定的驾驶性能。
- 施工区域和临时道路封闭: 基于场景理解能力,EMMA 能识别施工区域和临时道路封闭情况,做出相应的驾驶调整。
- 紧急情况响应: 在遇到紧急情况,如突然出现的障碍物或动物时,EMMA 能迅速做出反应,采取避让或减速等措施。
虽然 EMMA 在 nuScenes 运动规划和 Waymo 开放数据集上展现了先进性能,但仍存在一些局限性, 如处理图像帧数量有限、缺少精确 3D 传感方式集成和高计算成本。
EMMA 的发布标志着自动驾驶领域的一个重要里程碑。 它的端到端架构和多模态能力将推动自动驾驶模型架构的发展,提高自动驾驶系统在复杂场景中的泛化和推理能力。未来,随着技术的不断发展,EMMA 有望在自动驾驶领域发挥更重要的作用,为人们带来更安全、更便捷的出行体验。
EMMA 的项目地址:
- arXiv 技术论文: https://arxiv.org/pdf/2410.23262
EMMA 的发布,不仅是 Waymo 在自动驾驶领域取得的重大进展,也是人工智能技术应用于现实世界的一个典型案例。 随着人工智能技术的不断发展,相信未来会有更多像 EMMA 这样的创新应用出现,为人类社会带来更多福祉。
Views: 0