Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

最新消息最新消息
0

Waymo 推出端到端自动驾驶多模态模型 EMMA,迈向更智能的自动驾驶未来

硅谷,加利福尼亚州 – 自动驾驶领域的领军者 Waymo 近日发布了其最新的端到端自动驾驶多模态模型 EMMA,标志着自动驾驶技术迈向更智能、更安全和更可靠的未来。EMMA 基于 Google 的 Gemini 模型,能够将原始相机传感器数据直接映射到驾驶特定输出,如规划轨迹、感知对象和道路图元素。

EMMA 的核心优势在于其将非传感器输入和输出表示为自然语言文本,并利用预训练大型语言模型的世界知识,在统一的语言空间中联合处理多种驾驶任务。 这一创新性的设计使得 EMMA 能够更好地理解复杂的驾驶场景,并做出更精准的决策。

EMMA 的主要功能包括:

  • 端到端运动规划: EMMA直接从原始相机传感器数据生成自动驾驶车辆的未来轨迹,并将其转化为车辆特定的控制动作,如加速和转向。
  • 3D 对象检测: EMMA 使用摄像头作为主要传感器,检测和识别周围的物体,如车辆、行人和骑行者。
  • 道路图元素识别: EMMA 识别和构建道路图,包括车道线、交通标志等关键道路元素。
  • 场景理解: EMMA 理解整个场景的上下文,包括临时道路阻塞和其他影响驾驶的情况。
  • 多任务处理: EMMA 在统一的语言空间中联合处理多种驾驶任务,用任务特定的提示生成输出。
  • 链式思维推理: EMMA 基于链式思维推理提升模型的决策能力和可解释性,让模型在预测未来轨迹时能阐述其决策理由。

EMMA 的技术原理基于多模态大型语言模型 (MLLMs) 和自然语言表示。 模型在广泛的互联网规模数据上训练,拥有丰富的“世界知识”。所有非传感器输入和输出都表示为自然语言文本,并通过视觉问题回答 (VQA) 的方式,将驾驶任务重新构想为 VQA 问题,利用 Gemini 的预训练能力保留广泛的世界知识。EMMA 使用自回归 Gemini 模型处理交错的文本和视觉输入,生成文本输出,并通过端到端训练,直接从传感器数据生成驾驶动作,消除模块间符号化接口的需求。

EMMA 的应用场景广泛,包括:

  • 城市和郊区驾驶: EMMA 能处理复杂的城市交通环境及郊区道路条件,提供实时的驾驶决策和轨迹规划。
  • 交通拥堵和复杂路口: 在交通拥堵或多路口场景中,EMMA 能进行有效的路径规划和决策,确保安全高效的导航。
  • 特殊天气和光照条件: EMMA 能适应不同的天气和光照条件,如雨、雾或夜间驾驶,保持稳定的驾驶性能。
  • 施工区域和临时道路封闭: 基于场景理解能力,EMMA 能识别施工区域和临时道路封闭情况,做出相应的驾驶调整。
  • 紧急情况响应: 在遇到紧急情况,如突然出现的障碍物或动物时,EMMA 能迅速做出反应,采取避让或减速等措施。

虽然 EMMA 在 nuScenes 运动规划和 Waymo 开放数据集上展现了先进性能,但仍存在一些局限性, 如处理图像帧数量有限、缺少精确 3D 传感方式集成和高计算成本。

EMMA 的发布标志着自动驾驶领域的一个重要里程碑。 它的端到端架构和多模态能力将推动自动驾驶模型架构的发展,提高自动驾驶系统在复杂场景中的泛化和推理能力。未来,随着技术的不断发展,EMMA 有望在自动驾驶领域发挥更重要的作用,为人们带来更安全、更便捷的出行体验。

EMMA 的项目地址:

  • arXiv 技术论文: https://arxiv.org/pdf/2410.23262

EMMA 的发布,不仅是 Waymo 在自动驾驶领域取得的重大进展,也是人工智能技术应用于现实世界的一个典型案例。 随着人工智能技术的不断发展,相信未来会有更多像 EMMA 这样的创新应用出现,为人类社会带来更多福祉。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注