2025年3月23日,北京 – 在人工智能与汽车科技深度融合的浪潮下,地平线今日正式发布AlphaDrive,一款基于GRPO(Generalized Policy Optimization)强化学习和规划推理的自动驾驶大模型。这一创新成果旨在解决当前自动驾驶领域端到端模型在处理长尾问题上的瓶颈,并提升大模型在自动驾驶决策规划方面的效果。
近年来,端到端模型在自动驾驶规划控制方面取得了显著进展。然而,由于缺乏常识和推理能力,这些模型在面对复杂和罕见场景(即长尾问题)时表现不佳。此前的研究尝试将视觉语言模型(VLM)引入自动驾驶,但大多采用有监督微调(SFT)的训练方式,未能充分探索针对决策规划的训练策略。
AlphaDrive的推出,正是为了弥补这些不足。该框架的核心在于:
- GRPO强化学习奖励机制: AlphaDrive提出了四种针对规划的强化学习GRPO奖励,包括规划准确率奖励、动作权重奖励、输出多样性奖励和规划格式奖励。这些奖励机制旨在优化强化学习过程,使其更适应自动驾驶规划任务的特殊需求。
- 两阶段规划推理训练策略: AlphaDrive采用基于知识蒸馏的SFT和RL两阶段推理训练策略。通过使用云端大模型生成的高质量规划推理数据,AlphaDrive能够达到更好的规划效果,优于仅使用RL训练或缺乏推理过程的方法。
地平线方面表示,AlphaDrive的研发灵感来源于OpenAI的o1和DeepSeek的R1模型。这两者在数学、科学等复杂领域展现出超越人类专家的能力,而强化学习训练和推理技术是其成功的关键。AlphaDrive借鉴了这些经验,并将其应用于自动驾驶领域,旨在提升大模型在自动驾驶任务上的表现,并降低训练开销。
AlphaDrive的关键创新点在于:
- 首次将GRPO强化学习和规划推理引入自动驾驶大模型: 此举显著提升了模型的规划表现和训练效率。
- 针对驾驶规划设计强化学习策略: 现有强化学习技术在自动驾驶规划上的效果并不理想。AlphaDrive通过设计更适合驾驶场景的奖励机制,解决了这一问题。
- 引入大模型推理技术: 针对驾驶领域缺乏推理数据的问题,AlphaDrive提出了基于知识蒸馏的训练方法,有效利用云端大模型生成的高质量推理数据。
实验结果显示,AlphaDrive在规划准确率上显著提升了26%,并且在仅使用1/5的训练数据的情况下,性能比SFT训练的模型高出35%。 此外,在强化学习阶段,AlphaDrive展现出了涌现的多模态规划能力,与DeepSeek R1的“Aha Moment”有相似之处,进一步证明了强化学习在自动驾驶大模型中的应用潜力。
AlphaDrive的发布,标志着自动驾驶技术向更高层次的智能化迈进了一步。地平线通过将通用大模型领域的先进技术应用于自动驾驶,为解决行业难题提供了新的思路和方法。
参考文献:
- AlphaDrive项目主页:https://github.com/hustvl/AlphaDrive
- AlphaDrive论文链接:https://arxiv.org/abs/2503.07608
Views: 0