摘要: 一项最新研究揭示了 DeepSeek R1-Zero 训练方式的奥秘,并提出了一种简化的训练方案。研究表明,DeepSeek-V3-Base 在强化学习(RL)调优之前就已展现出“顿悟”时刻,而 Qwen2.5 基础模型即使没有提示模板也表现出强大的推理能力,暗示了预训练偏差的存在。此外,研究人员还发现群体相对策略优化(GRPO)存在偏差,并提出了改进方案 Dr. GRPO,最终利用 7B 基础模型在 AIME 2024 上实现了 43.3% 的准确率,刷新了 SOTA 纪录。
人工智能领域正迎来变革
近年来,人工智能领域正在经历一场深刻的变革。DeepSeek-R1-Zero 通过引入类似 R1-Zero 的训练范式,彻底改变了大语言模型(LLM)的后训练流程:直接将 RL 应用于基础 LLM,而无需任何监督微调(SFT)作为初步步骤。这种新范式因其简单性和已证明的 RL 扩展现象而备受关注:模型推理能力随着模型响应长度的不断增加而提高。这种现象还伴随着“顿悟时刻”(Aha Moment),此时模型展现出了人类一样的自我反思等新兴技能,让人们见证了强化学习的力量和美感。
Sea AI Lab 等机构的研究揭示关键洞见
近日,来自 Sea AI Lab、新加坡国立大学、新加坡管理大学的研究人员发表了一篇名为《Understanding R1-Zero-Like Training: A Critical Perspective》的研究报告,深入探讨了预训练特性对 RL 性能的影响。该研究主要关注两个核心部分:基础模型和强化学习,并重点介绍了其发现。
基础模型:预训练偏差与“顿悟”时刻
研究人员对 Qwen2.5 和 DeepSeek-V3-Base 等基础模型进行了深入分析。他们发现,Qwen2.5 基础模型即使没有提示模板也表现出强大的推理能力,这表明可能存在潜在的预训练偏差。更令人惊讶的是,DeepSeek-V3-Base 在 RL 调优之前就已经展现出“顿悟时刻”,这暗示了基础模型在预训练阶段已经具备了相当的智能水平。
GRPO 偏差与 Dr. GRPO 解决方案
研究人员还发现,群体相对策略优化(GRPO)存在优化偏差,会导致训练期间响应长度人为增加,尤其是在错误输出的情况下。为了解决这个问题,研究人员引入了 Dr. GRPO,这是一种无偏优化方法,可在保持推理性能的同时提高 token 效率。
极简 R1-Zero 方案与 SOTA 性能
基于以上洞见,研究人员提出了一种简化的 R1-Zero 方案:利用无偏的 Dr. GRPO 算法,以 Qwen-Math 模板对 Qwen2.5-Math-7B 模型进行强化学习调优,使用 MATH 3-5 级问题作为训练数据,仅用 8 块 A100 GPU 训练 27 小时,就在 AIME 2024 上实现了 43.3% 的准确率,建立了新的 SOTA 水准。
研究的主要观点总结
- 模板对于让基础模型回答问题至关重要。
- 所有基础模型在强化学习之前都已具备数学解题能力。
- Qwen-2.5 基础模型在不使用模板时立即获得约 60% 的提升,这让研究人员假设它们可能在训练模型时对拼接的问答文本进行了预训练。
- 几乎所有基础模型都已表现出“顿悟时刻”,包括 DeepSeek-V3-Base。
- 新方法 Dr. GRPO 有效修复了 GRPO 在优化中的偏差,实现了更好的标记效率。
- 模型与模板不匹配会在强化学习重建之前破坏推理能力。
- 在 Llama-3.2-3B 上进行数学预训练可提高其强化学习的上限。
未来展望
这项研究不仅揭示了 DeepSeek R1-Zero 训练方式的奥秘,还为未来的大模型训练提供了新的思路。通过理解基础模型的特性,优化强化学习算法,我们可以构建更高效、更智能的大模型,推动人工智能领域的进一步发展。
参考文献
- 《Understanding R1-Zero-Like Training: A Critical Perspective》 (项目链接:https://github.com/sail-sg/understand-r1-zero)
(完)
Views: 0