北京 – 近日,人工智能领域出现一项引人注目的研究成果,对当前大语言模型训练中强化学习算法的选择提出了新的见解。DeepSeek-R1 模型凭借其强大的推理能力备受瞩目,其技术报告中强调了 GRPO (Group Relative Policy Optimization) 算法在提升模型推理性能方面的关键作用。然而,一项来自阶跃星辰与清华大学的联合研究表明,在某些情况下,使用更简单的 PPO (Proximal Policy Optimization) 算法,同样可以达到甚至超越 GRPO 的效果。
DeepSeek-R1 技术报告中指出,GRPO 通过分组分数估计基线,从而避免了价值模型的训练,显著降低了训练资源消耗。报告中写道:“我们使用 DeepSeek-V3-Base 作为基础模型,并采用 GRPO 作为强化学习框架来提高模型的推理性能。在训练过程中,DeepSeek-R1-Zero 自然地涌现出了许多强大而有趣的推理行为。经过数千个强化学习步骤后,DeepSeek-R1-Zero 在推理基准上表现出超强的性能。”
然而,阶跃星辰与清华大学的研究人员发现,通过使用带有 GAE (Generalized Advantage Estimation) 的普通 PPO 算法,并结合基于规则的简单奖励函数,无需任何 KL 正则化,就足以在推理任务上扩展响应长度和提升基准性能,达到与 DeepSeek-R1-Zero 相似的效果。
这项研究的成果是 Open-Reasoner-Zero,这是首个面向大规模推理的强化学习训练的开源实现。更令人惊讶的是,Open-Reasoner-Zero 在 GPQA Diamond 基准上的表现甚至优于 DeepSeek-R1-Zero-Qwen-32B,而训练步数仅为后者的 1/30。
该团队不仅开源了代码,还发布了参数设置、训练数据和模型权重,为研究人员和开发者提供了宝贵的资源。
- 论文标题: Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model
- 论文地址: https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/blob/main/ORZ_paper.pdf
- 项目地址: https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero
- Hugging Face: https://huggingface.co/Open-Reasoner-Zero
Open-Reasoner-Zero 的关键设置
该研究团队以 Qwen2.5-{7B, 32B} 作为基础模型,在未经任何微调的情况下直接进行规模化强化学习训练。他们扩展了标准 PPO 算法,并精心设计了包含 STEM、数学和推理任务的数万对问答数据,以增强模型在复杂问题求解场景中的能力。
与 DeepSeek-R1-Zero 采用的复杂奖励函数不同,Open-Reasoner-Zero 采用了简单的规则式奖励函数,仅检查答案的正确性。具体来说,如果模型生成的答案与参考答案完全匹配,则奖励为 1,否则为 0。研究人员发现,使用新设计的提示词,即使是未经对齐的基础模型也能以很高的概率生成格式良好的响应。
意义与影响
这项研究挑战了 GRPO 在推理模型训练中的必要性,表明在某些情况下,更简单的 PPO 算法同样可以实现卓越的性能。这对于降低大语言模型训练的成本和复杂性具有重要意义,也为未来的研究方向提供了新的思路。
该研究团队开源了代码、参数设置、训练数据和模型权重,为人工智能社区做出了重要贡献,将加速相关领域的研究和发展。未来,研究人员将进一步探索 PPO 算法在不同任务和数据集上的表现,并尝试优化奖励函数和训练策略,以进一步提升模型的推理能力。
参考文献:
- Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model. https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/blob/main/ORZ_paper.pdf
- DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. (论文中关于PPO与GRPO对比的部分)
[记者手记] 这项研究的意义在于,它提醒我们,在追求复杂算法的同时,也要重视简单方法的有效性。Open-Reasoner-Zero 的成功表明,通过精心设计数据、奖励函数和训练策略,即使是相对简单的 PPO 算法也能在推理任务上取得令人瞩目的成果。这对于推动人工智能技术的普及和应用具有重要意义。
Views: 0