DeepSeek-R1爆料：GRPO并非必需？PPO足矣！

北京 – 近日，人工智能领域出现一项引人注目的研究成果，对当前大语言模型训练中强化学习算法的选择提出了新的见解。DeepSeek-R1 模型凭借其强大的推理能力备受瞩目，其技术报告中强调了 GRPO (Group Relative Policy Optimization) 算法在提升模型推理性能方面的关键作用。然而，一项来自阶跃星辰与清华大学的联合研究表明，在某些情况下，使用更简单的 PPO (Proximal Policy Optimization) 算法，同样可以达到甚至超越 GRPO 的效果。

DeepSeek-R1 技术报告中指出，GRPO 通过分组分数估计基线，从而避免了价值模型的训练，显著降低了训练资源消耗。报告中写道：“我们使用 DeepSeek-V3-Base 作为基础模型，并采用 GRPO 作为强化学习框架来提高模型的推理性能。在训练过程中，DeepSeek-R1-Zero 自然地涌现出了许多强大而有趣的推理行为。经过数千个强化学习步骤后，DeepSeek-R1-Zero 在推理基准上表现出超强的性能。”

然而，阶跃星辰与清华大学的研究人员发现，通过使用带有 GAE (Generalized Advantage Estimation) 的普通 PPO 算法，并结合基于规则的简单奖励函数，无需任何 KL 正则化，就足以在推理任务上扩展响应长度和提升基准性能，达到与 DeepSeek-R1-Zero 相似的效果。

这项研究的成果是 Open-Reasoner-Zero，这是首个面向大规模推理的强化学习训练的开源实现。更令人惊讶的是，Open-Reasoner-Zero 在 GPQA Diamond 基准上的表现甚至优于 DeepSeek-R1-Zero-Qwen-32B，而训练步数仅为后者的 1/30。

该团队不仅开源了代码，还发布了参数设置、训练数据和模型权重，为研究人员和开发者提供了宝贵的资源。

论文标题： Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model
论文地址： https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/blob/main/ORZ_paper.pdf
项目地址： https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero
Hugging Face： https://huggingface.co/Open-Reasoner-Zero

Open-Reasoner-Zero 的关键设置

该研究团队以 Qwen2.5-{7B, 32B} 作为基础模型，在未经任何微调的情况下直接进行规模化强化学习训练。他们扩展了标准 PPO 算法，并精心设计了包含 STEM、数学和推理任务的数万对问答数据，以增强模型在复杂问题求解场景中的能力。

与 DeepSeek-R1-Zero 采用的复杂奖励函数不同，Open-Reasoner-Zero 采用了简单的规则式奖励函数，仅检查答案的正确性。具体来说，如果模型生成的答案与参考答案完全匹配，则奖励为 1，否则为 0。研究人员发现，使用新设计的提示词，即使是未经对齐的基础模型也能以很高的概率生成格式良好的响应。

意义与影响

这项研究挑战了 GRPO 在推理模型训练中的必要性，表明在某些情况下，更简单的 PPO 算法同样可以实现卓越的性能。这对于降低大语言模型训练的成本和复杂性具有重要意义，也为未来的研究方向提供了新的思路。

该研究团队开源了代码、参数设置、训练数据和模型权重，为人工智能社区做出了重要贡献，将加速相关领域的研究和发展。未来，研究人员将进一步探索 PPO 算法在不同任务和数据集上的表现，并尝试优化奖励函数和训练策略，以进一步提升模型的推理能力。

参考文献:

Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model. https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/blob/main/ORZ_paper.pdf
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. (论文中关于PPO与GRPO对比的部分)

[记者手记] 这项研究的意义在于，它提醒我们，在追求复杂算法的同时，也要重视简单方法的有效性。Open-Reasoner-Zero 的成功表明，通过精心设计数据、奖励函数和训练策略，即使是相对简单的 PPO 算法也能在推理任务上取得令人瞩目的成果。这对于推动人工智能技术的普及和应用具有重要意义。

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

DeepSeek-R1爆料：GRPO并非必需？PPO足矣！

作者智能小编

Open-Reasoner-Zero 的关键设置

意义与影响

相关文章

赫拉利：秩序渴求，AI控人的首要原因

Secure Spring AI MCP Server with OAuth2 Best Practices

Spring AI MCP服务器安全升级：OAuth2保驾护航

发表回复取消回复

为您推荐

赫拉利：秩序渴求，AI控人的首要原因

Secure Spring AI MCP Server with OAuth2 Best Practices

Spring AI MCP服务器安全升级：OAuth2保驾护航

告别文档灌输！RAG入门指南

作者智能小编

Open-Reasoner-Zero 的关键设置

意义与影响

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复