Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

最新消息最新消息
0

北京 – 近日,人工智能领域出现一项引人注目的研究成果,对当前大语言模型训练中强化学习算法的选择提出了新的见解。DeepSeek-R1 模型凭借其强大的推理能力备受瞩目,其技术报告中强调了 GRPO (Group Relative Policy Optimization) 算法在提升模型推理性能方面的关键作用。然而,一项来自阶跃星辰与清华大学的联合研究表明,在某些情况下,使用更简单的 PPO (Proximal Policy Optimization) 算法,同样可以达到甚至超越 GRPO 的效果。

DeepSeek-R1 技术报告中指出,GRPO 通过分组分数估计基线,从而避免了价值模型的训练,显著降低了训练资源消耗。报告中写道:“我们使用 DeepSeek-V3-Base 作为基础模型,并采用 GRPO 作为强化学习框架来提高模型的推理性能。在训练过程中,DeepSeek-R1-Zero 自然地涌现出了许多强大而有趣的推理行为。经过数千个强化学习步骤后,DeepSeek-R1-Zero 在推理基准上表现出超强的性能。”

然而,阶跃星辰与清华大学的研究人员发现,通过使用带有 GAE (Generalized Advantage Estimation) 的普通 PPO 算法,并结合基于规则的简单奖励函数,无需任何 KL 正则化,就足以在推理任务上扩展响应长度和提升基准性能,达到与 DeepSeek-R1-Zero 相似的效果。

这项研究的成果是 Open-Reasoner-Zero,这是首个面向大规模推理的强化学习训练的开源实现。更令人惊讶的是,Open-Reasoner-Zero 在 GPQA Diamond 基准上的表现甚至优于 DeepSeek-R1-Zero-Qwen-32B,而训练步数仅为后者的 1/30。

该团队不仅开源了代码,还发布了参数设置、训练数据和模型权重,为研究人员和开发者提供了宝贵的资源。

Open-Reasoner-Zero 的关键设置

该研究团队以 Qwen2.5-{7B, 32B} 作为基础模型,在未经任何微调的情况下直接进行规模化强化学习训练。他们扩展了标准 PPO 算法,并精心设计了包含 STEM、数学和推理任务的数万对问答数据,以增强模型在复杂问题求解场景中的能力。

与 DeepSeek-R1-Zero 采用的复杂奖励函数不同,Open-Reasoner-Zero 采用了简单的规则式奖励函数,仅检查答案的正确性。具体来说,如果模型生成的答案与参考答案完全匹配,则奖励为 1,否则为 0。研究人员发现,使用新设计的提示词,即使是未经对齐的基础模型也能以很高的概率生成格式良好的响应。

意义与影响

这项研究挑战了 GRPO 在推理模型训练中的必要性,表明在某些情况下,更简单的 PPO 算法同样可以实现卓越的性能。这对于降低大语言模型训练的成本和复杂性具有重要意义,也为未来的研究方向提供了新的思路。

该研究团队开源了代码、参数设置、训练数据和模型权重,为人工智能社区做出了重要贡献,将加速相关领域的研究和发展。未来,研究人员将进一步探索 PPO 算法在不同任务和数据集上的表现,并尝试优化奖励函数和训练策略,以进一步提升模型的推理能力。

参考文献:

[记者手记] 这项研究的意义在于,它提醒我们,在追求复杂算法的同时,也要重视简单方法的有效性。Open-Reasoner-Zero 的成功表明,通过精心设计数据、奖励函数和训练策略,即使是相对简单的 PPO 算法也能在推理任务上取得令人瞩目的成果。这对于推动人工智能技术的普及和应用具有重要意义。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注