Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

北京时间3月18日讯,人工智能领域再添新突破。针对DeepSeek提出的GRPO算法在大型语言模型(LLM)强化学习中存在的局限性,清华大学人工智能研究院(AIR)与字节跳动联合SIA Lab发布了一项重要研究成果:DAPO(Decoupled Clip and Dynamic sAmpling Policy Optimization,解耦剪辑和动态采样策略优化)。该系统被认为是目前可实现大规模LLM强化学习的开源SOTA(State-of-the-Art)系统。

DeepSeek提出的GRPO算法旨在提升LLM的强化学习效率,但其论文中缺少一些关键细节,导致难以复现出大规模和工业级的强化学习系统。而DAPO的出现,有望填补这一空白。

据悉,使用DAPO算法训练的模型也将在近期开源发布。相关资源链接如下:

DAPO的卓越性能

研究团队使用DAPO算法,成功地使Qwen2.5-32B模型在AIME 2024基准上获得了50分,超越了同等规模的DeepSeek-R1-Zero-Qwen-32B模型。更令人瞩目的是,DAPO版Qwen2.5-32B使用的训练步数还减少了50%。

相比之下,如果使用GRPO算法,Qwen2.5-32B模型在AIME 2024基准上只能获得30分,远低于DeepSeek的强化学习得分(47分)。

GRPO的局限性

研究团队分析发现,原生版GRPO面临着熵崩溃、奖励噪音和训练不稳定等关键问题。事实上,许多研究团队在复现DeepSeek的结果时也遇到了类似的难题。

研究人员表示:“这表明R1论文中可能省略了开发工业级、大规模且可重现的强化学习系统所需的关键训练细节。”

DAPO的关键改进

Allen AI的研究者Nathan Lambert总结了DAPO对GRPO的改进,包括:

  • 两个不同的裁剪超参数
  • 动态采样
  • token层面的策略梯度损失
  • 过长奖励塑造

DAPO算法详解

DAPO算法的核心在于解耦剪辑(Decouple Clip)和动态采样策略优化(Dynamic sAmpling Policy Optimization)。

1. PPO到GRPO:价值函数的消除和群组相关优势估计

DAPO的演进可以追溯到近端策略优化(PPO)。PPO通过引入裁剪式替代目标(clipped surrogate objective)来执行策略优化,将策略更新限制在先前策略的近端区域内,从而实现训练稳定和提高样本效率。

GRPO在PPO的基础上,消除了价值函数,并以群组相关的方式来估计优势。对于特定的问答对 (q, a),行为策略 πθold 采样一组 G 个个体响应。然后,通过对群组级奖励进行归一化来计算第 i 个响应的优势。GRPO也采用了裁剪目标,并添加了一个直接的KL惩罚项。

2. DAPO的关键技术:解耦剪辑和动态采样

DAPO研究者提出了解耦剪辑(Decouple Clip)和动态采样策略优化(DAPO)算法。DAPO 对每个问题 q 和答案 a 的一组输出进行采样,并通过优化策略。

  • Clip-Higher:解决熵崩溃问题

在使用PPO或GRPO进行初步实验时,研究者观察到了熵崩溃现象:随着训练的进行,策略的熵迅速下降,导致有限的探索和早期的确定性策略阻碍扩展过程。

针对这一问题,研究者提出了 Clip-Higher 策略。对重要度采样率进行剪辑是PPO-Clip中的一种策略,用于限制信任区域并增强RL的稳定性。研究者发现,被剪辑token的最大概率约为,这表明上限剪辑阈值限制了低概率token的概率增长,从而可能限制了系统的多样性。

因此,根据Clip-Higher策略,研究者将较低和较高的剪辑范围解耦为 εlow 和 εhigh,增加了 ε_high 的值。

3. 其他改进:消除KL偏离和基于规则的奖励建模

  • 消除KL偏离: 在DAPO中,KL惩罚项被排除在外。研究者认为,在训练长CoT推理模型时,模型分布可能会与初始模型有显著差异,因此限制是不必要的。
  • 基于规则的奖励建模: 作为奖励模型使用的替代方案,该团队直接使用可验证任务的最终准确率作为结果奖励,计算规则如下。事实证明,这是激活基础模型推理能力的有效方法。

总结与展望

DAPO的开源发布,为LLM强化学习领域带来了新的希望。其在性能上的超越,以及对GRPO局限性的深入分析,为未来的研究提供了宝贵的经验。随着DAPO算法的不断完善和应用,我们有理由期待LLM在各个领域发挥更大的作用。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注