北京时间3月18日讯,人工智能领域再添新突破。针对DeepSeek提出的GRPO算法在大型语言模型(LLM)强化学习中存在的局限性,清华大学人工智能研究院(AIR)与字节跳动联合SIA Lab发布了一项重要研究成果:DAPO(Decoupled Clip and Dynamic sAmpling Policy Optimization,解耦剪辑和动态采样策略优化)。该系统被认为是目前可实现大规模LLM强化学习的开源SOTA(State-of-the-Art)系统。
DeepSeek提出的GRPO算法旨在提升LLM的强化学习效率,但其论文中缺少一些关键细节,导致难以复现出大规模和工业级的强化学习系统。而DAPO的出现,有望填补这一空白。
据悉,使用DAPO算法训练的模型也将在近期开源发布。相关资源链接如下:
- 项目页面: https://dapo-sia.github.io/
- 论文地址: https://dapo-sia.github.io/static/pdf/dapo_paper.pdf
- 代码地址: https://github.com/volcengine/verl/tree/gm-tyx/puffin/main/recipe/dapo
- 数据: https://huggingface.co/datasets/BytedTsinghua-SIA/DAPO-Math-17k
DAPO的卓越性能
研究团队使用DAPO算法,成功地使Qwen2.5-32B模型在AIME 2024基准上获得了50分,超越了同等规模的DeepSeek-R1-Zero-Qwen-32B模型。更令人瞩目的是,DAPO版Qwen2.5-32B使用的训练步数还减少了50%。
相比之下,如果使用GRPO算法,Qwen2.5-32B模型在AIME 2024基准上只能获得30分,远低于DeepSeek的强化学习得分(47分)。
GRPO的局限性
研究团队分析发现,原生版GRPO面临着熵崩溃、奖励噪音和训练不稳定等关键问题。事实上,许多研究团队在复现DeepSeek的结果时也遇到了类似的难题。
研究人员表示:“这表明R1论文中可能省略了开发工业级、大规模且可重现的强化学习系统所需的关键训练细节。”
DAPO的关键改进
Allen AI的研究者Nathan Lambert总结了DAPO对GRPO的改进,包括:
- 两个不同的裁剪超参数
- 动态采样
- token层面的策略梯度损失
- 过长奖励塑造
DAPO算法详解
DAPO算法的核心在于解耦剪辑(Decouple Clip)和动态采样策略优化(Dynamic sAmpling Policy Optimization)。
1. PPO到GRPO:价值函数的消除和群组相关优势估计
DAPO的演进可以追溯到近端策略优化(PPO)。PPO通过引入裁剪式替代目标(clipped surrogate objective)来执行策略优化,将策略更新限制在先前策略的近端区域内,从而实现训练稳定和提高样本效率。
GRPO在PPO的基础上,消除了价值函数,并以群组相关的方式来估计优势。对于特定的问答对 (q, a),行为策略 πθold 采样一组 G 个个体响应。然后,通过对群组级奖励进行归一化来计算第 i 个响应的优势。GRPO也采用了裁剪目标,并添加了一个直接的KL惩罚项。
2. DAPO的关键技术:解耦剪辑和动态采样
DAPO研究者提出了解耦剪辑(Decouple Clip)和动态采样策略优化(DAPO)算法。DAPO 对每个问题 q 和答案 a 的一组输出进行采样,并通过优化策略。
- Clip-Higher:解决熵崩溃问题
在使用PPO或GRPO进行初步实验时,研究者观察到了熵崩溃现象:随着训练的进行,策略的熵迅速下降,导致有限的探索和早期的确定性策略阻碍扩展过程。
针对这一问题,研究者提出了 Clip-Higher 策略。对重要度采样率进行剪辑是PPO-Clip中的一种策略,用于限制信任区域并增强RL的稳定性。研究者发现,被剪辑token的最大概率约为,这表明上限剪辑阈值限制了低概率token的概率增长,从而可能限制了系统的多样性。
因此,根据Clip-Higher策略,研究者将较低和较高的剪辑范围解耦为 εlow 和 εhigh,增加了 ε_high 的值。
3. 其他改进:消除KL偏离和基于规则的奖励建模
- 消除KL偏离: 在DAPO中,KL惩罚项被排除在外。研究者认为,在训练长CoT推理模型时,模型分布可能会与初始模型有显著差异,因此限制是不必要的。
- 基于规则的奖励建模: 作为奖励模型使用的替代方案,该团队直接使用可验证任务的最终准确率作为结果奖励,计算规则如下。事实证明,这是激活基础模型推理能力的有效方法。
总结与展望
DAPO的开源发布,为LLM强化学习领域带来了新的希望。其在性能上的超越,以及对GRPO局限性的深入分析,为未来的研究提供了宝贵的经验。随着DAPO算法的不断完善和应用,我们有理由期待LLM在各个领域发挥更大的作用。
Views: 0