字节清华联手，超越DeepSeek强化学习算法！

北京时间3月18日讯，人工智能领域再添新突破。针对DeepSeek提出的GRPO算法在大型语言模型（LLM）强化学习中存在的局限性，清华大学人工智能研究院（AIR）与字节跳动联合SIA Lab发布了一项重要研究成果：DAPO（Decoupled Clip and Dynamic sAmpling Policy Optimization，解耦剪辑和动态采样策略优化）。该系统被认为是目前可实现大规模LLM强化学习的开源SOTA（State-of-the-Art）系统。

DeepSeek提出的GRPO算法旨在提升LLM的强化学习效率，但其论文中缺少一些关键细节，导致难以复现出大规模和工业级的强化学习系统。而DAPO的出现，有望填补这一空白。

据悉，使用DAPO算法训练的模型也将在近期开源发布。相关资源链接如下：

项目页面： https://dapo-sia.github.io/
论文地址： https://dapo-sia.github.io/static/pdf/dapo_paper.pdf
代码地址： https://github.com/volcengine/verl/tree/gm-tyx/puffin/main/recipe/dapo
数据： https://huggingface.co/datasets/BytedTsinghua-SIA/DAPO-Math-17k

DAPO的卓越性能

研究团队使用DAPO算法，成功地使Qwen2.5-32B模型在AIME 2024基准上获得了50分，超越了同等规模的DeepSeek-R1-Zero-Qwen-32B模型。更令人瞩目的是，DAPO版Qwen2.5-32B使用的训练步数还减少了50%。

相比之下，如果使用GRPO算法，Qwen2.5-32B模型在AIME 2024基准上只能获得30分，远低于DeepSeek的强化学习得分（47分）。

GRPO的局限性

研究团队分析发现，原生版GRPO面临着熵崩溃、奖励噪音和训练不稳定等关键问题。事实上，许多研究团队在复现DeepSeek的结果时也遇到了类似的难题。

研究人员表示：“这表明R1论文中可能省略了开发工业级、大规模且可重现的强化学习系统所需的关键训练细节。”

DAPO的关键改进

Allen AI的研究者Nathan Lambert总结了DAPO对GRPO的改进，包括：

两个不同的裁剪超参数
动态采样
token层面的策略梯度损失
过长奖励塑造

DAPO算法详解

DAPO算法的核心在于解耦剪辑（Decouple Clip）和动态采样策略优化（Dynamic sAmpling Policy Optimization）。

1. PPO到GRPO：价值函数的消除和群组相关优势估计

DAPO的演进可以追溯到近端策略优化（PPO）。PPO通过引入裁剪式替代目标（clipped surrogate objective）来执行策略优化，将策略更新限制在先前策略的近端区域内，从而实现训练稳定和提高样本效率。

GRPO在PPO的基础上，消除了价值函数，并以群组相关的方式来估计优势。对于特定的问答对 (q, a)，行为策略 πθold 采样一组 G 个个体响应。然后，通过对群组级奖励进行归一化来计算第 i 个响应的优势。GRPO也采用了裁剪目标，并添加了一个直接的KL惩罚项。

2. DAPO的关键技术：解耦剪辑和动态采样

DAPO研究者提出了解耦剪辑（Decouple Clip）和动态采样策略优化（DAPO）算法。DAPO 对每个问题 q 和答案 a 的一组输出进行采样，并通过优化策略。

Clip-Higher：解决熵崩溃问题

在使用PPO或GRPO进行初步实验时，研究者观察到了熵崩溃现象：随着训练的进行，策略的熵迅速下降，导致有限的探索和早期的确定性策略阻碍扩展过程。

针对这一问题，研究者提出了 Clip-Higher 策略。对重要度采样率进行剪辑是PPO-Clip中的一种策略，用于限制信任区域并增强RL的稳定性。研究者发现，被剪辑token的最大概率约为，这表明上限剪辑阈值限制了低概率token的概率增长，从而可能限制了系统的多样性。

因此，根据Clip-Higher策略，研究者将较低和较高的剪辑范围解耦为 εlow 和 εhigh，增加了 ε_high 的值。

3. 其他改进：消除KL偏离和基于规则的奖励建模

消除KL偏离： 在DAPO中，KL惩罚项被排除在外。研究者认为，在训练长CoT推理模型时，模型分布可能会与初始模型有显著差异，因此限制是不必要的。
基于规则的奖励建模： 作为奖励模型使用的替代方案，该团队直接使用可验证任务的最终准确率作为结果奖励，计算规则如下。事实证明，这是激活基础模型推理能力的有效方法。

总结与展望

DAPO的开源发布，为LLM强化学习领域带来了新的希望。其在性能上的超越，以及对GRPO局限性的深入分析，为未来的研究提供了宝贵的经验。随着DAPO算法的不断完善和应用，我们有理由期待LLM在各个领域发挥更大的作用。

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

字节清华联手，超越DeepSeek强化学习算法！

作者智能小编

相关文章

赫拉利：秩序渴求，AI控人的首要原因

Secure Spring AI MCP Server with OAuth2 Best Practices

Spring AI MCP服务器安全升级：OAuth2保驾护航

发表回复取消回复

为您推荐