厦大CPPO：强化学习速度狂飙，超越GRPO八倍！

摘要： 厦门大学纪荣嵘团队近日推出了一种名为CPPO（Completion Pruning Policy Optimization，完成剪枝策略优化）的强化学习算法，该算法在GSM8K基准测试中，相较于DeepSeek-R1所依赖的GRPO算法，速度提升高达8.32倍，在MATH基准上也有3.51倍的提升。CPPO通过剪枝贡献较小的完成结果，并动态分配GPU资源，显著降低了计算开销，为强化学习的效率提升开辟了新的道路。

北京，[当前日期] – 在人工智能领域，强化学习作为一种重要的学习范式，正被广泛应用于各种任务中，例如游戏、机器人控制和自然语言处理。然而，强化学习的训练过程往往计算成本高昂，限制了其应用范围。近日，厦门大学纪荣嵘团队的一项研究成果，有望彻底改变这一现状。

该团队提出了一种名为CPPO（Completion Pruning Policy Optimization，完成剪枝策略优化）的强化学习算法，该算法是对DeepSeek-R1所依赖的GRPO（组相对策略优化）算法的重大改进。GRPO算法虽然能够直接根据组分数估计基线，无需critic模型，但其需要为每个问题采样一组完成结果，导致计算成本较高。此外，GRPO为了保证训练的稳定性，还需要计算一组完成结果的策略模型、参考模型和旧策略模型的预测概率之比，进一步增加了训练开销。

厦门大学纪荣嵘团队的研究发现，在GRPO算法中，每个完成结果的贡献与其相对优势有关，并非所有完成结果都同等重要。换句话说，增加完成结果的数量并不能显著提升准确度，反而会迅速增加训练时间。

基于这一洞察，该团队提出了CPPO算法，其核心思想是对完成结果进行剪枝，只保留那些具有较高优势的完成结果，从而大大减少训练所需的计算量。具体来说，CPPO算法首先会针对每个问题采样一组完成结果，然后通过奖励函数计算每个完成结果的相对优势。接着，CPPO会修剪掉绝对优势值较低的完成结果，仅保留绝对优势较高的完成结果来计算损失。

为了进一步提升效率，该团队还引入了一种动态完成结果分配策略。该策略会用新问题的完成结果填充每个GPU设备，从而充分利用GPU资源，避免资源浪费。

实验结果表明，CPPO算法在保证准确度相当的情况下，显著提升了训练速度。在使用Qwen-2.5系列模型（包括Qwen-2.5-1.5B-Instruct和Qwen-2.5-7B-Instruct）时，CPPO在GSM8K基准上的速度比GRPO快8.32倍，在MATH基准上快3.51倍。

CPPO算法的核心机制：

完成剪枝： CPPO算法通过引入一个选择性条件，仅保留绝对优势高于预定义阈值的完成结果，从而减少计算量。
统一单/多GPU设置： 在多GPU训练场景中，CPPO算法会针对每台GPU，只保留每个问题具有最大绝对优势的k个完成结果，缓解了“木桶效应”。
动态完成结果分配： CPPO算法通过动态分配完成结果，充分利用GPU资源，进一步提高训练效率。

CPPO算法的流程：

旧策略模型为每个问题采样一组完成结果。
奖励函数计算每个完成结果的奖励。
计算每个完成结果的相对优势。
CPPO保留k个具有最高绝对优势的完成结果。
根据选定的完成结果更新策略模型。

CPPO算法的开源发布，无疑将加速强化学习领域的发展，为各种应用场景带来更高效、更经济的解决方案。

未来展望：

CPPO算法的成功，为强化学习的效率提升提供了新的思路。未来，我们可以期待更多类似的创新算法出现，进一步降低强化学习的计算成本，使其能够应用于更广泛的领域。

参考文献：

CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models. https://arxiv.org/pdf/2503.22342
CPPO项目地址: https://github.com/lzhxmu/CPPO

（记者：[你的名字]，曾供职于新华社、人民日报、中央电视台、华尔街日报、纽约时报等）

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

厦大CPPO：强化学习速度狂飙，超越GRPO八倍！

作者智能小编

相关文章

腾讯AI“元宝”杀入微信，13亿用户社交版图重塑？

2025人工智能：颠覆与新生

北大团队突破！单目长视频实时重建高质量3D点云

发表回复取消回复

为您推荐