摘要: 厦门大学纪荣嵘团队近日推出了一种名为CPPO(Completion Pruning Policy Optimization,完成剪枝策略优化)的强化学习算法,该算法在GSM8K基准测试中,相较于DeepSeek-R1所依赖的GRPO算法,速度提升高达8.32倍,在MATH基准上也有3.51倍的提升。CPPO通过剪枝贡献较小的完成结果,并动态分配GPU资源,显著降低了计算开销,为强化学习的效率提升开辟了新的道路。
北京,[当前日期] – 在人工智能领域,强化学习作为一种重要的学习范式,正被广泛应用于各种任务中,例如游戏、机器人控制和自然语言处理。然而,强化学习的训练过程往往计算成本高昂,限制了其应用范围。近日,厦门大学纪荣嵘团队的一项研究成果,有望彻底改变这一现状。
该团队提出了一种名为CPPO(Completion Pruning Policy Optimization,完成剪枝策略优化)的强化学习算法,该算法是对DeepSeek-R1所依赖的GRPO(组相对策略优化)算法的重大改进。GRPO算法虽然能够直接根据组分数估计基线,无需critic模型,但其需要为每个问题采样一组完成结果,导致计算成本较高。此外,GRPO为了保证训练的稳定性,还需要计算一组完成结果的策略模型、参考模型和旧策略模型的预测概率之比,进一步增加了训练开销。
厦门大学纪荣嵘团队的研究发现,在GRPO算法中,每个完成结果的贡献与其相对优势有关,并非所有完成结果都同等重要。换句话说,增加完成结果的数量并不能显著提升准确度,反而会迅速增加训练时间。
基于这一洞察,该团队提出了CPPO算法,其核心思想是对完成结果进行剪枝,只保留那些具有较高优势的完成结果,从而大大减少训练所需的计算量。具体来说,CPPO算法首先会针对每个问题采样一组完成结果,然后通过奖励函数计算每个完成结果的相对优势。接着,CPPO会修剪掉绝对优势值较低的完成结果,仅保留绝对优势较高的完成结果来计算损失。
为了进一步提升效率,该团队还引入了一种动态完成结果分配策略。该策略会用新问题的完成结果填充每个GPU设备,从而充分利用GPU资源,避免资源浪费。
实验结果表明,CPPO算法在保证准确度相当的情况下,显著提升了训练速度。在使用Qwen-2.5系列模型(包括Qwen-2.5-1.5B-Instruct和Qwen-2.5-7B-Instruct)时,CPPO在GSM8K基准上的速度比GRPO快8.32倍,在MATH基准上快3.51倍。
CPPO算法的核心机制:
- 完成剪枝: CPPO算法通过引入一个选择性条件,仅保留绝对优势高于预定义阈值的完成结果,从而减少计算量。
- 统一单/多GPU设置: 在多GPU训练场景中,CPPO算法会针对每台GPU,只保留每个问题具有最大绝对优势的k个完成结果,缓解了“木桶效应”。
- 动态完成结果分配: CPPO算法通过动态分配完成结果,充分利用GPU资源,进一步提高训练效率。
CPPO算法的流程:
- 旧策略模型为每个问题采样一组完成结果。
- 奖励函数计算每个完成结果的奖励。
- 计算每个完成结果的相对优势。
- CPPO保留k个具有最高绝对优势的完成结果。
- 根据选定的完成结果更新策略模型。
CPPO算法的开源发布,无疑将加速强化学习领域的发展,为各种应用场景带来更高效、更经济的解决方案。
未来展望:
CPPO算法的成功,为强化学习的效率提升提供了新的思路。未来,我们可以期待更多类似的创新算法出现,进一步降低强化学习的计算成本,使其能够应用于更广泛的领域。
参考文献:
- CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models. https://arxiv.org/pdf/2503.22342
- CPPO项目地址: https://github.com/lzhxmu/CPPO
(记者:[你的名字],曾供职于新华社、人民日报、中央电视台、华尔街日报、纽约时报等)
Views: 0