Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

川普在美国宾州巴特勒的一次演讲中遇刺_20240714川普在美国宾州巴特勒的一次演讲中遇刺_20240714
0

摘要: 厦门大学纪荣嵘团队近日推出了一种名为CPPO(Completion Pruning Policy Optimization,完成剪枝策略优化)的强化学习算法,该算法在GSM8K基准测试中,相较于DeepSeek-R1所依赖的GRPO算法,速度提升高达8.32倍,在MATH基准上也有3.51倍的提升。CPPO通过剪枝贡献较小的完成结果,并动态分配GPU资源,显著降低了计算开销,为强化学习的效率提升开辟了新的道路。

北京,[当前日期] – 在人工智能领域,强化学习作为一种重要的学习范式,正被广泛应用于各种任务中,例如游戏、机器人控制和自然语言处理。然而,强化学习的训练过程往往计算成本高昂,限制了其应用范围。近日,厦门大学纪荣嵘团队的一项研究成果,有望彻底改变这一现状。

该团队提出了一种名为CPPO(Completion Pruning Policy Optimization,完成剪枝策略优化)的强化学习算法,该算法是对DeepSeek-R1所依赖的GRPO(组相对策略优化)算法的重大改进。GRPO算法虽然能够直接根据组分数估计基线,无需critic模型,但其需要为每个问题采样一组完成结果,导致计算成本较高。此外,GRPO为了保证训练的稳定性,还需要计算一组完成结果的策略模型、参考模型和旧策略模型的预测概率之比,进一步增加了训练开销。

厦门大学纪荣嵘团队的研究发现,在GRPO算法中,每个完成结果的贡献与其相对优势有关,并非所有完成结果都同等重要。换句话说,增加完成结果的数量并不能显著提升准确度,反而会迅速增加训练时间。

基于这一洞察,该团队提出了CPPO算法,其核心思想是对完成结果进行剪枝,只保留那些具有较高优势的完成结果,从而大大减少训练所需的计算量。具体来说,CPPO算法首先会针对每个问题采样一组完成结果,然后通过奖励函数计算每个完成结果的相对优势。接着,CPPO会修剪掉绝对优势值较低的完成结果,仅保留绝对优势较高的完成结果来计算损失。

为了进一步提升效率,该团队还引入了一种动态完成结果分配策略。该策略会用新问题的完成结果填充每个GPU设备,从而充分利用GPU资源,避免资源浪费。

实验结果表明,CPPO算法在保证准确度相当的情况下,显著提升了训练速度。在使用Qwen-2.5系列模型(包括Qwen-2.5-1.5B-Instruct和Qwen-2.5-7B-Instruct)时,CPPO在GSM8K基准上的速度比GRPO快8.32倍,在MATH基准上快3.51倍。

CPPO算法的核心机制:

  • 完成剪枝: CPPO算法通过引入一个选择性条件,仅保留绝对优势高于预定义阈值的完成结果,从而减少计算量。
  • 统一单/多GPU设置: 在多GPU训练场景中,CPPO算法会针对每台GPU,只保留每个问题具有最大绝对优势的k个完成结果,缓解了“木桶效应”。
  • 动态完成结果分配: CPPO算法通过动态分配完成结果,充分利用GPU资源,进一步提高训练效率。

CPPO算法的流程:

  1. 旧策略模型为每个问题采样一组完成结果。
  2. 奖励函数计算每个完成结果的奖励。
  3. 计算每个完成结果的相对优势。
  4. CPPO保留k个具有最高绝对优势的完成结果。
  5. 根据选定的完成结果更新策略模型。

CPPO算法的开源发布,无疑将加速强化学习领域的发展,为各种应用场景带来更高效、更经济的解决方案。

未来展望:

CPPO算法的成功,为强化学习的效率提升提供了新的思路。未来,我们可以期待更多类似的创新算法出现,进一步降低强化学习的计算成本,使其能够应用于更广泛的领域。

参考文献:

(记者:[你的名字],曾供职于新华社、人民日报、中央电视台、华尔街日报、纽约时报等)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注