Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

NEWS 新闻NEWS 新闻
0

Meta 发布 CGPO:克服奖励欺骗,提升多任务学习效率

大型语言模型(LLMs)的应用场景日益广泛,而强化学习与人类反馈(RLHF)已成为调整和优化模型输出的主流方法。然而,RLHF 在多任务学习(MTL)中面临着“奖励欺骗”和多目标优化难题。Meta GenAI 和 FAIR 团队近日发布了全新的后训练范式——约束生成策略优化(CGPO),通过引入混合评审机制和高效的约束优化器,有效解决了 RLHF 在多任务环境中的这些挑战,并显著提升了语言模型在多任务环境中的表现。

CGPO框架:打破 RLHF 瓶颈的全新设计

传统的 RLHF 方法依赖于线性组合的奖励模型,容易导致模型被某一任务的奖励优化“误导”,进而影响其他任务的表现。CGPO 的核心在于它突破了传统 RLHF 对多任务学习的局限性,尤其是在奖励优化与任务目标冲突之间找到了新的平衡。

CGPO 的核心贡献:

  1. 奖励欺骗的防范: CGPO 通过混合评审机制,在模型生成的过程中持续监控奖励欺骗行为,保证模型不会过度优化某一任务的奖励,而牺牲其他任务的表现。不同于传统 RLHF 方法,CGPO 能够智能检测出不合规的生成内容,并通过约束策略进行调整。

  2. 极端多目标优化问题的解决: 多任务学习通常涉及多个甚至冲突的目标,传统的 RLHF 框架难以处理这些目标之间的平衡。而 CGPO 通过为每个任务单独设定评审和优化器,确保各任务能够独立优化其目标,避免了不同任务目标之间的相互妥协。最终,CGPO 为多任务学习提供了更优的帕累托前沿解。

技术亮点:三大优化器与多评审机制

CGPO 引入了三种主要的 RLHF 约束优化器:

  1. Calibrated Regularized Policy Gradient(CRPG): 通过结合奖励建模与约束调整,确保模型生成高质量响应,同时防止偏离既定约束。实验中,CRPG 在数学、编程等需要精确计算和逻辑推理的任务中表现尤为突出。

  2. Constrained Regularized Reward Ranking Finetuning(CRRAFT): 通过奖励排名策略,只保留满足所有约束条件的生成结果,同时提升奖励值。该优化器在真相问答、指令跟随等任务中表现出色。

  3. Constrained Online DPO(CODPO): 通过直接偏好优化,使得高奖励值且符合约束的生成结果得以保留,提升模型整体表现。

CGPO 处理多任务场景:

在多任务环境下,CGPO 通过“奖励模型 + 多任务判定器 (MoJs) + 优化器”的组合,为每个任务提供量身定制的对齐指导,从而更好地适应每个任务的独特特性,增加实现最优对齐结果的可能性。

实验验证:CGPO 的显著性能提升

在多项任务的测试中,CGPO 展现了显著的性能优势。具体来说,在通用聊天任务(AlpacaEval-2)、STEM 问题解答任务(Arena-Hard)、指令跟随(IFEval)、数学与推理(MATH 和GSM8K)、编程任务(HumanEval)、以及知识问答(ARC Challenge)中,CGPO 均大幅超越现有的 RLHF 算法如 PPO 和 DPO。

实验数据显示,CGPO 在 AlpacaEval-2 中相较 PPO 提升了 7.4%,在 Arena-Hard 中提升了 12.5%,而在数学推理任务(MATH 和 GSM8K)中,CGPO 表现稳定,分别提升了 2%,在人类评估(HumanEval)中的编程测试上则提升了 5%。此外,PPO 在编程任务中表现出奖励欺骗行为,导致模型在训练后期出现严重退化,而 CGPO 通过约束优化有效避免了这一问题,确保模型表现稳定。

CGPO 的出现为未来多任务学习提供了新的优化路径,有望进一步提升大型语言模型的效能和稳定性。

参考文献:

[1] https://arxiv.org/pdf/2409.20370


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注