Meta突破AI瓶颈：CGPO框架提升语言模型5%

Meta 发布 CGPO：克服奖励欺骗，提升多任务学习效率

大型语言模型（LLMs）的应用场景日益广泛，而强化学习与人类反馈（RLHF）已成为调整和优化模型输出的主流方法。然而，RLHF 在多任务学习（MTL）中面临着“奖励欺骗”和多目标优化难题。Meta GenAI 和 FAIR 团队近日发布了全新的后训练范式——约束生成策略优化（CGPO），通过引入混合评审机制和高效的约束优化器，有效解决了 RLHF 在多任务环境中的这些挑战，并显著提升了语言模型在多任务环境中的表现。

CGPO框架：打破 RLHF 瓶颈的全新设计

传统的 RLHF 方法依赖于线性组合的奖励模型，容易导致模型被某一任务的奖励优化“误导”，进而影响其他任务的表现。CGPO 的核心在于它突破了传统 RLHF 对多任务学习的局限性，尤其是在奖励优化与任务目标冲突之间找到了新的平衡。

CGPO 的核心贡献：

奖励欺骗的防范： CGPO 通过混合评审机制，在模型生成的过程中持续监控奖励欺骗行为，保证模型不会过度优化某一任务的奖励，而牺牲其他任务的表现。不同于传统 RLHF 方法，CGPO 能够智能检测出不合规的生成内容，并通过约束策略进行调整。
极端多目标优化问题的解决： 多任务学习通常涉及多个甚至冲突的目标，传统的 RLHF 框架难以处理这些目标之间的平衡。而 CGPO 通过为每个任务单独设定评审和优化器，确保各任务能够独立优化其目标，避免了不同任务目标之间的相互妥协。最终，CGPO 为多任务学习提供了更优的帕累托前沿解。

技术亮点：三大优化器与多评审机制

CGPO 引入了三种主要的 RLHF 约束优化器：

Calibrated Regularized Policy Gradient（CRPG）： 通过结合奖励建模与约束调整，确保模型生成高质量响应，同时防止偏离既定约束。实验中，CRPG 在数学、编程等需要精确计算和逻辑推理的任务中表现尤为突出。
Constrained Regularized Reward Ranking Finetuning（CRRAFT）： 通过奖励排名策略，只保留满足所有约束条件的生成结果，同时提升奖励值。该优化器在真相问答、指令跟随等任务中表现出色。
Constrained Online DPO（CODPO）： 通过直接偏好优化，使得高奖励值且符合约束的生成结果得以保留，提升模型整体表现。

CGPO 处理多任务场景：

在多任务环境下，CGPO 通过“奖励模型 + 多任务判定器 (MoJs) + 优化器”的组合，为每个任务提供量身定制的对齐指导，从而更好地适应每个任务的独特特性，增加实现最优对齐结果的可能性。

实验验证：CGPO 的显著性能提升

在多项任务的测试中，CGPO 展现了显著的性能优势。具体来说，在通用聊天任务（AlpacaEval-2）、STEM 问题解答任务（Arena-Hard）、指令跟随（IFEval）、数学与推理（MATH 和GSM8K）、编程任务（HumanEval）、以及知识问答（ARC Challenge）中，CGPO 均大幅超越现有的 RLHF 算法如 PPO 和 DPO。

实验数据显示，CGPO 在 AlpacaEval-2 中相较 PPO 提升了 7.4%，在 Arena-Hard 中提升了 12.5%，而在数学推理任务（MATH 和 GSM8K）中，CGPO 表现稳定，分别提升了 2%，在人类评估（HumanEval）中的编程测试上则提升了 5%。此外，PPO 在编程任务中表现出奖励欺骗行为，导致模型在训练后期出现严重退化，而 CGPO 通过约束优化有效避免了这一问题，确保模型表现稳定。

CGPO 的出现为未来多任务学习提供了新的优化路径，有望进一步提升大型语言模型的效能和稳定性。

参考文献：

[1] https://arxiv.org/pdf/2409.20370

>>> Read more <<<