随着GPT、Claude 等大规模语言模型(LLM)的快速发展,它们展现出惊人的语言生成能力。然而,LLM 仍然存在生成不当或偏离预期的结果,尤其在推理过程中,常常导致不准确、不符合语境或不合伦理的回答。为了解决这一问题,学术界和工业界提出了各种对齐(Alignment)技术,旨在优化模型输出,使其更加符合人类的价值观和期望。
RLHF 是一种广泛使用的对齐方法,通过人类反馈进行强化学习。它包含两个阶段:首先训练奖励模型(RM),然后使用 RM 指导策略模型(Policy Model)的强化学习优化。然而,RLHF 存在高内存占用、训练不稳定以及流程复杂等问题。
DPO 方法简化了 RLHF 流程,将强化学习训练转化为二分类问题,减少了内存消耗并提高了训练稳定性。但 DPO 无法充分利用 RM,且仅适用于成对的偏好数据。
KTO 进一步扩展了 DPO,能够处理二元数据,但它也无法统一处理不同类型的反馈数据,也无法有效利用已有的RM。
UNA 应运而生,它通过一个通用的隐式奖励函数,统一了当前主流的 LLM 对齐技术,包括 RLHF、DPO 和 KTO。UNA 的创新点在于:
- 推导通用的隐式奖励函数:UNA 利用 RLHF 的目标函数推导出一个通用的隐式奖励函数。
- 简化 RLHF 流程:UNA 将 RLHF 中不稳定的强化学习过程转化为稳定的监督学习过程,减少了训练的不稳定性和对内存的需求。
- 支持多种反馈数据:UNA 能够处理成对反馈、二元反馈以及基于评分的反馈。
- 统一监督学习框架:UNA 通过最小化隐式奖励和显式奖励之间的差异,统一了对策略模型的优化。
UNA 的理论基础源于对 RLHF 目标函数的重新推导。研究人员证明,给定 RLHF 的经典目标函数,最优策略可以通过一个隐式的奖励函数来诱导。该隐式奖励函数是策略模型与参考策略之间的对比结果,通过这个函数,UNA 能够将不同类型的奖励信息整合到统一的框架中进行处理。
实验结果表明,UNA在多个下游任务中相较于传统的 RLHF、DPO 和 KTO 都有显著的性能提升,特别是在训练速度、内存占用和任务表现等方面。
UNA 的提出标志着大规模语言模型对齐技术的一个重要进展。通过统一 RLHF、DPO 和KTO,UNA 不仅简化了模型的训练流程,还提高了训练的稳定性和效率。其通用的隐式奖励函数为未来 LLM 对齐研究提供了新的方向。
参考文献:
- UNA: Unifying Alignments of RLHF/PPO, DPO andKTO by a Generalized Implicit Reward Function. https://arxiv.org/abs/2408.15339
作者:
- 王智超:Salesforce,专注于 LLMAlignment
- 闭彬:Salesforce,专注于 LLM Alignment
- 黄灿:厦门大学数学系副教授
联系方式:
- liyazhou@jiqizhixin.com
- zhaoyunfeng@jiqizhixin.com
本文由机器之心AIxiv专栏发布。
Views: 0