Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

NEWS 新闻NEWS 新闻
0

随着GPT、Claude 等大规模语言模型(LLM)的快速发展,它们展现出惊人的语言生成能力。然而,LLM 仍然存在生成不当或偏离预期的结果,尤其在推理过程中,常常导致不准确、不符合语境或不合伦理的回答。为了解决这一问题,学术界和工业界提出了各种对齐(Alignment)技术,旨在优化模型输出,使其更加符合人类的价值观和期望。

RLHF 是一种广泛使用的对齐方法,通过人类反馈进行强化学习。它包含两个阶段:首先训练奖励模型(RM),然后使用 RM 指导策略模型(Policy Model)的强化学习优化。然而,RLHF 存在高内存占用、训练不稳定以及流程复杂等问题。

DPO 方法简化了 RLHF 流程,将强化学习训练转化为二分类问题,减少了内存消耗并提高了训练稳定性。但 DPO 无法充分利用 RM,且仅适用于成对的偏好数据。

KTO 进一步扩展了 DPO,能够处理二元数据,但它也无法统一处理不同类型的反馈数据,也无法有效利用已有的RM。

UNA 应运而生,它通过一个通用的隐式奖励函数,统一了当前主流的 LLM 对齐技术,包括 RLHF、DPO 和 KTO。UNA 的创新点在于:

  • 推导通用的隐式奖励函数:UNA 利用 RLHF 的目标函数推导出一个通用的隐式奖励函数。
  • 简化 RLHF 流程:UNA 将 RLHF 中不稳定的强化学习过程转化为稳定的监督学习过程,减少了训练的不稳定性和对内存的需求。
  • 支持多种反馈数据:UNA 能够处理成对反馈、二元反馈以及基于评分的反馈。
  • 统一监督学习框架:UNA 通过最小化隐式奖励和显式奖励之间的差异,统一了对策略模型的优化。

UNA 的理论基础源于对 RLHF 目标函数的重新推导。研究人员证明,给定 RLHF 的经典目标函数,最优策略可以通过一个隐式的奖励函数来诱导。该隐式奖励函数是策略模型与参考策略之间的对比结果,通过这个函数,UNA 能够将不同类型的奖励信息整合到统一的框架中进行处理。

实验结果表明,UNA在多个下游任务中相较于传统的 RLHF、DPO 和 KTO 都有显著的性能提升,特别是在训练速度、内存占用和任务表现等方面。

UNA 的提出标志着大规模语言模型对齐技术的一个重要进展。通过统一 RLHF、DPO 和KTO,UNA 不仅简化了模型的训练流程,还提高了训练的稳定性和效率。其通用的隐式奖励函数为未来 LLM 对齐研究提供了新的方向。

参考文献:

作者:

  • 王智超:Salesforce,专注于 LLMAlignment
  • 闭彬:Salesforce,专注于 LLM Alignment
  • 黄灿:厦门大学数学系副教授

联系方式:

  • liyazhou@jiqizhixin.com
  • zhaoyunfeng@jiqizhixin.com

本文由机器之心AIxiv专栏发布。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注