UNA 框架来袭：AI 语言模型新纪元

随着GPT、Claude 等大规模语言模型（LLM）的快速发展，它们展现出惊人的语言生成能力。然而，LLM 仍然存在生成不当或偏离预期的结果，尤其在推理过程中，常常导致不准确、不符合语境或不合伦理的回答。为了解决这一问题，学术界和工业界提出了各种对齐（Alignment）技术，旨在优化模型输出，使其更加符合人类的价值观和期望。

RLHF 是一种广泛使用的对齐方法，通过人类反馈进行强化学习。它包含两个阶段：首先训练奖励模型（RM），然后使用 RM 指导策略模型（Policy Model）的强化学习优化。然而，RLHF 存在高内存占用、训练不稳定以及流程复杂等问题。

DPO 方法简化了 RLHF 流程，将强化学习训练转化为二分类问题，减少了内存消耗并提高了训练稳定性。但 DPO 无法充分利用 RM，且仅适用于成对的偏好数据。

KTO 进一步扩展了 DPO，能够处理二元数据，但它也无法统一处理不同类型的反馈数据，也无法有效利用已有的RM。

UNA 应运而生，它通过一个通用的隐式奖励函数，统一了当前主流的 LLM 对齐技术，包括 RLHF、DPO 和 KTO。UNA 的创新点在于：

推导通用的隐式奖励函数：UNA 利用 RLHF 的目标函数推导出一个通用的隐式奖励函数。
简化 RLHF 流程：UNA 将 RLHF 中不稳定的强化学习过程转化为稳定的监督学习过程，减少了训练的不稳定性和对内存的需求。
支持多种反馈数据：UNA 能够处理成对反馈、二元反馈以及基于评分的反馈。
统一监督学习框架：UNA 通过最小化隐式奖励和显式奖励之间的差异，统一了对策略模型的优化。

UNA 的理论基础源于对 RLHF 目标函数的重新推导。研究人员证明，给定 RLHF 的经典目标函数，最优策略可以通过一个隐式的奖励函数来诱导。该隐式奖励函数是策略模型与参考策略之间的对比结果，通过这个函数，UNA 能够将不同类型的奖励信息整合到统一的框架中进行处理。

实验结果表明，UNA在多个下游任务中相较于传统的 RLHF、DPO 和 KTO 都有显著的性能提升，特别是在训练速度、内存占用和任务表现等方面。

UNA 的提出标志着大规模语言模型对齐技术的一个重要进展。通过统一 RLHF、DPO 和KTO，UNA 不仅简化了模型的训练流程，还提高了训练的稳定性和效率。其通用的隐式奖励函数为未来 LLM 对齐研究提供了新的方向。

参考文献：

UNA: Unifying Alignments of RLHF/PPO, DPO andKTO by a Generalized Implicit Reward Function. https://arxiv.org/abs/2408.15339

作者：

王智超：Salesforce，专注于 LLMAlignment
闭彬：Salesforce，专注于 LLM Alignment
黄灿：厦门大学数学系副教授

联系方式：

liyazhou@jiqizhixin.com
zhaoyunfeng@jiqizhixin.com

本文由机器之心AIxiv专栏发布。

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

UNA 框架来袭：AI 语言模型新纪元

作者智能小编

相关文章

全球文具龙头陨落：盲目扩张酿苦果

TCL’s20-Year European Journey From Ups and Downs to Solid Foundations

Jia Yueting Taiwan’s ‘Elon Musk’ Now Pitching US Investors

发表回复取消回复

为您推荐