北大发布 Aligner：残差修正模型对齐突破

北京，[日期] – 在人工智能领域，大型语言模型（LLM）的对齐问题一直是研究的重点。近日，北京大学的研究团队推出了一种名为 Aligner 的创新技术，该技术通过学习对齐答案与未对齐答案之间的修正残差，从而提升模型性能，为解决 LLM 对齐问题提供了一种全新的思路。

Aligner 的核心在于其高效性和灵活性。它采用自回归的 seq2seq 模型，在问题-答案-修正后的答案（Query-Answer-Correction, Q-A-C）数据集上进行训练，无需依赖复杂的强化学习从人类反馈（RLHF）流程。更重要的是，Aligner 可以作为一个即插即用的模块，直接应用于各种开源和基于 API 的模型，无需访问模型参数，这大大降低了应用门槛。

Aligner 的主要功能与优势

修正残差学习： Aligner 通过学习对齐与未对齐答案之间的差异，实现了更精准的模型对齐。
弱到强泛化： 使用小参数量的 Aligner 模型对大参数量的 LLMs 进行微调，可以显著提升强模型的性能。
即插即用： Aligner 能够对齐如 GPT3.5、GPT4 和 Claude2 等无法获取参数的模型，极大地扩展了其应用范围。

Aligner 的训练过程

数据收集： 从各种开源数据集中获取问题（Query），生成原始答案。
答案修正： 使用 GPT-4、Llama2-70B-Chat 和人工标注来修正原始答案，使其符合人类价值观。
模型训练： 基于修正后的数据集，训练 Aligner 模型，使其能够将原始答案修正为对齐的答案。

Aligner 的性能表现

实验结果表明，Aligner 在提升模型帮助性和安全性方面表现出色：

使用 Aligner-7B 能够提高 GPT-4 的帮助性和安全性，分别增加了 17.5% 和 26.9%。
基于 Aligner-13B 监督下微调 Llama2-70B，帮助性和安全性分别提升了 8.2% 和 61.6%。
Aligner-7B 对齐提升了包括闭源、开源及安全 / 未安全对齐模型在内的 11 种模型的帮助性和安全性。

Aligner 的应用场景

Aligner 的应用场景十分广泛，包括：

多轮对话场景： 在多轮对话中，Aligner 可以改善对话的对齐效果，在稀疏奖励的挑战下。
人类价值向奖励模型的对齐： Aligner 可以通过特定语料训练，修正前置模型的输出以反映特定的价值观。
MoE-Aligner 的流式化和并行处理： 通过将 Aligner 专门化处理并集成，可以创建更强大且全面的混合专家（MoE）Aligner。

获取更多信息

感兴趣的读者可以通过以下链接获取更多关于 Aligner 的信息：

项目官网： https://pku-aligner.github.io/
GitHub 仓库： https://github.com/PKU-Alignment/aligner
HuggingFace 模型库： https://huggingface.co/aligner/aligner-7b-v1.0
arXiv 技术论文： https://arxiv.org/pdf/2402.02416

结论

北京大学推出的 Aligner 技术，为大语言模型对齐问题提供了一种创新且实用的解决方案。其高效性、灵活性和广泛的适用性，使其有望在未来的 LLM 研究和应用中发挥重要作用。随着人工智能技术的不断发展，我们期待 Aligner 能够为构建更加安全、可靠和符合人类价值观的 AI 系统做出更大的贡献。

参考文献

PKU-Alignment. (2024). Aligner: Learning to Align by Amending. arXiv preprint arXiv:2402.02416.

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30