北京,[日期] – 在人工智能领域,大型语言模型(LLM)的对齐问题一直是研究的重点。近日,北京大学的研究团队推出了一种名为 Aligner 的创新技术,该技术通过学习对齐答案与未对齐答案之间的修正残差,从而提升模型性能,为解决 LLM 对齐问题提供了一种全新的思路。
Aligner 的核心在于其高效性和灵活性。它采用自回归的 seq2seq 模型,在问题-答案-修正后的答案(Query-Answer-Correction, Q-A-C)数据集上进行训练,无需依赖复杂的强化学习从人类反馈(RLHF)流程。更重要的是,Aligner 可以作为一个即插即用的模块,直接应用于各种开源和基于 API 的模型,无需访问模型参数,这大大降低了应用门槛。
Aligner 的主要功能与优势
- 修正残差学习: Aligner 通过学习对齐与未对齐答案之间的差异,实现了更精准的模型对齐。
- 弱到强泛化: 使用小参数量的 Aligner 模型对大参数量的 LLMs 进行微调,可以显著提升强模型的性能。
- 即插即用: Aligner 能够对齐如 GPT3.5、GPT4 和 Claude2 等无法获取参数的模型,极大地扩展了其应用范围。
Aligner 的训练过程
- 数据收集: 从各种开源数据集中获取问题(Query),生成原始答案。
- 答案修正: 使用 GPT-4、Llama2-70B-Chat 和人工标注来修正原始答案,使其符合人类价值观。
- 模型训练: 基于修正后的数据集,训练 Aligner 模型,使其能够将原始答案修正为对齐的答案。
Aligner 的性能表现
实验结果表明,Aligner 在提升模型帮助性和安全性方面表现出色:
- 使用 Aligner-7B 能够提高 GPT-4 的帮助性和安全性,分别增加了 17.5% 和 26.9%。
- 基于 Aligner-13B 监督下微调 Llama2-70B,帮助性和安全性分别提升了 8.2% 和 61.6%。
- Aligner-7B 对齐提升了包括闭源、开源及安全 / 未安全对齐模型在内的 11 种模型的帮助性和安全性。
Aligner 的应用场景
Aligner 的应用场景十分广泛,包括:
- 多轮对话场景: 在多轮对话中,Aligner 可以改善对话的对齐效果,在稀疏奖励的挑战下。
- 人类价值向奖励模型的对齐: Aligner 可以通过特定语料训练,修正前置模型的输出以反映特定的价值观。
- MoE-Aligner 的流式化和并行处理: 通过将 Aligner 专门化处理并集成,可以创建更强大且全面的混合专家(MoE)Aligner。
获取更多信息
感兴趣的读者可以通过以下链接获取更多关于 Aligner 的信息:
- 项目官网: https://pku-aligner.github.io/
- GitHub 仓库: https://github.com/PKU-Alignment/aligner
- HuggingFace 模型库: https://huggingface.co/aligner/aligner-7b-v1.0
- arXiv 技术论文: https://arxiv.org/pdf/2402.02416
结论
北京大学推出的 Aligner 技术,为大语言模型对齐问题提供了一种创新且实用的解决方案。其高效性、灵活性和广泛的适用性,使其有望在未来的 LLM 研究和应用中发挥重要作用。随着人工智能技术的不断发展,我们期待 Aligner 能够为构建更加安全、可靠和符合人类价值观的 AI 系统做出更大的贡献。
参考文献
- PKU-Alignment. (2024). Aligner: Learning to Align by Amending. arXiv preprint arXiv:2402.02416.
Views: 0