Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

北京,[日期] – 在人工智能领域,大型语言模型(LLM)的对齐问题一直是研究的重点。近日,北京大学的研究团队推出了一种名为 Aligner 的创新技术,该技术通过学习对齐答案与未对齐答案之间的修正残差,从而提升模型性能,为解决 LLM 对齐问题提供了一种全新的思路。

Aligner 的核心在于其高效性和灵活性。它采用自回归的 seq2seq 模型,在问题-答案-修正后的答案(Query-Answer-Correction, Q-A-C)数据集上进行训练,无需依赖复杂的强化学习从人类反馈(RLHF)流程。更重要的是,Aligner 可以作为一个即插即用的模块,直接应用于各种开源和基于 API 的模型,无需访问模型参数,这大大降低了应用门槛。

Aligner 的主要功能与优势

  • 修正残差学习: Aligner 通过学习对齐与未对齐答案之间的差异,实现了更精准的模型对齐。
  • 弱到强泛化: 使用小参数量的 Aligner 模型对大参数量的 LLMs 进行微调,可以显著提升强模型的性能。
  • 即插即用: Aligner 能够对齐如 GPT3.5、GPT4 和 Claude2 等无法获取参数的模型,极大地扩展了其应用范围。

Aligner 的训练过程

  1. 数据收集: 从各种开源数据集中获取问题(Query),生成原始答案。
  2. 答案修正: 使用 GPT-4、Llama2-70B-Chat 和人工标注来修正原始答案,使其符合人类价值观。
  3. 模型训练: 基于修正后的数据集,训练 Aligner 模型,使其能够将原始答案修正为对齐的答案。

Aligner 的性能表现

实验结果表明,Aligner 在提升模型帮助性和安全性方面表现出色:

  • 使用 Aligner-7B 能够提高 GPT-4 的帮助性和安全性,分别增加了 17.5% 和 26.9%。
  • 基于 Aligner-13B 监督下微调 Llama2-70B,帮助性和安全性分别提升了 8.2% 和 61.6%。
  • Aligner-7B 对齐提升了包括闭源、开源及安全 / 未安全对齐模型在内的 11 种模型的帮助性和安全性。

Aligner 的应用场景

Aligner 的应用场景十分广泛,包括:

  • 多轮对话场景: 在多轮对话中,Aligner 可以改善对话的对齐效果,在稀疏奖励的挑战下。
  • 人类价值向奖励模型的对齐: Aligner 可以通过特定语料训练,修正前置模型的输出以反映特定的价值观。
  • MoE-Aligner 的流式化和并行处理: 通过将 Aligner 专门化处理并集成,可以创建更强大且全面的混合专家(MoE)Aligner。

获取更多信息

感兴趣的读者可以通过以下链接获取更多关于 Aligner 的信息:

结论

北京大学推出的 Aligner 技术,为大语言模型对齐问题提供了一种创新且实用的解决方案。其高效性、灵活性和广泛的适用性,使其有望在未来的 LLM 研究和应用中发挥重要作用。随着人工智能技术的不断发展,我们期待 Aligner 能够为构建更加安全、可靠和符合人类价值观的 AI 系统做出更大的贡献。

参考文献

  • PKU-Alignment. (2024). Aligner: Learning to Align by Amending. arXiv preprint arXiv:2402.02416.


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注