Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

上海的陆家嘴
0

斯坦福新作:无指令调优的指令遵循,语言模型的隐式学习能力再获突破

近年来,指令调优(Instruction Tuning)在提升语言模型能力方面取得了显著成果,但其依赖于大量指令-响应对的训练数据。斯坦福大学最新研究表明,指令遵循能力可能并非完全依赖显式指令,语言模型能够通过隐式学习的方式,在没有明确指令的情况下,也能展现出指令遵循行为。

该研究名为《Instruction Following without Instruction Tuning》,研究者发现两种隐式指令调优的适应形式:

  • 响应调优(Response Tuning):仅对模型的响应进行训练,而不提供任何指令信息。
    *单任务调优(Single-Task Tuning):仅对来自特定领域的数据进行训练,例如诗歌生成。

研究结果表明,这两种隐式调优方法都能够在一定程度上产生指令遵循行为,甚至在某些情况下能够与显式指令调优模型相媲美。

响应调优的有效性

研究者使用 LIMA 数据集对模型进行响应调优,结果表明,响应调优模型在 AlpacaEval 2 上的评估中,与指令调优模型相比,有 43% 的胜率,在同等性能下则对应 50% 的胜率。

这表明,即使没有明确的指令信息,模型也能从响应数据中学习到指令-响应映射的隐式知识。

单任务调优的泛化能力

研究者发现,对单任务、窄域数据进行微调,例如将英语请求映射到 Python 代码,也能产生广泛的指令遵循行为。

例如,经过诗歌调优的 Llama-2-7B 在 AlpacaEval 2 中与经过指令调优的 Llama-2-7B 胜出 23.7%,而基础模型胜出率为 2.4%。

这表明,模型能够将从特定领域学习到的知识泛化到其他领域,即使这些领域在训练过程中没有被明确提及。

研究意义

这项研究表明,语言模型的指令遵循能力并非完全依赖显式指令,而是可以通过隐式学习的方式,从数据中学习到指令-响应映射的知识。

这对于提升语言模型的样本效率和泛化能力具有重要意义,也为未来研究语言模型的学习机制提供了新的思路。

研究者之一 John Hewitt 表示,这项研究是他加入哥伦比亚大学担任助理教授前的最后作品。

未来展望

这项研究为语言模型的隐式学习能力提供了新的证据,也为未来研究提供了新的方向。

  • 如何进一步提升隐式指令调优的效率和效果?
    *如何更好地理解语言模型的隐式学习机制?
  • 如何将隐式指令调优应用到更广泛的领域?

随着研究的不断深入,相信我们能够更好地理解语言模型的学习机制,并开发出更加高效、智能的语言模型。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注