上海的陆家嘴

斯坦福新作:无指令调优的指令遵循,语言模型的隐式学习能力再获突破

近年来,指令调优(Instruction Tuning)在提升语言模型能力方面取得了显著成果,但其依赖于大量指令-响应对的训练数据。斯坦福大学最新研究表明,指令遵循能力可能并非完全依赖显式指令,语言模型能够通过隐式学习的方式,在没有明确指令的情况下,也能展现出指令遵循行为。

该研究名为《Instruction Following without Instruction Tuning》,研究者发现两种隐式指令调优的适应形式:

  • 响应调优(Response Tuning):仅对模型的响应进行训练,而不提供任何指令信息。
    *单任务调优(Single-Task Tuning):仅对来自特定领域的数据进行训练,例如诗歌生成。

研究结果表明,这两种隐式调优方法都能够在一定程度上产生指令遵循行为,甚至在某些情况下能够与显式指令调优模型相媲美。

响应调优的有效性

研究者使用 LIMA 数据集对模型进行响应调优,结果表明,响应调优模型在 AlpacaEval 2 上的评估中,与指令调优模型相比,有 43% 的胜率,在同等性能下则对应 50% 的胜率。

这表明,即使没有明确的指令信息,模型也能从响应数据中学习到指令-响应映射的隐式知识。

单任务调优的泛化能力

研究者发现,对单任务、窄域数据进行微调,例如将英语请求映射到 Python 代码,也能产生广泛的指令遵循行为。

例如,经过诗歌调优的 Llama-2-7B 在 AlpacaEval 2 中与经过指令调优的 Llama-2-7B 胜出 23.7%,而基础模型胜出率为 2.4%。

这表明,模型能够将从特定领域学习到的知识泛化到其他领域,即使这些领域在训练过程中没有被明确提及。

研究意义

这项研究表明,语言模型的指令遵循能力并非完全依赖显式指令,而是可以通过隐式学习的方式,从数据中学习到指令-响应映射的知识。

这对于提升语言模型的样本效率和泛化能力具有重要意义,也为未来研究语言模型的学习机制提供了新的思路。

研究者之一 John Hewitt 表示,这项研究是他加入哥伦比亚大学担任助理教授前的最后作品。

未来展望

这项研究为语言模型的隐式学习能力提供了新的证据,也为未来研究提供了新的方向。

  • 如何进一步提升隐式指令调优的效率和效果?
    *如何更好地理解语言模型的隐式学习机制?
  • 如何将隐式指令调优应用到更广泛的领域?

随着研究的不断深入,相信我们能够更好地理解语言模型的学习机制,并开发出更加高效、智能的语言模型。


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注