斯坦福新突破：指令遵循无需明示调优！

斯坦福新作：无指令调优的指令遵循，语言模型的隐式学习能力再获突破

近年来，指令调优（Instruction Tuning）在提升语言模型能力方面取得了显著成果，但其依赖于大量指令-响应对的训练数据。斯坦福大学最新研究表明，指令遵循能力可能并非完全依赖显式指令，语言模型能够通过隐式学习的方式，在没有明确指令的情况下，也能展现出指令遵循行为。

该研究名为《Instruction Following without Instruction Tuning》，研究者发现两种隐式指令调优的适应形式：

响应调优（Response Tuning）：仅对模型的响应进行训练，而不提供任何指令信息。
*单任务调优（Single-Task Tuning）：仅对来自特定领域的数据进行训练，例如诗歌生成。

研究结果表明，这两种隐式调优方法都能够在一定程度上产生指令遵循行为，甚至在某些情况下能够与显式指令调优模型相媲美。

响应调优的有效性

研究者使用 LIMA 数据集对模型进行响应调优，结果表明，响应调优模型在 AlpacaEval 2 上的评估中，与指令调优模型相比，有 43% 的胜率，在同等性能下则对应 50% 的胜率。

这表明，即使没有明确的指令信息，模型也能从响应数据中学习到指令-响应映射的隐式知识。

单任务调优的泛化能力

研究者发现，对单任务、窄域数据进行微调，例如将英语请求映射到 Python 代码，也能产生广泛的指令遵循行为。

例如，经过诗歌调优的 Llama-2-7B 在 AlpacaEval 2 中与经过指令调优的 Llama-2-7B 胜出 23.7%，而基础模型胜出率为 2.4%。

这表明，模型能够将从特定领域学习到的知识泛化到其他领域，即使这些领域在训练过程中没有被明确提及。

研究意义

这项研究表明，语言模型的指令遵循能力并非完全依赖显式指令，而是可以通过隐式学习的方式，从数据中学习到指令-响应映射的知识。

这对于提升语言模型的样本效率和泛化能力具有重要意义，也为未来研究语言模型的学习机制提供了新的思路。

研究者之一 John Hewitt 表示，这项研究是他加入哥伦比亚大学担任助理教授前的最后作品。

未来展望

这项研究为语言模型的隐式学习能力提供了新的证据，也为未来研究提供了新的方向。

随着研究的不断深入，相信我们能够更好地理解语言模型的学习机制，并开发出更加高效、智能的语言模型。