Meta加速AI推理：LayerSkip技术问世

LayerSkip：Meta 推出加速大型语言模型推理的新技术

引言

大型语言模型（LLMs）在自然语言处理领域取得了巨大进步，但其推理过程通常需要大量的计算资源和时间。Meta 近期发布了名为 LayerSkip 的新技术，旨在加速 LLMs 的推理过程，提高模型的效率和速度。LayerSkip 通过在训练阶段应用层 dropout 和早期退出损失，让模型在推理时从早期层开始更准确地退出，从而减少需要遍历的层数，提高推理速度。

LayerSkip 的核心功能

LayerSkip 的主要功能包括：

加速大型语言模型的推理： LayerSkip 通过减少模型在生成输出时需要遍历的层数，显著提高模型的推理速度。
早期退出推理： 在训练期间应用层 dropout 和早期退出损失，让模型在推理时从早期层准确退出，不必用所有层。
自我推测解码： LayerSkip 提出一种自我推测解码方法，支持模型在早期层生成预测，用剩余层进行验证和纠正，提高解码效率。

LayerSkip 的技术原理

LayerSkip 的技术原理基于以下三个关键方面：

层 dropout：在训练期间，LayerSkip 对不同的模型层用不同的 dropout 率，早期层的 dropout 率较低，后期层的 dropout 率较高。差异化的 dropout 策略鼓励模型在早期层学习更多的通用特征，减少对深层的依赖。
早期退出损失： 为提高早期层的预测准确性，LayerSkip 在训练时引入早期退出损失，让模型的输出层（LM 头）更好地处理自早期层的嵌入。
自我推测解码： 在推理时，LayerSkip 用早期层快速生成预测（草案），用模型的剩余层验证和纠正预测。方法基于验证一组令牌比自回归地生成每个令牌更快的事实，减少整体的推理时间。

LayerSkip 的应用场景

LayerSkip 在各种需要快速推理的场景中具有广泛的应用价值，包括：