大模型“超权重”：一去就崩盘？

大模型的“承重墙”：揭秘“超级权重”之谜

引言： 大模型时代，参数量膨胀至百万亿级别，模型越来越“聪明”，却也越来越“古怪”。最近，圣母大学和苹果的研究团队揭开了大模型性能背后一个令人惊奇的秘密——“超级权重”（Super Weight）。这些数量稀少却至关重要的权重，如同大模型的“承重墙”，一旦移除，模型便会“摆烂”，性能骤降。这项研究不仅加深了我们对大模型内部机制的理解，也为模型压缩和优化提供了新的思路。

主体：

一、 “超级权重”：大模型的隐形支柱

两年前，研究者们首次发现，在大模型中存在一小部分“超级权重”，它们虽然数量远少于模型中的其他权重，但却对模型的整体性能起着决定性作用。移除这些“超级权重”，模型的表现会急剧下降，甚至无法正常生成文本；而移除其他不重要的权重，则只会造成轻微的影响。苹果的研究团队进一步量化了这种影响：移除一个“超级权重”的影响，比移除其他 7000 个离群值权重的影响还要严重得多。这如同建筑中的承重墙，一旦移除，整座建筑都将面临坍塌的风险。

二、“超级权重”的特性与成因

研究发现，“超级权重”具有以下几个显著特征：

位置一致性: 不同的大模型，“超级权重”往往出现在相似的层级位置，这暗示着它们可能与模型的底层架构密切相关。
“超激活”现象: “超级权重”会放大输入 token激活的离群值，产生“超激活”（super activation）现象。无论输入是什么，这种“超激活”都以相同的幅度和位置持续存在。
跨层连接的影响: “超激活”现象与神经网络中的跨层连接密切相关。
对停用词的抑制: “超级权重”能够减少模型对常用但不重要的词汇（例如“的”、“这”、“了”）的注意力，从而提高生成文本的质量。

三、高效识别“超级权重”的新方法

为了更有效地识别“超级权重”，圣母大学和苹果的研究团队提出了一种基于激活峰值检测的新方法。该方法无需大量的验证数据或具体示例，只需输入一个提示词，即可通过分析层间降维投影输入和输出分布中的峰值来定位“超级权重”。这种方法的效率大大提高，为后续的模型优化提供了便利。该方法的核心在于利用了“超级权重”和“超激活”之间的关联：通过检测输入矩阵和权重矩阵中的异常值，从而间接定位“超级权重”。

四、“超级权重”的影响机制与案例研究

研究团队通过一系列实验，深入探究了“超级权重”的影响机制。他们发现，“超级权重”的影响并非完全通过“超激活”来实现，它还通过影响输出 token 的概率分布来发挥作用。移除“超级权重”后，停用词的生成概率会显著增加，导致模型生成质量下降，甚至出现胡言乱语的情况。一个具体的案例研究表明，在预测“Winter is …”的下一个词时，原始模型以 81.4% 的概率正确预测“cold”，而移除“超级权重”后，“the”成为预测概率最高的词，仅为 9.0%。

五、对模型量化和优化的启示

研究团队还将“超级权重”的概念应用于模型量化技术。他们改进的 round-to-nearest quantization (RNQ) 技术，能够有效处理“超级权重”等异常值，在模型压缩的同时，保持较好的性能。这为模型的轻量化和部署提供了新的方向。实验结果显示，适度放大“超级权重”的幅值，甚至可以提升模型的准确率。

结论：

“超级权重”的发现，为我们理解大模型的内部机制提供了新的视角。它如同大模型的“承重墙”，对模型性能至关重要。这项研究不仅加深了我们对大模型复杂性的认识，也为模型压缩、量化以及优化提供了新的思路和方法。未来研究可以进一步探索“超级权重”的形成机制、其与模型架构和训练过程的关系，以及如何更好地利用“超级权重”来提升模型性能和效率。苹果公司将宝押在小模型上，或许也正是基于对“超级权重”等关键因素的深入理解。

参考文献：