“`markdown

深度学习新突破：无需归一化层的Transformer，何恺明、LeCun联手打造

纽约/北京 – 在人工智能领域，一项颠覆性的研究成果正在引发广泛关注。由Meta FAIR研究科学家刘壮领衔，联合深度学习泰斗何恺明以及图灵奖得主Yann LeCun共同参与的研究，成功地在Transformer架构中去除了归一化层，并取得了令人瞩目的成果。这项研究已被CVPR 2025接收，预示着深度学习模型设计可能迎来新的范式。

归一化层的“统治”地位

过去十年，归一化层已成为现代神经网络不可或缺的组成部分。自2015年批归一化（Batch Normalization）问世以来，它显著提升了视觉识别模型的收敛速度和性能，并衍生出众多变体。层归一化（Layer Normalization，LN）尤其在Transformer架构中占据主导地位。归一化层之所以被广泛应用，主要得益于其在优化方面的优势，能够加速和稳定模型训练。随着神经网络变得越来越深、越来越宽，研究人员普遍认为归一化层对于有效训练深度网络至关重要。

挑战传统：Transformer可以没有归一化层吗？

然而，这项新的研究成果挑战了这一传统观念。研究团队提出了一种简单有效的替代方案，旨在取代Transformer中的归一化层。他们的突破口在于对LN层行为的深入观察：LN层使用类似tanh函数的S形曲线将输入映射到输出，同时缩放输入激活并压缩极值。

基于这一观察，研究者提出了一种名为Dynamic Tanh（DyT）的元素级运算，其公式为：DyT (x) = tanh (αx)，其中α是一个可学习参数。DyT通过学习合适的缩放因子并通过有界的tanh函数压缩极值，从而模拟LN的行为。与归一化层不同，DyT无需计算激活数据的统计信息，就能实现这两种效果。

DyT：简单而强大的替代方案

研究人员直接用DyT替换了视觉和语言Transformer等架构中的现有归一化层。实验结果表明，使用DyT的模型在各种设置中都能稳定训练，并获得优异的性能。更重要的是，DyT通常不需要调整原始架构的训练超参数，且可以通过几行PyTorch代码轻松实现。

这项工作不仅挑战了“归一化层对训练现代神经网络必不可少”的观念，还提供了关于归一化层属性的实证见解。初步结果表明，DyT可以提升训练和推理速度，使其成为以效率为导向的网络设计的有力候选方案。

深入分析：归一化层的作用机制

为了深入了解归一化层的作用，研究团队对三个不同的预训练Transformer模型（ViT-B、wav2vec 2.0 Large Transformer和Diffusion Transformer (DiT-XL)）进行了实证研究。他们监测了归一化层的输入和输出，即归一化操作前后的张量。

研究发现，早期LN层的输入-输出关系基本上是线性的，而更深的LN层则表现出与tanh函数高度相似的S形曲线。这意味着LN层的主要作用是将“极端”值压缩为不太极端的值，使其与大多数点更接近。

展望未来：效率与成本的革命？

刘壮在社交媒体上表示，这项研究让他对归一化层的作用有了更深的理解。考虑到模型训练和推理需要巨大的算力资源，DyT有望降低成本，具有广阔的应用前景。

这项研究的成功，无疑为深度学习领域带来了新的思考和可能性。在追求更高性能的同时，如何提高模型的效率和降低成本，将成为未来研究的重要方向。DyT的出现，或许将引领一场深度学习模型设计的革命。

参考文献：

Zhu, J., Chen, X., & Liu, Z. (2025). Transformers without Normalization. CVPR 2025.
论文地址：https://arxiv.org/pdf/2503.10622
项目主页：https://jiachenzhu.github.io/DyT/
GitHub 地址：https://github.com/jiachenzhu/DyT
“`

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

何恺明联手LeCun，Transformer告别归一化？

作者智能小编

深度学习新突破：无需归一化层的Transformer，何恺明、LeCun联手打造

归一化层的“统治”地位

挑战传统：Transformer可以没有归一化层吗？

DyT：简单而强大的替代方案

深入分析：归一化层的作用机制

展望未来：效率与成本的革命？

相关文章

Veo 2发布：视频创作，触手可及！

Zhipu GLM Unveils New Open-Source Model Claims World-Class Performance Launches “z.ai

智谱GLM模型升级，比肩世界先进！

发表回复取消回复

为您推荐

Veo 2发布：视频创作，触手可及！

Zhipu GLM Unveils New Open-Source Model Claims World-Class Performance Launches “z.ai

智谱GLM模型升级，比肩世界先进！

OpenAI深夜重磅：GPT-4.1支持百万Token编程！

作者智能小编

深度学习新突破：无需归一化层的Transformer，何恺明、LeCun联手打造

归一化层的“统治”地位

挑战传统：Transformer可以没有归一化层吗？

DyT：简单而强大的替代方案

深入分析：归一化层的作用机制

展望未来：效率与成本的革命？

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复