“`markdown
深度学习新突破:无需归一化层的Transformer,何恺明、LeCun联手打造
纽约/北京 – 在人工智能领域,一项颠覆性的研究成果正在引发广泛关注。由Meta FAIR研究科学家刘壮领衔,联合深度学习泰斗何恺明以及图灵奖得主Yann LeCun共同参与的研究,成功地在Transformer架构中去除了归一化层,并取得了令人瞩目的成果。这项研究已被CVPR 2025接收,预示着深度学习模型设计可能迎来新的范式。
归一化层的“统治”地位
过去十年,归一化层已成为现代神经网络不可或缺的组成部分。自2015年批归一化(Batch Normalization)问世以来,它显著提升了视觉识别模型的收敛速度和性能,并衍生出众多变体。层归一化(Layer Normalization,LN)尤其在Transformer架构中占据主导地位。归一化层之所以被广泛应用,主要得益于其在优化方面的优势,能够加速和稳定模型训练。随着神经网络变得越来越深、越来越宽,研究人员普遍认为归一化层对于有效训练深度网络至关重要。
挑战传统:Transformer可以没有归一化层吗?
然而,这项新的研究成果挑战了这一传统观念。研究团队提出了一种简单有效的替代方案,旨在取代Transformer中的归一化层。他们的突破口在于对LN层行为的深入观察:LN层使用类似tanh函数的S形曲线将输入映射到输出,同时缩放输入激活并压缩极值。
基于这一观察,研究者提出了一种名为Dynamic Tanh(DyT)的元素级运算,其公式为:DyT (x) = tanh (αx)
,其中α是一个可学习参数。DyT通过学习合适的缩放因子并通过有界的tanh函数压缩极值,从而模拟LN的行为。与归一化层不同,DyT无需计算激活数据的统计信息,就能实现这两种效果。
DyT:简单而强大的替代方案
研究人员直接用DyT替换了视觉和语言Transformer等架构中的现有归一化层。实验结果表明,使用DyT的模型在各种设置中都能稳定训练,并获得优异的性能。更重要的是,DyT通常不需要调整原始架构的训练超参数,且可以通过几行PyTorch代码轻松实现。
这项工作不仅挑战了“归一化层对训练现代神经网络必不可少”的观念,还提供了关于归一化层属性的实证见解。初步结果表明,DyT可以提升训练和推理速度,使其成为以效率为导向的网络设计的有力候选方案。
深入分析:归一化层的作用机制
为了深入了解归一化层的作用,研究团队对三个不同的预训练Transformer模型(ViT-B、wav2vec 2.0 Large Transformer和Diffusion Transformer (DiT-XL))进行了实证研究。他们监测了归一化层的输入和输出,即归一化操作前后的张量。
研究发现,早期LN层的输入-输出关系基本上是线性的,而更深的LN层则表现出与tanh函数高度相似的S形曲线。这意味着LN层的主要作用是将“极端”值压缩为不太极端的值,使其与大多数点更接近。
展望未来:效率与成本的革命?
刘壮在社交媒体上表示,这项研究让他对归一化层的作用有了更深的理解。考虑到模型训练和推理需要巨大的算力资源,DyT有望降低成本,具有广阔的应用前景。
这项研究的成功,无疑为深度学习领域带来了新的思考和可能性。在追求更高性能的同时,如何提高模型的效率和降低成本,将成为未来研究的重要方向。DyT的出现,或许将引领一场深度学习模型设计的革命。
参考文献:
- Zhu, J., Chen, X., & Liu, Z. (2025). Transformers without Normalization. CVPR 2025.
- 论文地址:https://arxiv.org/pdf/2503.10622
- 项目主页:https://jiachenzhu.github.io/DyT/
- GitHub 地址:https://github.com/jiachenzhu/DyT
“`
Views: 0