Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

NEWS 新闻NEWS 新闻
0

“`markdown

深度学习新突破:无需归一化层的Transformer,何恺明、LeCun联手打造

纽约/北京 – 在人工智能领域,一项颠覆性的研究成果正在引发广泛关注。由Meta FAIR研究科学家刘壮领衔,联合深度学习泰斗何恺明以及图灵奖得主Yann LeCun共同参与的研究,成功地在Transformer架构中去除了归一化层,并取得了令人瞩目的成果。这项研究已被CVPR 2025接收,预示着深度学习模型设计可能迎来新的范式。

归一化层的“统治”地位

过去十年,归一化层已成为现代神经网络不可或缺的组成部分。自2015年批归一化(Batch Normalization)问世以来,它显著提升了视觉识别模型的收敛速度和性能,并衍生出众多变体。层归一化(Layer Normalization,LN)尤其在Transformer架构中占据主导地位。归一化层之所以被广泛应用,主要得益于其在优化方面的优势,能够加速和稳定模型训练。随着神经网络变得越来越深、越来越宽,研究人员普遍认为归一化层对于有效训练深度网络至关重要。

挑战传统:Transformer可以没有归一化层吗?

然而,这项新的研究成果挑战了这一传统观念。研究团队提出了一种简单有效的替代方案,旨在取代Transformer中的归一化层。他们的突破口在于对LN层行为的深入观察:LN层使用类似tanh函数的S形曲线将输入映射到输出,同时缩放输入激活并压缩极值。

基于这一观察,研究者提出了一种名为Dynamic Tanh(DyT)的元素级运算,其公式为:DyT (x) = tanh (αx),其中α是一个可学习参数。DyT通过学习合适的缩放因子并通过有界的tanh函数压缩极值,从而模拟LN的行为。与归一化层不同,DyT无需计算激活数据的统计信息,就能实现这两种效果。

DyT:简单而强大的替代方案

研究人员直接用DyT替换了视觉和语言Transformer等架构中的现有归一化层。实验结果表明,使用DyT的模型在各种设置中都能稳定训练,并获得优异的性能。更重要的是,DyT通常不需要调整原始架构的训练超参数,且可以通过几行PyTorch代码轻松实现。

这项工作不仅挑战了“归一化层对训练现代神经网络必不可少”的观念,还提供了关于归一化层属性的实证见解。初步结果表明,DyT可以提升训练和推理速度,使其成为以效率为导向的网络设计的有力候选方案。

深入分析:归一化层的作用机制

为了深入了解归一化层的作用,研究团队对三个不同的预训练Transformer模型(ViT-B、wav2vec 2.0 Large Transformer和Diffusion Transformer (DiT-XL))进行了实证研究。他们监测了归一化层的输入和输出,即归一化操作前后的张量。

研究发现,早期LN层的输入-输出关系基本上是线性的,而更深的LN层则表现出与tanh函数高度相似的S形曲线。这意味着LN层的主要作用是将“极端”值压缩为不太极端的值,使其与大多数点更接近。

展望未来:效率与成本的革命?

刘壮在社交媒体上表示,这项研究让他对归一化层的作用有了更深的理解。考虑到模型训练和推理需要巨大的算力资源,DyT有望降低成本,具有广阔的应用前景。

这项研究的成功,无疑为深度学习领域带来了新的思考和可能性。在追求更高性能的同时,如何提高模型的效率和降低成本,将成为未来研究的重要方向。DyT的出现,或许将引领一场深度学习模型设计的革命。

参考文献:


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注