Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

shanghaishanghai
0

正文:

在人工智能和深度学习领域,注意力机制一直是Transformer架构的核心组成部分。长久以来,softmax函数因其广泛的应用和有效性而被普遍采用,但近期,这一状况可能发生改变。苹果公司的研究团队近期发表了一项研究,对传统的softmax注意力机制进行了重新审视,并提出了使用sigmoid注意力机制的替代方案。

【背景介绍】
注意力机制在Transformer架构中扮演着关键角色,它通过计算查询与所有键的点积,并使用softmax函数进行归一化,得到每个键对应的注意力权重。然而,softmax函数有时会导致注意力过度集中在少数几个特征上,忽略了其他信息。

【研究内容】
苹果的研究团队对sigmoid注意力进行了深入的理论和实验分析。研究表明,与softmax注意力相比,具有sigmoid注意力的Transformer不仅是一个通用函数逼近器,而且还能从改进的正则化中受益。

【创新点】
该研究提出了一种名为FLASHSIGMOID的硬件感知且内存高效的sigmoid注意力实现,它在H100 GPU上的推理内核速度比FLASHATTENTION2提高了17%。此外,通过扩展FLASHATTENTION2,使用sigmoid内核,该研究将内核推理挂钟时间减少了17%,现实世界推理时间减少了8%。

【实验验证】
跨语言、视觉和语音的实验表明,合理归一化的sigmoid注意力在广泛的领域和规模上,性能与softmax注意力相当。论文作者Jason Ramapuram表示,如果想要让注意力快大约18%,可以尝试使用sigmoid注意力机制。

【理论分析】
研究还证明了当SigmoidAttn取代SoftmaxAttn时,Transformer架构仍然是一个通用函数逼近器,并且SigmoidAttn的局部Lipschitz常数远低于SoftmaxAttn的最差局部Lipschitz常数,这表明了SigmoidAttn的正则性优于SoftmaxAttn。

【结论】
苹果的这一研究为注意力机制的改进提供了新的视角,挑战了传统的softmax方法,并为未来的深度学习模型设计提供了新的可能性。

参考文献:
– 论文地址:https://arxiv.org/pdf/2409.04431
– 项目地址:https://github.com/apple/ml-sigmoid-attention
– 论文标题:Theory, Analysis, and Best Practices for Sigmoid Self-Attention

本文由资深新闻媒体人根据最新研究整理报道,旨在为读者提供准确、深入的人工智能领域资讯。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注