正文:
在人工智能和深度学习领域,注意力机制一直是Transformer架构的核心组成部分。长久以来,softmax函数因其广泛的应用和有效性而被普遍采用,但近期,这一状况可能发生改变。苹果公司的研究团队近期发表了一项研究,对传统的softmax注意力机制进行了重新审视,并提出了使用sigmoid注意力机制的替代方案。
【背景介绍】
注意力机制在Transformer架构中扮演着关键角色,它通过计算查询与所有键的点积,并使用softmax函数进行归一化,得到每个键对应的注意力权重。然而,softmax函数有时会导致注意力过度集中在少数几个特征上,忽略了其他信息。
【研究内容】
苹果的研究团队对sigmoid注意力进行了深入的理论和实验分析。研究表明,与softmax注意力相比,具有sigmoid注意力的Transformer不仅是一个通用函数逼近器,而且还能从改进的正则化中受益。
【创新点】
该研究提出了一种名为FLASHSIGMOID的硬件感知且内存高效的sigmoid注意力实现,它在H100 GPU上的推理内核速度比FLASHATTENTION2提高了17%。此外,通过扩展FLASHATTENTION2,使用sigmoid内核,该研究将内核推理挂钟时间减少了17%,现实世界推理时间减少了8%。
【实验验证】
跨语言、视觉和语音的实验表明,合理归一化的sigmoid注意力在广泛的领域和规模上,性能与softmax注意力相当。论文作者Jason Ramapuram表示,如果想要让注意力快大约18%,可以尝试使用sigmoid注意力机制。
【理论分析】
研究还证明了当SigmoidAttn取代SoftmaxAttn时,Transformer架构仍然是一个通用函数逼近器,并且SigmoidAttn的局部Lipschitz常数远低于SoftmaxAttn的最差局部Lipschitz常数,这表明了SigmoidAttn的正则性优于SoftmaxAttn。
【结论】
苹果的这一研究为注意力机制的改进提供了新的视角,挑战了传统的softmax方法,并为未来的深度学习模型设计提供了新的可能性。
参考文献:
– 论文地址:https://arxiv.org/pdf/2409.04431
– 项目地址:https://github.com/apple/ml-sigmoid-attention
– 论文标题:Theory, Analysis, and Best Practices for Sigmoid Self-Attention
本文由资深新闻媒体人根据最新研究整理报道,旨在为读者提供准确、深入的人工智能领域资讯。
Views: 0