苹果重新审视Transformer架构核心：注意力机制变革？

作者智能小编

9 月 19, 2024 #机器之心, #注意力, #苹果

shanghai

正文：

在人工智能和深度学习领域，注意力机制一直是Transformer架构的核心组成部分。长久以来，softmax函数因其广泛的应用和有效性而被普遍采用，但近期，这一状况可能发生改变。苹果公司的研究团队近期发表了一项研究，对传统的softmax注意力机制进行了重新审视，并提出了使用sigmoid注意力机制的替代方案。

【背景介绍】
注意力机制在Transformer架构中扮演着关键角色，它通过计算查询与所有键的点积，并使用softmax函数进行归一化，得到每个键对应的注意力权重。然而，softmax函数有时会导致注意力过度集中在少数几个特征上，忽略了其他信息。

【研究内容】
苹果的研究团队对sigmoid注意力进行了深入的理论和实验分析。研究表明，与softmax注意力相比，具有sigmoid注意力的Transformer不仅是一个通用函数逼近器，而且还能从改进的正则化中受益。

【创新点】
该研究提出了一种名为FLASHSIGMOID的硬件感知且内存高效的sigmoid注意力实现，它在H100 GPU上的推理内核速度比FLASHATTENTION2提高了17%。此外，通过扩展FLASHATTENTION2，使用sigmoid内核，该研究将内核推理挂钟时间减少了17%，现实世界推理时间减少了8%。

【实验验证】
跨语言、视觉和语音的实验表明，合理归一化的sigmoid注意力在广泛的领域和规模上，性能与softmax注意力相当。论文作者Jason Ramapuram表示，如果想要让注意力快大约18%，可以尝试使用sigmoid注意力机制。

【理论分析】
研究还证明了当SigmoidAttn取代SoftmaxAttn时，Transformer架构仍然是一个通用函数逼近器，并且SigmoidAttn的局部Lipschitz常数远低于SoftmaxAttn的最差局部Lipschitz常数，这表明了SigmoidAttn的正则性优于SoftmaxAttn。

【结论】
苹果的这一研究为注意力机制的改进提供了新的视角，挑战了传统的softmax方法，并为未来的深度学习模型设计提供了新的可能性。

参考文献：
– 论文地址：https://arxiv.org/pdf/2409.04431
– 项目地址：https://github.com/apple/ml-sigmoid-attention
– 论文标题：Theory, Analysis, and Best Practices for Sigmoid Self-Attention

本文由资深新闻媒体人根据最新研究整理报道，旨在为读者提供准确、深入的人工智能领域资讯。

>>> Read more <<<

智能新闻

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

苹果重新审视Transformer架构核心：注意力机制变革？

作者智能小编

相关文章

Gemini 2.5升级！挑战Veo 2，AI视频大战爆发

Gemini 2.5 震撼登场：Pro、Flash 与优化器齐发！

人形机器人：资本狂涌，亿元融资成常态

发表回复取消回复

为您推荐

Gemini 2.5升级！挑战Veo 2，AI视频大战爆发

Gemini 2.5 震撼登场：Pro、Flash 与优化器齐发！

人形机器人：资本狂涌，亿元融资成常态

Tariff Fears Tesla Halts Sales of Top Models in China

作者智能小编

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复