华为诺亚ESA：稀疏注意力再添效率引擎

北京 – 当DeepSeek的NSA与月之暗面的MoBA以稀疏注意力算法引领长序列技术浪潮之际，华为诺亚方舟实验室近日正式发布了其最新的研究成果——高效选择注意力架构ESA (Efficient Selective Attention)。这一创新算法的推出，无疑为大模型在长文本处理领域带来了新的突破，也标志着行业对“效率革命”的追逐进入了关键阶段。

这项研究成果已发表在预印本平台arXiv上，题为论文地址：https://arxiv.org/pdf/2502.14477。

长序列处理的挑战与机遇

在大语言模型的推理过程中，长序列模型的训练需要消耗大量的算力资源，并依赖海量的数据支持。理想的解决方案是将短序列的训练成果外推到长序列，从而降低成本。然而，随着序列长度的增加，注意力计算的复杂度呈平方级增长，这使得高效且准确的长序列推理成为一大挑战。

为了应对这一挑战，研究人员提出了多种方法，例如稀疏注意力机制。这种机制的核心思想是，并非序列中的所有token都同等重要，因此可以通过选择性地关注关键token来降低计算量。

ESA：一种高效的选择性注意力架构

华为诺亚方舟实验室提出的ESA算法，正是在这一背景下应运而生。ESA通过稀疏化注意力的创新设计，突破了大模型在长文本处理中的瓶颈。它不仅实现了数倍序列长度的拓展，还引入了独创的动态计算范式，结合邻域影响力，有效避免了单纯选择 top-ranked token 所带来的性能损失。

ESA的关键在于，它通过对query和key的低维压缩，有效减少了token选择的计算复杂度。该方案灵活高效地选择关键token进行注意力计算，大幅度降低了LLMs在处理长文本时的计算负担，且在性能上与全注意力外推方法相当，甚至在高倍外推场景下优于全注意力算法，实现了上下文长度的有效扩展。

ESA的核心技术

ESA方法包含两个核心步骤：

高效选择： ESA引入了一种基于query感知的token粒度选择机制，基于压缩后的query和key计算token的重要性分数，同时考虑周围token的影响（邻距影响力），以避免直接选择 top-ranked token 导致的性能下降。
注意力计算： 在选择关键token后，ESA使用被选中的token的完整的query和key进行注意力计算，而非对所有前序token进行计算，从而大幅降低复杂度。

ESA的优势与创新

ESA的主要创新点在于通过token粒度选择性注意力机制，在保持模型准确率的同时显著降低计算复杂度。与现有的长序列外推方法不同，ESA提出了一种基于token的细粒度选择注意力，能够在prefilling和decoding阶段动态选择最关键的少量token，而不是固定block选择或者永久丢弃不重要的token。

具体来说，ESA将query和key经过简单的一层MLP压缩到原有维度的大约3.2%，在低维空间计算重要性分数，显著降低计算复杂度；其次，根据重要性分数选择topk的token，控制key的长度是固定的，这样将注意力计算由原有的平方复杂度降低为线性复杂度。

行业影响与未来展望

华为诺亚方舟实验室ESA算法的发布，无疑为稀疏注意力领域注入了新的活力。它不仅提供了一种高效的长序列处理解决方案，也为未来的研究方向提供了新的思路。随着大模型在各个领域的广泛应用，对长文本处理能力的需求将日益增长。ESA的出现，有望推动大模型在更广泛的场景中落地应用，例如：

智能客服： 处理更长的对话历史，提供更精准的回复。
金融分析： 分析更长的财务报告，挖掘更深层次的市场信息。
法律咨询： 理解更复杂的法律文件，提供更专业的法律建议。

可以预见，随着ESA等高效稀疏注意力算法的不断发展，大模型将在长序列处理方面取得更大的突破，为人工智能的应用带来更广阔的前景。

参考文献

论文地址：https://arxiv.org/pdf/2502.14477
机器之心报道：https://www.jiqizhixin.com/

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

华为诺亚ESA：稀疏注意力再添效率引擎

作者智能小编

相关文章

Next.js Apps Soar Deploying on Cloudflare Workers with New Adapter

Next.js拥抱Cloudflare，部署新选择！

Manim：UI动画新利器，惊艳视觉呈现

发表回复取消回复

为您推荐