北京 – 当DeepSeek的NSA与月之暗面的MoBA以稀疏注意力算法引领长序列技术浪潮之际,华为诺亚方舟实验室近日正式发布了其最新的研究成果——高效选择注意力架构ESA (Efficient Selective Attention)。这一创新算法的推出,无疑为大模型在长文本处理领域带来了新的突破,也标志着行业对“效率革命”的追逐进入了关键阶段。
这项研究成果已发表在预印本平台arXiv上,题为论文地址:https://arxiv.org/pdf/2502.14477。
长序列处理的挑战与机遇
在大语言模型的推理过程中,长序列模型的训练需要消耗大量的算力资源,并依赖海量的数据支持。理想的解决方案是将短序列的训练成果外推到长序列,从而降低成本。然而,随着序列长度的增加,注意力计算的复杂度呈平方级增长,这使得高效且准确的长序列推理成为一大挑战。
为了应对这一挑战,研究人员提出了多种方法,例如稀疏注意力机制。这种机制的核心思想是,并非序列中的所有token都同等重要,因此可以通过选择性地关注关键token来降低计算量。
ESA:一种高效的选择性注意力架构
华为诺亚方舟实验室提出的ESA算法,正是在这一背景下应运而生。ESA通过稀疏化注意力的创新设计,突破了大模型在长文本处理中的瓶颈。它不仅实现了数倍序列长度的拓展,还引入了独创的动态计算范式,结合邻域影响力,有效避免了单纯选择 top-ranked token 所带来的性能损失。
ESA的关键在于,它通过对query和key的低维压缩,有效减少了token选择的计算复杂度。该方案灵活高效地选择关键token进行注意力计算,大幅度降低了LLMs在处理长文本时的计算负担,且在性能上与全注意力外推方法相当,甚至在高倍外推场景下优于全注意力算法,实现了上下文长度的有效扩展。
ESA的核心技术
ESA方法包含两个核心步骤:
- 高效选择: ESA引入了一种基于query感知的token粒度选择机制,基于压缩后的query和key计算token的重要性分数,同时考虑周围token的影响(邻距影响力),以避免直接选择 top-ranked token 导致的性能下降。
- 注意力计算: 在选择关键token后,ESA使用被选中的token的完整的query和key进行注意力计算,而非对所有前序token进行计算,从而大幅降低复杂度。
ESA的优势与创新
ESA的主要创新点在于通过token粒度选择性注意力机制,在保持模型准确率的同时显著降低计算复杂度。与现有的长序列外推方法不同,ESA提出了一种基于token的细粒度选择注意力,能够在prefilling和decoding阶段动态选择最关键的少量token,而不是固定block选择或者永久丢弃不重要的token。
具体来说,ESA将query和key经过简单的一层MLP压缩到原有维度的大约3.2%,在低维空间计算重要性分数,显著降低计算复杂度;其次,根据重要性分数选择topk的token,控制key的长度是固定的,这样将注意力计算由原有的平方复杂度降低为线性复杂度。
行业影响与未来展望
华为诺亚方舟实验室ESA算法的发布,无疑为稀疏注意力领域注入了新的活力。它不仅提供了一种高效的长序列处理解决方案,也为未来的研究方向提供了新的思路。随着大模型在各个领域的广泛应用,对长文本处理能力的需求将日益增长。ESA的出现,有望推动大模型在更广泛的场景中落地应用,例如:
- 智能客服: 处理更长的对话历史,提供更精准的回复。
- 金融分析: 分析更长的财务报告,挖掘更深层次的市场信息。
- 法律咨询: 理解更复杂的法律文件,提供更专业的法律建议。
可以预见,随着ESA等高效稀疏注意力算法的不断发展,大模型将在长序列处理方面取得更大的突破,为人工智能的应用带来更广阔的前景。
参考文献
Views: 0