Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

北京 – 当DeepSeek的NSA与月之暗面的MoBA以稀疏注意力算法引领长序列技术浪潮之际,华为诺亚方舟实验室近日正式发布了其最新的研究成果——高效选择注意力架构ESA (Efficient Selective Attention)。这一创新算法的推出,无疑为大模型在长文本处理领域带来了新的突破,也标志着行业对“效率革命”的追逐进入了关键阶段。

这项研究成果已发表在预印本平台arXiv上,题为论文地址:https://arxiv.org/pdf/2502.14477

长序列处理的挑战与机遇

在大语言模型的推理过程中,长序列模型的训练需要消耗大量的算力资源,并依赖海量的数据支持。理想的解决方案是将短序列的训练成果外推到长序列,从而降低成本。然而,随着序列长度的增加,注意力计算的复杂度呈平方级增长,这使得高效且准确的长序列推理成为一大挑战。

为了应对这一挑战,研究人员提出了多种方法,例如稀疏注意力机制。这种机制的核心思想是,并非序列中的所有token都同等重要,因此可以通过选择性地关注关键token来降低计算量。

ESA:一种高效的选择性注意力架构

华为诺亚方舟实验室提出的ESA算法,正是在这一背景下应运而生。ESA通过稀疏化注意力的创新设计,突破了大模型在长文本处理中的瓶颈。它不仅实现了数倍序列长度的拓展,还引入了独创的动态计算范式,结合邻域影响力,有效避免了单纯选择 top-ranked token 所带来的性能损失。

ESA的关键在于,它通过对query和key的低维压缩,有效减少了token选择的计算复杂度。该方案灵活高效地选择关键token进行注意力计算,大幅度降低了LLMs在处理长文本时的计算负担,且在性能上与全注意力外推方法相当,甚至在高倍外推场景下优于全注意力算法,实现了上下文长度的有效扩展。

ESA的核心技术

ESA方法包含两个核心步骤:

  • 高效选择: ESA引入了一种基于query感知的token粒度选择机制,基于压缩后的query和key计算token的重要性分数,同时考虑周围token的影响(邻距影响力),以避免直接选择 top-ranked token 导致的性能下降。
  • 注意力计算: 在选择关键token后,ESA使用被选中的token的完整的query和key进行注意力计算,而非对所有前序token进行计算,从而大幅降低复杂度。

ESA的优势与创新

ESA的主要创新点在于通过token粒度选择性注意力机制,在保持模型准确率的同时显著降低计算复杂度。与现有的长序列外推方法不同,ESA提出了一种基于token的细粒度选择注意力,能够在prefilling和decoding阶段动态选择最关键的少量token,而不是固定block选择或者永久丢弃不重要的token。

具体来说,ESA将query和key经过简单的一层MLP压缩到原有维度的大约3.2%,在低维空间计算重要性分数,显著降低计算复杂度;其次,根据重要性分数选择topk的token,控制key的长度是固定的,这样将注意力计算由原有的平方复杂度降低为线性复杂度。

行业影响与未来展望

华为诺亚方舟实验室ESA算法的发布,无疑为稀疏注意力领域注入了新的活力。它不仅提供了一种高效的长序列处理解决方案,也为未来的研究方向提供了新的思路。随着大模型在各个领域的广泛应用,对长文本处理能力的需求将日益增长。ESA的出现,有望推动大模型在更广泛的场景中落地应用,例如:

  • 智能客服: 处理更长的对话历史,提供更精准的回复。
  • 金融分析: 分析更长的财务报告,挖掘更深层次的市场信息。
  • 法律咨询: 理解更复杂的法律文件,提供更专业的法律建议。

可以预见,随着ESA等高效稀疏注意力算法的不断发展,大模型将在长序列处理方面取得更大的突破,为人工智能的应用带来更广阔的前景。

参考文献


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注