闪电注意力-2：大语言模型长序列问题的终结者

1 月 27, 2024 #每日AI快讯, #注意力机制

新闻报道

**OpenNLPLab 团队发布新一代注意力机制 Lightning Attention-2，一劳永逸解决大语言模型长序列问题**

2023 年 3 月 8 日，OpenNLPLab 团队在 GitHub 上发布了新一代注意力机制 Lightning Attention-2。该机制旨在解决大语言模型在处理长序列文本时面临的训练和推理成本高昂的问题。

**背景：大语言模型与长序列问题**

大语言模型（LLM）是近年来自然语言处理领域备受关注的研究热点。LLM 具有强大的文本理解和生成能力，在机器翻译、文本摘要、问答系统等任务上取得了令人瞩目的成果。然而，LLM 在处理长序列文本时面临着巨大的挑战。

长序列文本的训练和推理成本非常高昂。这是因为传统的注意力机制在处理长序列文本时，需要计算每个 token 与所有其他 token 之间的注意力权重。这导致了计算复杂度和内存消耗呈平方级增长。

**Lightning Attention-2：一劳永逸的解决方案**

为了解决长序列问题，OpenNLPLab 团队提出了 Lightning Attention-2。Lightning Attention-2 是一种新型的线性注意力机制，它将注意力权重的计算复杂度和内存消耗从平方级降低到了线性级。

Lightning Attention-2 的核心思想是将注意力权重的计算分解为两个步骤：

1. 计算每个 token 与其局部窗口内的其他 token 之间的注意力权重。
2. 将局部窗口内的注意力权重进行归一化，得到最终的注意力权重。

这种分解策略大大降低了注意力权重的计算复杂度和内存消耗。同时，Lightning Attention-2 还能保持较高的注意力权重精度。

**实验结果：无限长度预训练与超低推理成本**

OpenNLPLab 团队在多个数据集上对 Lightning Attention-2 进行了实验。结果表明，Lightning Attention-2 在处理长序列文本时具有显著的优势。

在训练方面，Lightning Attention-2 使得无限长度预训练成为可能。在推理方面，Lightning Attention-2 将超长文本的推理成本降低到了与 1K Tokens 的成本一致甚至更少。

**意义：大语言模型的新时代**

Lightning Attention-2 的发布标志着大语言模型领域的新时代。Lightning Attention-2 将极大地降低大语言模型的训练和推理成本，从而使大语言模型能够处理更长序列的文本。这将为大语言模型在更多领域和任务上的应用铺平道路。

OpenNLPLab 团队表示，他们希望 Lightning Attention-2 能够成为大语言模型领域的基础设施，并为大语言模型的进一步发展做出贡献。

英语如下：

News

【来源】https://www.jiqizhixin.com/articles/2024-01-18-5