Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

NEWS 新闻NEWS 新闻
0

旧金山 – 在自然语言处理领域,Transformer模型及其注意力机制一直是研究的热点。然而,当处理包含大量Token的上下文时,标准注意力机制往往难以精准捕捉关键信息,忽略干扰因素。近日,Meta公司发布了一种名为Multi-Token Attention (MTA) 的新型Transformer注意力机制,旨在突破传统注意力机制的瓶颈,提升模型在复杂上下文中的表现。

标准注意力的局限性

标准多头注意力机制通过计算查询向量与上下文Token对应的键向量之间的点积相似性来确定注意力权重。与查询相似的关键字会获得更高的权重,从而影响输出向量。例如,当查询向量与“Alice”Token相关时,模型可以定位上下文中所有提及“Alice”的内容。然而,这种机制的根本限制在于,每个注意力权重仅取决于单个关键字和查询向量,这使得模型难以识别需要多个Token共同表达的上下文信息。

例如,要查找同时提到“Alice”和“rabbit”的句子,查询向量需要同时编码这两个Token的信息。虽然可以通过Transformer的层将多个Token编码成一个向量,但这需要增加模型维度,并消耗大量计算资源。

Multi-Token Attention的创新

为了解决上述问题,Meta的研究人员提出了Multi-Token Attention (MTA),其核心思想是利用多个向量对的相似性来确定注意力集中的位置。MTA通过对现有注意力机制进行简单的修改来实现这一目标,即在注意力权重上进行卷积运算,该运算在键、查询和注意力头三个维度上运行。这种设计允许注意力权重以相邻键、之前的查询和其他头为条件。

具体来说,MTA可以先分别查找“Alice”和“rabbit”的提及,然后将这些注意力组合在一起,只关注两者同时存在的地方。

MTA的技术细节

MTA由三个关键部分组成:

  • 键-查询卷积(key-query convolution): 在注意力logit上进行卷积操作,结合来自多个查询和键Token的信息。
  • 头混合卷积(head mixing convolution): 在头组中使用头卷积,将不同头的注意力权重组合起来,实现跨头信息共享。
  • 带深度缩放的组归一化: 抵消残差流,改善梯度流。

实验结果与结论

研究人员通过一系列实验验证了MTA的有效性。首先,在一个玩具任务中,MTA轻松解决了标准注意力机制难以处理的问题。其次,在一个包含1050亿个词库的880M参数模型上进行预训练,结果表明MTA在验证复杂度和标准基准任务方面都有所改进,而参数数量仅增加了0.001%。此外,在长语境任务(如Needle-in-the-Haystack和BabiLong)上,MTA的表现也明显优于基线模型。

未来展望

Multi-Token Attention的提出为Transformer模型的注意力机制带来了新的思路,有望在自然语言处理领域取得更广泛的应用。该研究表明,通过对现有注意力机制进行巧妙的改进,可以有效提升模型在复杂上下文中的表现。未来,我们可以期待更多基于MTA的创新应用,例如在机器翻译、文本摘要和对话生成等领域。

参考文献

(本文部分信息来源于机器之心报道)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注