Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

引言:

在人工智能领域,大型语言模型(LLMs)的崛起无疑是近年来最引人瞩目的技术突破之一。然而,这些模型在展现强大能力的同时,其庞大的计算需求和推理延迟也成为了制约其广泛应用的关键瓶颈。近日,中国电信翼支付团队在这一难题上取得了重大进展,其最新的研究成果——名为“Falcon”的推理加速框架,被人工智能顶级学术会议AAAI 2025接收。这项创新技术不仅将LLMs的推理速度提升了高达3.5倍,更将成本大幅降低,为大模型的实际应用开启了新的可能性。

正文:

大模型推理的挑战与现有解决方案的局限

大型语言模型,如GPT系列,在文本生成、语言理解等任务中表现卓越,但其自回归(AR)解码方式却导致了推理过程中的巨大计算开销和延迟。为了解决这一问题,研究人员提出了“投机解码”(Speculative Decoding)方法。该方法利用一个轻量级的“草稿模型”(Draft Model)快速生成候选的token序列,再由原始的“目标模型”(Target Model)进行验证,从而实现并行解码,降低了对目标模型参数的频繁访问,提升了整体效率。

然而,现有的投机解码方法仍存在不足。主要的草稿策略分为自回归(AR)和半自回归(SAR)两种。AR策略逐个生成token,受限于顺序依赖关系,并行度较低。SAR策略虽然可以同时生成多个token,但无法完全捕捉同一区块内token之间的依赖关系,导致生成的token接受率不高。因此,如何在降低草稿延迟的同时,保证较高的推测准确性,成为一个亟待解决的挑战。

Falcon:增强半自回归投机解码框架的诞生

针对上述挑战,中国电信翼支付团队提出了Falcon框架。Falcon是一种增强的半自回归(SAR)投机解码框架,旨在提高草稿模型的并行性和输出质量,从而提升LLMs的推理效率。该框架的核心创新在于:

  1. 耦合序列窥视蒸馏(Coupled Sequential Glancing Distillation,CSGD): Falcon引入了CSGD方法,通过用真实的token和隐藏状态替换部分初始预测,将正确信息重新注入解码过程,从而提高了后续预测的准确性和连贯性。这一机制有效提升了SAR草稿模型的token接受率。

  2. 定制设计的解码树: Falcon设计了一种专门的解码树,支持SAR采样,使得草稿模型可以在一次前向传播中生成多个token,并支持多次前向传播。这种设计进一步提高了LLMs对token的接受率,从而加快了推理速度。

Falcon框架的架构与工作原理

Falcon框架主要由三个组件构成:嵌入层(Embedding Layer)、语言模型头(LM-Head)和半自回归解码头。其工作原理如下:

  1. 并行预测: Falcon将前一个时间步的连续特征序列和当前token序列连接起来,同时预测接下来的k个标记。例如,当k=2时,Falcon使用初始特征序列(f1, f2)和提前一个时间步长的标记序列(t2, t3)来预测特征序列(f3, f4)。
  2. 迭代预测: 随后,将预测得到的特征(f3, f4)与下一个标记序列(t4, t5)连接,形成新的输入序列,用于预测后续的特征序列(f5, f6)和标记序列(t6, t7),从而促进草稿过程的继续。
  3. 树状结构验证: 草稿模型多次前向传播后生成的token被组织成树结构,输入到目标模型中进行验证。通过验证的token被目标模型接受,并在此基础上开始下一个循环。

实验结果与实际应用

实验结果表明,Falcon框架在多种数据集上取得了显著的加速效果,实现了约2.91-3.51倍的加速比。更重要的是,Falcon的成本也大幅降低,这使得LLMs在实际应用中更具可行性。目前,Falcon已经被应用于翼支付的多个实际业务中,充分证明了其在现实场景中的有效性和价值。

结论:

中国电信翼支付团队的Falcon框架为大型语言模型的推理加速提供了一种全新的、高效的解决方案。通过增强半自回归投机解码框架,Falcon不仅大幅提高了推理速度,还降低了计算成本,为大模型的广泛应用扫清了障碍。这项研究成果的发表,无疑将推动人工智能领域的发展,并为未来的研究方向提供了新的思路。

参考文献:

(注:由于是新闻稿,此处参考文献仅列出主要来源,未采用学术论文的详细引用格式)

后记:

作为一名资深新闻记者,我深知科技创新对于社会发展的重要性。中国电信翼支付团队在LLMs推理加速方面的突破,不仅是一项技术上的进步,更是对人工智能未来发展方向的一次重要探索。我相信,随着更多类似创新成果的涌现,人工智能将更好地服务于人类,为社会带来更多福祉。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注