AAAI 2025：大模型推理提速3.5倍，成本骤降至三分之一

引言：

在人工智能领域，大型语言模型（LLMs）的崛起无疑是近年来最引人瞩目的技术突破之一。然而，这些模型在展现强大能力的同时，其庞大的计算需求和推理延迟也成为了制约其广泛应用的关键瓶颈。近日，中国电信翼支付团队在这一难题上取得了重大进展，其最新的研究成果——名为“Falcon”的推理加速框架，被人工智能顶级学术会议AAAI 2025接收。这项创新技术不仅将LLMs的推理速度提升了高达3.5倍，更将成本大幅降低，为大模型的实际应用开启了新的可能性。

正文：

大模型推理的挑战与现有解决方案的局限

大型语言模型，如GPT系列，在文本生成、语言理解等任务中表现卓越，但其自回归（AR）解码方式却导致了推理过程中的巨大计算开销和延迟。为了解决这一问题，研究人员提出了“投机解码”（Speculative Decoding）方法。该方法利用一个轻量级的“草稿模型”（Draft Model）快速生成候选的token序列，再由原始的“目标模型”（Target Model）进行验证，从而实现并行解码，降低了对目标模型参数的频繁访问，提升了整体效率。

然而，现有的投机解码方法仍存在不足。主要的草稿策略分为自回归（AR）和半自回归（SAR）两种。AR策略逐个生成token，受限于顺序依赖关系，并行度较低。SAR策略虽然可以同时生成多个token，但无法完全捕捉同一区块内token之间的依赖关系，导致生成的token接受率不高。因此，如何在降低草稿延迟的同时，保证较高的推测准确性，成为一个亟待解决的挑战。

Falcon：增强半自回归投机解码框架的诞生

针对上述挑战，中国电信翼支付团队提出了Falcon框架。Falcon是一种增强的半自回归（SAR）投机解码框架，旨在提高草稿模型的并行性和输出质量，从而提升LLMs的推理效率。该框架的核心创新在于：

耦合序列窥视蒸馏（Coupled Sequential Glancing Distillation，CSGD）： Falcon引入了CSGD方法，通过用真实的token和隐藏状态替换部分初始预测，将正确信息重新注入解码过程，从而提高了后续预测的准确性和连贯性。这一机制有效提升了SAR草稿模型的token接受率。
定制设计的解码树： Falcon设计了一种专门的解码树，支持SAR采样，使得草稿模型可以在一次前向传播中生成多个token，并支持多次前向传播。这种设计进一步提高了LLMs对token的接受率，从而加快了推理速度。

Falcon框架的架构与工作原理

Falcon框架主要由三个组件构成：嵌入层（Embedding Layer）、语言模型头（LM-Head）和半自回归解码头。其工作原理如下：

并行预测： Falcon将前一个时间步的连续特征序列和当前token序列连接起来，同时预测接下来的k个标记。例如，当k=2时，Falcon使用初始特征序列(f1, f2)和提前一个时间步长的标记序列(t2, t3)来预测特征序列(f3, f4)。
迭代预测： 随后，将预测得到的特征(f3, f4)与下一个标记序列(t4, t5)连接，形成新的输入序列，用于预测后续的特征序列(f5, f6)和标记序列(t6, t7)，从而促进草稿过程的继续。
树状结构验证： 草稿模型多次前向传播后生成的token被组织成树结构，输入到目标模型中进行验证。通过验证的token被目标模型接受，并在此基础上开始下一个循环。

实验结果与实际应用

实验结果表明，Falcon框架在多种数据集上取得了显著的加速效果，实现了约2.91-3.51倍的加速比。更重要的是，Falcon的成本也大幅降低，这使得LLMs在实际应用中更具可行性。目前，Falcon已经被应用于翼支付的多个实际业务中，充分证明了其在现实场景中的有效性和价值。

结论：

中国电信翼支付团队的Falcon框架为大型语言模型的推理加速提供了一种全新的、高效的解决方案。通过增强半自回归投机解码框架，Falcon不仅大幅提高了推理速度，还降低了计算成本，为大模型的广泛应用扫清了障碍。这项研究成果的发表，无疑将推动人工智能领域的发展，并为未来的研究方向提供了新的思路。

参考文献：

论文地址：https://arxiv.org/pdf/2412.12639
机器之心报道：https://www.jiqizhixin.com/articles/2025-01-08-7

（注：由于是新闻稿，此处参考文献仅列出主要来源，未采用学术论文的详细引用格式）

后记：

作为一名资深新闻记者，我深知科技创新对于社会发展的重要性。中国电信翼支付团队在LLMs推理加速方面的突破，不仅是一项技术上的进步，更是对人工智能未来发展方向的一次重要探索。我相信，随着更多类似创新成果的涌现，人工智能将更好地服务于人类，为社会带来更多福祉。

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

AAAI 2025：大模型推理提速3.5倍，成本骤降至三分之一

作者智能小编

相关文章

陈春花：智能寻捷径，智慧照亮生命

智谱AI CEO：大模型领域存在“反共识”

语音交互：AI应用新王牌，巨头B2C掉队？

发表回复取消回复

为您推荐