LLM突破：推理加速，长CoT生成惊艳

好的，这是一篇根据你提供的信息撰写的新闻稿，力求达到专业、深入和引人入胜的标准：

标题：LightTransfer：突破长文本生成瓶颈，推理阶段KV缓存减半，LLM降本增效

引言：

大型语言模型（LLM）在生成长篇连贯文本（Long Chain-of-Thought, CoT）方面展现出惊人的能力，例如，能够生成高达10万tokens的序列。然而，这种能力也给KV缓存的存储带来了前所未有的挑战，成为制约LLM进一步发展的瓶颈。近日，一种名为LightTransfer的创新方法横空出世，为解决这一难题提供了全新的思路，不仅在推理阶段将KV缓存缩减一半，更实现了LLM的降本增效。

正文：

长期以来，学术界和工业界都在积极探索降低LLM推理成本的有效途径。“混合模型”（hybrid model）应运而生，它在标准Transformer的部分层中引入更高效的注意力机制（如RNN或滑动窗口注意力），以替代原有的注意力层。诸如minimax-01、gemma2等研究已初步验证了混合模型的潜力。然而，现有的混合模型方案大多需要从头训练，无法直接将已预训练的dense Transformer模型轻量级迁移至混合模型。

为了打破这一僵局，研究人员提出了LightTransfer，一种简洁高效的模型转换方法。该方法基于一个关键观察：现有模型中存在大量呈现“lazy”特性的冗余层。LightTransfer的核心思想是将这些冗余层替换为仅需常数大小KV缓存的streaming attention，从而无需维护完整的KV缓存，将dense Transformer转变为更高效的hybrid model。

LightTransfer方法详解：

LightTransfer方法的核心在于识别并替换模型中的“lazy”层。具体步骤如下：

基准测试： 在训练集上运行基准测试，评估每一层的“lazy ratio”。
识别冗余层： 找出lazy ratio最高的50%的attention层，这些层被认为是冗余的。
替换： 将这些冗余层替换为streaming attention。

其中，lazy ratio用于衡量模型在特定层的注意力分配情况，它统计了来自Query对初始和最近key的注意力权重之和。lazy ratio越高，代表该层的注意力越集中在这些key上，也就越“lazy”。

实验结果：

研究人员以o1类的长CoT生成模型为主要实验对象，并遵循STILL方案，使用与其完全相同的训练设置（包括数据集、训练参数以及以Qwen2.5-32B-Instruct作为起点）。唯一的不同之处在于，他们将50%的层替换为streaming attention。实验结果表明，LightTransfer在AIME24 & 25以及MathOAI上的表现优于QwQ-STILL和o1-preview，同时在推理阶段显著缩减了近一半的KV缓存。

LightTransfer-Test：面向长上下文理解的即时转换

针对长上下文理解（long context understanding）任务，研究人员进一步提出了LightTransfer-Test。该方法允许模型在推理环节仅依赖prefilling的结果就能完成识别和转换，实现即时（on-the-fly）转换。

LightTransfer-Test面临两大挑战：

与Flash Attention的不兼容： Flash Attention已成为标配，但它不显式计算并存储注意力权重。为了获得用于衡量lazy ratio的注意力信息，需要重新计算注意力权重，这将带来额外开销。
prefilling阶段的峰值内存： 若等到prefilling结束后才进行识别和转换，整个prefilling阶段所需的内存峰值并没有减少。

为了解决这些问题，LightTransfer-Test采用了以下策略：

在线Softmax： 借鉴在线softmax的思路，利用Flash Attention在计算过程中生成的LSE（log-sum-exp）作为lazy ratio的分母，避免了重复计算注意力权重。
优先队列： 设计了一种基于优先队列的策略，保证在prefilling阶段，所需的内存峰值不会超过设定阈值（即50%的full KV + 50%的streaming KV）。

结论：

LightTransfer的出现为解决LLM在长文本生成和长上下文理解任务中面临的KV缓存挑战提供了新的思路。通过轻量级迁移和即时转换，LightTransfer不仅显著降低了推理成本，还提升了模型性能，为LLM的进一步发展开辟了新的道路。

参考文献：

[1] 现有模型中存在大量呈现 “lazy” 特性的冗余层：[此处应补充相关文献的具体信息，例如作者、年份、论文题目、期刊/会议名称等]

[2] STILL方案：[此处应补充STILL方案相关文献的具体信息]

相关链接：

项目主页：https://sites.google.com/view/lighttransfer
Huggingface 模型：cxdu/QwQ-32B-LightTransfer
Github 代码：https://github.com/sail-sg/LightTrans

（完）

说明：

我根据你提供的信息，尽可能地进行了详细的阐述，并补充了一些必要的细节。
为了保证文章的专业性和可信度，请务必补充参考文献的具体信息。
可以根据目标受众和媒体的风格，对文章的语言和表达方式进行适当的调整。

希望这篇新闻稿对你有所帮助！

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

LLM突破：推理加速，长CoT生成惊艳

作者智能小编

相关文章

豆包1.5发布“视觉版”！大模型多模态推理时代来临

Gemma 3 QAT Cutting-Edge AI Now Runs on Consumer GPUs

Gemma 3 QAT：消费级GPU上的AI新突破

发表回复取消回复

为您推荐