Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

好的,这是一篇根据你提供的信息撰写的新闻稿,力求达到专业、深入和引人入胜的标准:

标题:LightTransfer:突破长文本生成瓶颈,推理阶段KV缓存减半,LLM降本增效

引言:

大型语言模型(LLM)在生成长篇连贯文本(Long Chain-of-Thought, CoT)方面展现出惊人的能力,例如,能够生成高达10万tokens的序列。然而,这种能力也给KV缓存的存储带来了前所未有的挑战,成为制约LLM进一步发展的瓶颈。近日,一种名为LightTransfer的创新方法横空出世,为解决这一难题提供了全新的思路,不仅在推理阶段将KV缓存缩减一半,更实现了LLM的降本增效。

正文:

长期以来,学术界和工业界都在积极探索降低LLM推理成本的有效途径。“混合模型”(hybrid model)应运而生,它在标准Transformer的部分层中引入更高效的注意力机制(如RNN或滑动窗口注意力),以替代原有的注意力层。诸如minimax-01、gemma2等研究已初步验证了混合模型的潜力。然而,现有的混合模型方案大多需要从头训练,无法直接将已预训练的dense Transformer模型轻量级迁移至混合模型。

为了打破这一僵局,研究人员提出了LightTransfer,一种简洁高效的模型转换方法。该方法基于一个关键观察:现有模型中存在大量呈现“lazy”特性的冗余层。LightTransfer的核心思想是将这些冗余层替换为仅需常数大小KV缓存的streaming attention,从而无需维护完整的KV缓存,将dense Transformer转变为更高效的hybrid model。

LightTransfer方法详解:

LightTransfer方法的核心在于识别并替换模型中的“lazy”层。具体步骤如下:

  1. 基准测试: 在训练集上运行基准测试,评估每一层的“lazy ratio”。
  2. 识别冗余层: 找出lazy ratio最高的50%的attention层,这些层被认为是冗余的。
  3. 替换: 将这些冗余层替换为streaming attention。

其中,lazy ratio用于衡量模型在特定层的注意力分配情况,它统计了来自Query对初始和最近key的注意力权重之和。lazy ratio越高,代表该层的注意力越集中在这些key上,也就越“lazy”。

实验结果:

研究人员以o1类的长CoT生成模型为主要实验对象,并遵循STILL方案,使用与其完全相同的训练设置(包括数据集、训练参数以及以Qwen2.5-32B-Instruct作为起点)。唯一的不同之处在于,他们将50%的层替换为streaming attention。实验结果表明,LightTransfer在AIME24 & 25以及MathOAI上的表现优于QwQ-STILL和o1-preview,同时在推理阶段显著缩减了近一半的KV缓存。

LightTransfer-Test:面向长上下文理解的即时转换

针对长上下文理解(long context understanding)任务,研究人员进一步提出了LightTransfer-Test。该方法允许模型在推理环节仅依赖prefilling的结果就能完成识别和转换,实现即时(on-the-fly)转换。

LightTransfer-Test面临两大挑战:

  1. 与Flash Attention的不兼容: Flash Attention已成为标配,但它不显式计算并存储注意力权重。为了获得用于衡量lazy ratio的注意力信息,需要重新计算注意力权重,这将带来额外开销。
  2. prefilling阶段的峰值内存: 若等到prefilling结束后才进行识别和转换,整个prefilling阶段所需的内存峰值并没有减少。

为了解决这些问题,LightTransfer-Test采用了以下策略:

  • 在线Softmax: 借鉴在线softmax的思路,利用Flash Attention在计算过程中生成的LSE(log-sum-exp)作为lazy ratio的分母,避免了重复计算注意力权重。
  • 优先队列: 设计了一种基于优先队列的策略,保证在prefilling阶段,所需的内存峰值不会超过设定阈值(即50%的full KV + 50%的streaming KV)。

结论:

LightTransfer的出现为解决LLM在长文本生成和长上下文理解任务中面临的KV缓存挑战提供了新的思路。通过轻量级迁移和即时转换,LightTransfer不仅显著降低了推理成本,还提升了模型性能,为LLM的进一步发展开辟了新的道路。

参考文献:

[1] 现有模型中存在大量呈现 “lazy” 特性的冗余层:[此处应补充相关文献的具体信息,例如作者、年份、论文题目、期刊/会议名称等]

[2] STILL方案:[此处应补充STILL方案相关文献的具体信息]

相关链接:

(完)

说明:

  • 我根据你提供的信息,尽可能地进行了详细的阐述,并补充了一些必要的细节。
  • 为了保证文章的专业性和可信度,请务必补充参考文献的具体信息。
  • 可以根据目标受众和媒体的风格,对文章的语言和表达方式进行适当的调整。

希望这篇新闻稿对你有所帮助!


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注