“`markdown

清华大学推出 SpargeAttn：无需训练，加速各类大模型推理速度

北京 – 2025年3月27日 – 在人工智能领域，长序列处理能力已成为各类大语言模型和视频模型的关键需求。然而，随着序列长度的增加，Attention机制的计算复杂度呈平方级增长，成为制约模型性能的主要瓶颈。清华大学陈键飞团队继SageAttention系列工作之后，再次突破，推出了无需训练即可直接使用的稀疏Attention（SpargeAttn），为加速各类模型的推理过程提供了新的解决方案。

背景：Attention机制的挑战与机遇

Attention机制作为深度学习模型中的核心组件，在处理长序列数据时发挥着关键作用。然而，其O(N^2)的时间复杂度使得计算成本随着序列长度的增加而急剧上升。尽管如此，Attention矩阵（P矩阵）的稀疏性为加速计算提供了可能。

此前，清华大学陈键飞团队提出的SageAttention系列工作，通过即插即用量化技术，实现了3倍于FlashAttention的加速效果，并在各类大模型上保持了端到端的精度，受到了业界和社区的广泛关注。

SpargeAttn：无需训练的稀疏Attention

为了进一步挖掘Attention机制的潜力，陈键飞团队推出了SpargeAttn，一种无需训练即可直接使用的稀疏Attention方法。该方法能够在语言、视频、图像生成等大模型上实现4-7倍于FlashAttention的推理加速，同时保持端到端的精度表现。

论文标题： SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference

论文链接： https://arxiv.org/abs/2502.18137

开源代码： https://github.com/thu-ml/SpargeAttn

SpargeAttn速度展示

上图展示了SpargeAttn的速度优势。在RTX4090上，SpargeAttn在60%稀疏度的情况下可以达到900TOPS的速度，甚至超过了A100显卡速度的4.5倍（A100上FlashAttention仅为200TOPS）。

SpargeAttn的核心技术

SpargeAttn旨在开发一种通用的、无需训练的稀疏Attention机制，以实现对各种模型（语言/视频/图像）的加速，同时保证精度无损，并对中等长度的上下文（如4-32K）也有效。

面临的挑战：

通用性： 不同模型甚至同一模型的不同层中，Attention的稀疏形状各不相同，体现出很强的动态性。
可用性： 难以同时实现对各种Attention输入的准确且高效的稀疏化。

解决方案：

通用的稀疏预测算法： 该算法选择性地对Q, K矩阵进行压缩并预测P矩阵，然后使用TopCdf操作省略P中稀疏部分对应的QK^T与PV的矩阵乘法。
GPU Warp级别上的稀疏Online Softmax算法： 该算法利用Online Softmax中全局最大值与局部最大值之间的差异，进一步省略了一些PV的矩阵乘法计算。
希尔伯特重排（可选）： 针对视频和图像模型，充分利用图像以及视频中的Token局部相似性质，对Attention前的Token进行重新排列，进一步提高稀疏度。
与SageAttention融合： 将稀疏方法与基于量化的SageAttention融合，进一步加速Attention。

SpargeAttn算法流程图

上图展示了SpargeAttn的算法流程。

实验结果与展望

实验结果表明，SpargeAttn在视频、图像、文本生成等大模型上均可以实现无需训练的加速效果，同时保证了各任务上的端到端精度。

| 模型类型 | 稀疏度 | Attention速度 | 端到端精度 |
| ———- | —- | ——– | ——– |
| 语言模型 | X% | Y倍加速 | Z% |
| 视频模型 | X% | Y倍加速 | Z% |
| 图像生成模型 | X% | Y倍加速 | Z% |

注：表格数据占位，请根据论文数据填充。此论文中的所有实验都是基于SageAttention实现，目前Github仓库中已有基于SageAttention2的实现，进一步提供了30%的加速。

SpargeAttn的推出，为大模型的推理加速提供了一种新的、高效的解决方案。其无需训练、通用性强、精度无损等特点，使其具有广泛的应用前景。随着大模型在各领域的深入应用，SpargeAttn有望成为推动人工智能技术发展的关键力量。

参考文献

SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference, https://arxiv.org/abs/2502.18137
SageAttention (请根据实际情况补充SageAttention的相关文献)
FlashAttention (请根据实际情况补充FlashAttention的相关文献)

关于清华大学陈键飞团队：

清华大学陈键飞团队长期致力于深度学习模型优化与加速的研究，在Attention机制、量化技术等领域取得了丰硕成果。其SageAttention系列工作已在业界和社区得到广泛应用。

联系方式：

(请根据实际情况补充联系方式)
“`

说明:

标题: 简洁明了，突出核心信息。
引言: 概括文章核心内容，吸引读者。
主体: 使用 Markdown 格式，分段阐述背景、技术细节、实验结果和展望。
挑战与解决方案: 详细解释了 SpargeAttn 解决的关键问题。
实验结果: 预留表格，方便根据论文数据填充。
参考文献: 列出相关文献，增加文章可信度。
图片链接占位: 需要根据实际情况替换为真实的图片链接。
联系方式: 根据实际情况补充。
语言风格: 专业、客观，符合新闻报道的特点。
数据填充: 表格中的数据需要根据论文内容进行填充。

这个模板提供了一个清晰的结构和关键要素，可以根据实际情况进行调整和完善。记得在发布前进行仔细的校对和润色。

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

清华稀疏Attention：长序列模型提速新突破！

作者智能小编

清华大学推出 SpargeAttn：无需训练，加速各类大模型推理速度

背景：Attention机制的挑战与机遇

SpargeAttn：无需训练的稀疏Attention

SpargeAttn的核心技术

实验结果与展望

参考文献

相关文章

AI 指数报告：斯坦福揭示 2025 年趋势

RAG Evolution Four Key Questions Shaping the Future

25年后Agent：简单至上，复杂淘汰

发表回复取消回复

为您推荐

AI 指数报告：斯坦福揭示 2025 年趋势

RAG Evolution Four Key Questions Shaping the Future

25年后Agent：简单至上，复杂淘汰

Alibaba Cloud’s Bailian Launches “Full-Cycle MCP Service” for AI Tool Management

作者智能小编

清华大学推出 SpargeAttn：无需训练，加速各类大模型推理速度

背景：Attention机制的挑战与机遇

SpargeAttn：无需训练的稀疏Attention

SpargeAttn的核心技术

实验结果与展望

参考文献

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复