xLSTM再进化！7B模型速度狂飙50%，代码开源！

摘要： 由LSTM奠基者Sepp Hochreiter领衔的团队，近日推出了经过重大优化的xLSTM 7B模型。该模型在推理速度上超越了同等规模的Mamba模型高达50%，并实现了权重和代码的全面开源，为大型语言模型（LLM）的推理效率带来了新的突破。

近年来，大型语言模型（LLM）凭借其强大的问题解决能力，在各个领域取得了显著进展。然而，随着模型规模的不断扩大，推理速度成为了制约LLM应用的关键瓶颈。传统的Transformer架构虽然占据了主流地位，但在处理长序列输入时，计算量会呈平方级增长，严重影响了推理效率。

为了解决这一问题，上世纪90年代兴起的LSTM（长短期记忆网络）重新受到了关注。作为LSTM的提出者和奠基者，Sepp Hochreiter 及其团队于去年推出了xLSTM，旨在通过扩展LSTM的参数规模，使其成为Transformer的有力替代品。xLSTM具有与序列长度线性相关的计算扩展能力和稳定的内存占用，但在扩展至更大参数规模时，其推理速度和效率并未得到充分评估。

近日，Sepp Hochreiter等来自NXAI、JKU的研究者再次对xLSTM进行了优化，成功将其扩展到了70亿参数。这项研究成果不仅突破了xLSTM的参数规模限制，更在推理速度上取得了显著提升。

xLSTM 7B：性能与效率的双重提升

具体而言，xLSTM 7B模型基于DCLM数据集，使用128块H100 GPU，在8192上下文长度下训练了2.3万亿token。研究者对原始xLSTM架构进行了改进，确保训练效率和稳定性，同时保持任务性能。新架构依靠mLSTM单元和并行训练模式，实现高性能的同时最大化速度。

架构优化： 通过修改模块架构，研究者优化了吞吐量，在低维空间运行 mLSTM 并添加前馈 MLP 层，同时去除了不必要的组件以提高 GPU 利用率。优化后的架构在保持相似性能的同时，将 token 吞吐量提高了 2 到 4 倍。
训练稳定性： 研究者还优化了训练稳定性，特别是 mLSTM 单元的门控机制，有效解决了梯度问题。

在各类任务评估中，xLSTM 7B 与同规模 Transformer 和 Mamba 模型表现相当。通过架构优化，该模型在推理效率测试中实现了最高的预填充和生成吞吐量，同时保持最低的 GPU 内存占用。

论文作者之一 Günter Klambauer 表示，xLSTM 7B 成为了最快、最高效的 7B 语言模型！

技术细节：mLSTM单元的优化

xLSTM 7B 架构的核心是 mLSTM 单元，它的循环和并行模式可以实现高效的训练和推理。为了充分发挥该单元的潜力，研究者重新审视了相邻块结构的设计。

研究者通过解决以下四个限制来优化 mLSTM 块以实现最大效率：

在模型的嵌入维数而不是更高维数的空间中操作 mLSTM 单元，并在每个 mLSTM 层之后放置位置前馈 MLP 层。
放弃通道卷积和可学习的残差连接等操作，并用密集线性层替换块查询、键和值投影。
确保每个 head 的门预激活都是独立计算的。

这些优化显著提升了模型的计算效率和GPU利用率，为xLSTM扩展到更大规模奠定了基础。

开源赋能：加速LLM推理研究

更重要的是，研究团队将xLSTM 7B模型的权重和代码全部开源，为LLM推理加速领域的研究者提供了宝贵的资源。这一举措有望加速相关技术的发展，推动LLM在更多领域的应用。

结论与展望

xLSTM 7B模型的问世，标志着LSTM在LLM领域迎来了新的发展机遇。通过架构优化和技术创新，xLSTM不仅突破了参数规模的限制，更在推理速度上实现了显著提升。模型的开源发布，将进一步促进LLM推理加速领域的研究和应用。

随着LLM技术的不断发展，推理效率将成为其应用普及的关键因素。xLSTM 7B模型的成功，为我们提供了一个新的方向，也为未来的LLM架构设计带来了新的启示。

参考文献：

xLSTM 7B: A Recurrent LLM for Fast and Efficient Inference: https://arxiv.org/pdf/2503.13427
代码地址：https://github.com/NX-AI/xlstm
Hugging Face 地址：https://huggingface.co/NX-AI/xLSTM-7b

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

xLSTM再进化！7B模型速度狂飙50%，代码开源！

作者智能小编

相关文章

陈春花：智能寻捷径，智慧照亮生命

智谱AI CEO：大模型领域存在“反共识”

语音交互：AI应用新王牌，巨头B2C掉队？

发表回复取消回复

为您推荐