Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

川普在美国宾州巴特勒的一次演讲中遇刺_20240714川普在美国宾州巴特勒的一次演讲中遇刺_20240714
0

摘要: 由LSTM奠基者Sepp Hochreiter领衔的团队,近日推出了经过重大优化的xLSTM 7B模型。该模型在推理速度上超越了同等规模的Mamba模型高达50%,并实现了权重和代码的全面开源,为大型语言模型(LLM)的推理效率带来了新的突破。

近年来,大型语言模型(LLM)凭借其强大的问题解决能力,在各个领域取得了显著进展。然而,随着模型规模的不断扩大,推理速度成为了制约LLM应用的关键瓶颈。传统的Transformer架构虽然占据了主流地位,但在处理长序列输入时,计算量会呈平方级增长,严重影响了推理效率。

为了解决这一问题,上世纪90年代兴起的LSTM(长短期记忆网络)重新受到了关注。作为LSTM的提出者和奠基者,Sepp Hochreiter 及其团队于去年推出了xLSTM,旨在通过扩展LSTM的参数规模,使其成为Transformer的有力替代品。xLSTM具有与序列长度线性相关的计算扩展能力和稳定的内存占用,但在扩展至更大参数规模时,其推理速度和效率并未得到充分评估。

近日,Sepp Hochreiter等来自NXAI、JKU的研究者再次对xLSTM进行了优化,成功将其扩展到了70亿参数。这项研究成果不仅突破了xLSTM的参数规模限制,更在推理速度上取得了显著提升。

xLSTM 7B:性能与效率的双重提升

具体而言,xLSTM 7B模型基于DCLM数据集,使用128块H100 GPU,在8192上下文长度下训练了2.3万亿token。研究者对原始xLSTM架构进行了改进,确保训练效率和稳定性,同时保持任务性能。新架构依靠mLSTM单元和并行训练模式,实现高性能的同时最大化速度。

  • 架构优化: 通过修改模块架构,研究者优化了吞吐量,在低维空间运行 mLSTM 并添加前馈 MLP 层,同时去除了不必要的组件以提高 GPU 利用率。优化后的架构在保持相似性能的同时,将 token 吞吐量提高了 2 到 4 倍。
  • 训练稳定性: 研究者还优化了训练稳定性,特别是 mLSTM 单元的门控机制,有效解决了梯度问题。

在各类任务评估中,xLSTM 7B 与同规模 Transformer 和 Mamba 模型表现相当。通过架构优化,该模型在推理效率测试中实现了最高的预填充和生成吞吐量,同时保持最低的 GPU 内存占用。

论文作者之一 Günter Klambauer 表示,xLSTM 7B 成为了最快、最高效的 7B 语言模型!

技术细节:mLSTM单元的优化

xLSTM 7B 架构的核心是 mLSTM 单元,它的循环和并行模式可以实现高效的训练和推理。为了充分发挥该单元的潜力,研究者重新审视了相邻块结构的设计。

研究者通过解决以下四个限制来优化 mLSTM 块以实现最大效率:

  1. 在模型的嵌入维数而不是更高维数的空间中操作 mLSTM 单元,并在每个 mLSTM 层之后放置位置前馈 MLP 层。
  2. 放弃通道卷积和可学习的残差连接等操作,并用密集线性层替换块查询、键和值投影。
  3. 确保每个 head 的门预激活都是独立计算的。

这些优化显著提升了模型的计算效率和GPU利用率,为xLSTM扩展到更大规模奠定了基础。

开源赋能:加速LLM推理研究

更重要的是,研究团队将xLSTM 7B模型的权重和代码全部开源,为LLM推理加速领域的研究者提供了宝贵的资源。这一举措有望加速相关技术的发展,推动LLM在更多领域的应用。

结论与展望

xLSTM 7B模型的问世,标志着LSTM在LLM领域迎来了新的发展机遇。通过架构优化和技术创新,xLSTM不仅突破了参数规模的限制,更在推理速度上实现了显著提升。模型的开源发布,将进一步促进LLM推理加速领域的研究和应用。

随着LLM技术的不断发展,推理效率将成为其应用普及的关键因素。xLSTM 7B模型的成功,为我们提供了一个新的方向,也为未来的LLM架构设计带来了新的启示。

参考文献:


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注