换掉Transformer,7B开源模型Falcon Mamba登顶!任意长序列都能处理
量子位 | 公众号 QbitAI
近日,阿联酋阿布扎比技术创新研究所(TII)发布了最新开源模型Falcon Mamba 7B,该模型在性能上全面超越了包括Llama-3.1(8B)、Mistral(7B)以及Falcon-2(11B)在内的同规模开源模型。
Falcon Mamba 7B的突破在于它摒弃了传统的Transformer架构,采用了Mamba状态空间语言模型架构。这使得模型能够有效地处理长序列,并克服了Transformer架构在处理长序列时计算效率低下的问题。
Mamba:突破Transformer的局限
Mamba是一种状态空间模型(SSM),它结合了RNN和CNN的特点,通过引入一种选择机制,允许模型根据当前的输入有选择地传播或忘记信息,从而提高处理文本信息的效率。
与Transformer相比,Mamba具有以下优势:
- 处理长序列能力更强: Mamba可以处理无限长序列,而不会增加内存需求。无论上下文多长,生成每个token的时间基本一样。
- 计算效率更高: Mamba通过设计一种硬件感知的并行算法,避免了GPU内存层级之间IO访问,提高了计算效率。
- 架构更简洁: Mamba将SSM架构和Transformer中的MLP块结合为单一的块,简化了模型架构。
FalconMamba 7B:性能全面提升
Falcon Mamba 7B模型在性能上展现出显著优势:
- 超越同规模模型: 在各种文本生成任务中,Falcon Mamba 7B的表现都优于Llama-3.1(8B)、Mistral(7B)以及Falcon-2(11B)等模型。
- 稳定处理长序列: 在H100上,批大小为1、提示词长度为1-130k生成token的测试中,Falcon Mamba能够在生成新token时保持稳定的吞吐量,这意味着它的性能不受文本长度影响,可以稳定处理长序列,不会出现性能下降情况。
开源协议:促进技术发展
Falcon Mamba 7B模型遵循TII Falcon License 2.0开放协议,它在Apache 2.0协议下。这使得研究人员和开发者可以自由地使用、修改和分发该模型,从而促进人工智能技术的进一步发展。
未来展望:Mamba架构的潜力
Falcon Mamba 7B的成功表明,Mamba架构在处理长序列和提高计算效率方面具有巨大潜力。未来,Mamba架构有望在更多领域得到应用,例如:
- 大规模文本生成: Mamba可以用于生成更长、更复杂、更具创意的文本内容。
- 机器翻译: Mamba可以用于构建更准确、更流畅的机器翻译系统。
- 代码生成:Mamba可以用于生成更复杂、更高质量的代码。
Falcon Mamba 7B的发布标志着开源语言模型领域取得了重大突破。Mamba架构的出现,为大模型的发展提供了新的方向,也为人工智能技术的应用带来了更多可能性。
Views: 0