全新Falcon Mamba 7B力压群雄，文本生成再创新高！

9 月 18, 2024 #性能, #每日AI快讯

换掉Transformer，7B开源模型Falcon Mamba登顶！任意长序列都能处理

量子位 | 公众号 QbitAI

近日，阿联酋阿布扎比技术创新研究所（TII）发布了最新开源模型Falcon Mamba 7B，该模型在性能上全面超越了包括Llama-3.1（8B）、Mistral（7B）以及Falcon-2（11B）在内的同规模开源模型。

Falcon Mamba 7B的突破在于它摒弃了传统的Transformer架构，采用了Mamba状态空间语言模型架构。这使得模型能够有效地处理长序列，并克服了Transformer架构在处理长序列时计算效率低下的问题。

Mamba：突破Transformer的局限

Mamba是一种状态空间模型（SSM），它结合了RNN和CNN的特点，通过引入一种选择机制，允许模型根据当前的输入有选择地传播或忘记信息，从而提高处理文本信息的效率。

与Transformer相比，Mamba具有以下优势：

FalconMamba 7B：性能全面提升

Falcon Mamba 7B模型在性能上展现出显著优势：

超越同规模模型： 在各种文本生成任务中，Falcon Mamba 7B的表现都优于Llama-3.1（8B）、Mistral（7B）以及Falcon-2（11B）等模型。
稳定处理长序列： 在H100上，批大小为1、提示词长度为1-130k生成token的测试中，Falcon Mamba能够在生成新token时保持稳定的吞吐量，这意味着它的性能不受文本长度影响，可以稳定处理长序列，不会出现性能下降情况。

开源协议：促进技术发展

Falcon Mamba 7B模型遵循TII Falcon License 2.0开放协议，它在Apache 2.0协议下。这使得研究人员和开发者可以自由地使用、修改和分发该模型，从而促进人工智能技术的进一步发展。

未来展望：Mamba架构的潜力

Falcon Mamba 7B的成功表明，Mamba架构在处理长序列和提高计算效率方面具有巨大潜力。未来，Mamba架构有望在更多领域得到应用，例如：