Falcon Mamba 7B惊艳亮相，超越Llama-3.1刷新文本生成纪录

9 月 2, 2024 #性能, #每日AI快讯

在人工智能领域，一场技术革命正悄然兴起。最新一代开源模型Falcon Mamba 7B，凭借其独特的Mamba状态空间语言模型架构，成功打破Transformer架构的垄断，成为当前性能最强大的同规模开源模型。

新架构引领新变革

据量子位报道，Falcon Mamba 7B模型由阿联酋阿布扎比技术创新研究所（TII）开发，该模型采用Mamba状态空间语言模型架构，通过取消传统的注意力机制，有效解决了模型处理长序列时计算效率低下的问题。

与传统Transformer架构相比，Falcon Mamba 7B模型可以处理无限长序列，而内存需求不增加。这意味着，无论上下文多长，生成每个token的时间基本保持一致，大大提高了计算效率。

Falcon Mamba 7B模型在性能上实现了全方位的提升，不仅超越了前代Falcon-2（11B）模型，还一举打败了Llama-3.1（8B）、Mistral（7B）等一众Transformer架构模型。

这一突破性的成果，得益于Falcon Mamba模型采用的硬件感知的并行算法和递归模式运行。这些设计使得模型在处理文本信息时更加高效，尤其适合单个A10 24GB GPU。

Falcon Mamba系列模型共包含四个版本：基础版本、指令微调版本、4bit版本和指令微调4bit版本。最新模型遵循TII Falcon License 2.0开放协议，在Apache 2.0协议下，为全球开发者提供了新的机遇。

量子位的报道中提到，围观网友直呼“游戏规则要改变了！”这一技术的突破，无疑将引领人工智能领域的新趋势。

为了确保大规模训练的稳定性，Falcon Mamba模型采用了额外的RMS标准化层。在训练过程中，模型使用了5500GT数据，主要来自RefedWeb数据集以及公开数据。训练过程基本匀速，后期增加了一小部分高质量策划数据，有助于模型的优化。

在H100上的测试中，Falcon Mamba模型在生成新token时保持了稳定的吞吐量，这意味着它的性能不受文本长度影响，可以稳定处理长序列，不会出现性能下降的情况。

Falcon Mamba模型支持多种Hugging Face API，包括AutoModelForCausalLM、pipline等，使得模型的部署和调用更加方便。此外，还推出了一个指令调优版本，通过额外50亿个token进行微调，进一步提高模型的准确性。

这一开源模型的推出，为人工智能领域带来了新的活力，也为开发者提供了更多可能性。随着技术的不断进步，我们期待看到更多像Falcon Mamba这样的创新成果，推动人工智能的发展迈上新的台阶。