混元、英伟达押注，Mamba-Transformer架构崛起？

摘要： 腾讯混元、英伟达相继推出采用 Mamba-Transformer 混合架构的模型，引发业界对这一新型架构的广泛关注。该架构融合了 Transformer 的全局依赖捕捉能力和 Mamba 的高效序列建模优势，有望在降低计算成本、提升推理速度等方面取得突破，推动 AI 大模型的更广泛应用。

北京 – 在人工智能领域，架构创新一直是推动技术进步的关键动力。近日，腾讯和英伟达不约而同地发布了采用 Mamba-Transformer 混合架构的模型，再次引发了业界对 AI 模型架构的深入思考。这是否意味着 Mamba-Transformer 混合架构即将崛起，成为未来 AI 模型发展的新趋势？

在过去的一两年中，Transformer 架构虽然在自然语言处理等领域取得了巨大成功，但其计算复杂度高、内存占用大等问题也日益凸显。为此，研究人员一直在探索新的架构，以期突破 Transformer 的瓶颈。在众多非 Transformer 架构中，Mamba 凭借其高效的序列建模能力和线性可扩展性，受到了广泛关注。

然而，最初 Mamba 被视为 Transformer 的竞争对手，两者之间似乎存在着一种“水火不容”的局面。但最近一段时间，这种局面正在发生改变，Mamba 和 Transformer 似乎正在走向融合。

上周五，腾讯宣布推出自研深度思考模型“混元 T1”正式版。据悉，该模型之所以能够实现秒回、吐字快、擅长超长文处理等优势，很大程度上得益于其采用的 Hybrid-Mamba-Transformer 融合架构。这一架构有效降低了传统 Transformer 架构的计算复杂度，减少了 KV-Cache 的内存占用，从而显著降低了训练和推理成本，让混元 T1 实现首字秒出，吐字速度最快可达 80 token/s。

与此同时，英伟达也推出了一个采用 Mamba-Transformer 混合架构的模型家族——Nemotron-H。据称，Nemotron-H 的速度是同体量竞品模型的三倍。速度的提升与成本的降低，是 AI 大模型迈向更广泛应用与普及的必经之路。

Mamba-Transformer 混合架构：兼具 Transformer 的全局性和 Mamba 的高效性

那么，Mamba-Transformer 混合架构究竟有何优势？简单来说，该架构融合了 Transformer 和 Mamba 的优点。

Transformer： 作为一种以自注意力机制为核心的深度学习模型，Transformer 架构能够有效地捕捉输入序列中各元素之间的复杂依赖关系，并在全局范围内进行信息交互。
Mamba： 作为一种状态空间模型（SSM），Mamba 能够高效地捕获序列数据中的复杂依赖关系，并实现随序列长度的线性可扩展性，从而大幅降低计算成本。

通过将 Mamba 与 Transformer 架构组合到一起，Mamba-Transformer 混合架构既能利用 Transformer 的全局依赖捕捉能力，又能发挥 Mamba 的高效序列建模优势，从而在降低计算成本、提升推理速度等方面取得突破。

英伟达 Nemotron-H：速度提升三倍

英伟达近期发布的 Nemotron-H 系列模型，正是 Mamba-Transformer 混合架构优势的有力证明。据介绍，通过采用 Mamba-Transformer 混合架构，相比于 SOTA 的开源纯 Transformer 模型，Nemotron-H 在保证了相当乃至更好的准确度的同时，可以提供远远更快的推理速度（高达 3 倍）。

Mamba-Transformer 的未来：值得期待

如今，腾讯、英伟达等科技巨头对 Mamba-Transformer 混合架构的高度关注与投入，释放出一个极为重要的信号：此类架构所蕴含的巨大价值，值得我们深入挖掘与探索。随着研究的不断深入和技术的不断发展，Mamba-Transformer 混合架构有望在未来 AI 模型的发展中发挥更加重要的作用，推动 AI 技术的更广泛应用。

参考文献：

机器之心. 腾讯混元、英伟达都发混合架构模型，Mamba-Transformer要崛起吗？ https://www.jiqizhixin.com/articles/2024-03-24-8
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
Gu, A., & Dao, T. (2023). Mamba: Linear-Time Sequence Modeling with Selective State Spaces. arXiv preprint arXiv:2312.00752.

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

混元、英伟达押注，Mamba-Transformer架构崛起？

作者智能小编

相关文章

陈春花：智能寻捷径，智慧照亮生命

智谱AI CEO：大模型领域存在“反共识”

语音交互：AI应用新王牌，巨头B2C掉队？

发表回复取消回复

为您推荐