摘要: 腾讯混元、英伟达相继推出采用 Mamba-Transformer 混合架构的模型,引发业界对这一新型架构的广泛关注。该架构融合了 Transformer 的全局依赖捕捉能力和 Mamba 的高效序列建模优势,有望在降低计算成本、提升推理速度等方面取得突破,推动 AI 大模型的更广泛应用。
北京 – 在人工智能领域,架构创新一直是推动技术进步的关键动力。 近日,腾讯和英伟达不约而同地发布了采用 Mamba-Transformer 混合架构的模型,再次引发了业界对 AI 模型架构的深入思考。 这是否意味着 Mamba-Transformer 混合架构即将崛起,成为未来 AI 模型发展的新趋势?
在过去的一两年中,Transformer 架构虽然在自然语言处理等领域取得了巨大成功,但其计算复杂度高、内存占用大等问题也日益凸显。 为此,研究人员一直在探索新的架构,以期突破 Transformer 的瓶颈。 在众多非 Transformer 架构中,Mamba 凭借其高效的序列建模能力和线性可扩展性,受到了广泛关注。
然而,最初 Mamba 被视为 Transformer 的竞争对手,两者之间似乎存在着一种“水火不容”的局面。 但最近一段时间,这种局面正在发生改变,Mamba 和 Transformer 似乎正在走向融合。
上周五,腾讯宣布推出自研深度思考模型“混元 T1”正式版。 据悉,该模型之所以能够实现秒回、吐字快、擅长超长文处理等优势,很大程度上得益于其采用的 Hybrid-Mamba-Transformer 融合架构。 这一架构有效降低了传统 Transformer 架构的计算复杂度,减少了 KV-Cache 的内存占用,从而显著降低了训练和推理成本,让混元 T1 实现首字秒出,吐字速度最快可达 80 token/s。
与此同时,英伟达也推出了一个采用 Mamba-Transformer 混合架构的模型家族——Nemotron-H。 据称,Nemotron-H 的速度是同体量竞品模型的三倍。 速度的提升与成本的降低,是 AI 大模型迈向更广泛应用与普及的必经之路。
Mamba-Transformer 混合架构:兼具 Transformer 的全局性和 Mamba 的高效性
那么,Mamba-Transformer 混合架构究竟有何优势? 简单来说,该架构融合了 Transformer 和 Mamba 的优点。
- Transformer: 作为一种以自注意力机制为核心的深度学习模型,Transformer 架构能够有效地捕捉输入序列中各元素之间的复杂依赖关系,并在全局范围内进行信息交互。
- Mamba: 作为一种状态空间模型(SSM),Mamba 能够高效地捕获序列数据中的复杂依赖关系,并实现随序列长度的线性可扩展性,从而大幅降低计算成本。
通过将 Mamba 与 Transformer 架构组合到一起,Mamba-Transformer 混合架构既能利用 Transformer 的全局依赖捕捉能力,又能发挥 Mamba 的高效序列建模优势,从而在降低计算成本、提升推理速度等方面取得突破。
英伟达 Nemotron-H:速度提升三倍
英伟达近期发布的 Nemotron-H 系列模型,正是 Mamba-Transformer 混合架构优势的有力证明。 据介绍,通过采用 Mamba-Transformer 混合架构,相比于 SOTA 的开源纯 Transformer 模型,Nemotron-H 在保证了相当乃至更好的准确度的同时,可以提供远远更快的推理速度(高达 3 倍)。
Mamba-Transformer 的未来:值得期待
如今,腾讯、英伟达等科技巨头对 Mamba-Transformer 混合架构的高度关注与投入,释放出一个极为重要的信号:此类架构所蕴含的巨大价值,值得我们深入挖掘与探索。 随着研究的不断深入和技术的不断发展,Mamba-Transformer 混合架构有望在未来 AI 模型的发展中发挥更加重要的作用,推动 AI 技术的更广泛应用。
参考文献:
- 机器之心. 腾讯混元、英伟达都发混合架构模型,Mamba-Transformer要崛起吗? https://www.jiqizhixin.com/articles/2024-03-24-8
- Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
- Gu, A., & Dao, T. (2023). Mamba: Linear-Time Sequence Modeling with Selective State Spaces. arXiv preprint arXiv:2312.00752.
Views: 0