Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

摘要: 腾讯混元、英伟达相继推出采用 Mamba-Transformer 混合架构的模型,引发业界对这一新型架构的广泛关注。该架构融合了 Transformer 的全局依赖捕捉能力和 Mamba 的高效序列建模优势,有望在降低计算成本、提升推理速度等方面取得突破,推动 AI 大模型的更广泛应用。

北京 – 在人工智能领域,架构创新一直是推动技术进步的关键动力。 近日,腾讯和英伟达不约而同地发布了采用 Mamba-Transformer 混合架构的模型,再次引发了业界对 AI 模型架构的深入思考。 这是否意味着 Mamba-Transformer 混合架构即将崛起,成为未来 AI 模型发展的新趋势?

在过去的一两年中,Transformer 架构虽然在自然语言处理等领域取得了巨大成功,但其计算复杂度高、内存占用大等问题也日益凸显。 为此,研究人员一直在探索新的架构,以期突破 Transformer 的瓶颈。 在众多非 Transformer 架构中,Mamba 凭借其高效的序列建模能力和线性可扩展性,受到了广泛关注。

然而,最初 Mamba 被视为 Transformer 的竞争对手,两者之间似乎存在着一种“水火不容”的局面。 但最近一段时间,这种局面正在发生改变,Mamba 和 Transformer 似乎正在走向融合。

上周五,腾讯宣布推出自研深度思考模型“混元 T1”正式版。 据悉,该模型之所以能够实现秒回、吐字快、擅长超长文处理等优势,很大程度上得益于其采用的 Hybrid-Mamba-Transformer 融合架构。 这一架构有效降低了传统 Transformer 架构的计算复杂度,减少了 KV-Cache 的内存占用,从而显著降低了训练和推理成本,让混元 T1 实现首字秒出,吐字速度最快可达 80 token/s。

与此同时,英伟达也推出了一个采用 Mamba-Transformer 混合架构的模型家族——Nemotron-H。 据称,Nemotron-H 的速度是同体量竞品模型的三倍。 速度的提升与成本的降低,是 AI 大模型迈向更广泛应用与普及的必经之路。

Mamba-Transformer 混合架构:兼具 Transformer 的全局性和 Mamba 的高效性

那么,Mamba-Transformer 混合架构究竟有何优势? 简单来说,该架构融合了 Transformer 和 Mamba 的优点。

  • Transformer: 作为一种以自注意力机制为核心的深度学习模型,Transformer 架构能够有效地捕捉输入序列中各元素之间的复杂依赖关系,并在全局范围内进行信息交互。
  • Mamba: 作为一种状态空间模型(SSM),Mamba 能够高效地捕获序列数据中的复杂依赖关系,并实现随序列长度的线性可扩展性,从而大幅降低计算成本。

通过将 Mamba 与 Transformer 架构组合到一起,Mamba-Transformer 混合架构既能利用 Transformer 的全局依赖捕捉能力,又能发挥 Mamba 的高效序列建模优势,从而在降低计算成本、提升推理速度等方面取得突破。

英伟达 Nemotron-H:速度提升三倍

英伟达近期发布的 Nemotron-H 系列模型,正是 Mamba-Transformer 混合架构优势的有力证明。 据介绍,通过采用 Mamba-Transformer 混合架构,相比于 SOTA 的开源纯 Transformer 模型,Nemotron-H 在保证了相当乃至更好的准确度的同时,可以提供远远更快的推理速度(高达 3 倍)。

Mamba-Transformer 的未来:值得期待

如今,腾讯、英伟达等科技巨头对 Mamba-Transformer 混合架构的高度关注与投入,释放出一个极为重要的信号:此类架构所蕴含的巨大价值,值得我们深入挖掘与探索。 随着研究的不断深入和技术的不断发展,Mamba-Transformer 混合架构有望在未来 AI 模型的发展中发挥更加重要的作用,推动 AI 技术的更广泛应用。

参考文献:

  • 机器之心. 腾讯混元、英伟达都发混合架构模型,Mamba-Transformer要崛起吗? https://www.jiqizhixin.com/articles/2024-03-24-8
  • Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
  • Gu, A., & Dao, T. (2023). Mamba: Linear-Time Sequence Modeling with Selective State Spaces. arXiv preprint arXiv:2312.00752.


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注