Mamba新作惊艳！Llama3蒸馏打造RNN-Transformer革新力作

在深度学习领域，Transformer 架构凭借其注意力机制取得了显著的成果。然而，传统 Transformer 模型在处理长文本时，由于计算开销巨大而显得力不从心。近日，Mamba 的作者推出了一项创新性研究，成功将 Llama3 蒸馏成混合线性 RNN，实现了在长文本处理上的重大突破。

背景介绍

Transformer 模型在深度学习领域的成功离不开其注意力机制。注意力机制使模型能够关注输入序列中的相关部分，从而实现更好的上下文理解。然而，这种机制的计算复杂度较高，导致 Transformer 难以处理长文本。

Mamba 的出现

前不久，Mamba 的出现打破了这一局面。作为一种状态空间模型（SSM），Mamba 可以随上下文长度的增加实现线性扩展。在中小型规模上，Mamba 已经可以与 Transformer 相匹敌，甚至超越 Transformer，同时还能维持随序列长度的线性可扩展性。

Mamba 作者新作

最近，Mamba 的作者发表了一篇题为《The Mamba in the Llama: Distilling and Accelerating Hybrid Models》的论文。该研究通过重用注意力层的权重，成功将大型 Transformer 蒸馏成大型混合线性 RNN，只需最少的额外计算，同时保留了大部分生成质量。

研究方法

该研究采用了一种多级蒸馏方法，结合了渐进式蒸馏、监督微调和定向偏好优化。与普通蒸馏相比，这种方法可以获得更好的困惑度和下游评估结果。研究假设来自 Transformer 的知识主要保留在从原始模型迁移而来的 MLP 层中，并专注于蒸馏 LLM 的微调和对齐步骤。

线性 RNN 的优势

该研究认为线性 RNN 和注意力机制之间存在天然联系。通过删除 softmax 可以线性化注意力公式，但线性化注意力会导致模型能力退化。为了设计一个有效的蒸馏线性 RNN，研究团队尽可能接近原始 Transformer 参数化，同时以有效方式扩展线性 RNN 的容量。

实验及结果

实验中，研究团队使用两个 LLM 聊天模型进行测试：Zephyr-7B 和 Llama-3 Instruct 8B。结果显示，蒸馏后的混合 Mamba 模型在聊天基准测试中取得了与原始 Transformer 相当的性能，同时在一般基准测试中优于使用数万亿 token 从头开始训练的开源混合 Mamba 模型。

性能最佳模型

性能最佳模型是从 Llama3-8B-Instruct 中蒸馏出来的，在 AlpacaEval 2 上相对于 GPT-4 实现了 29.61 的长度控制胜率，在 MT-Bench 上实现了 7.35 的胜率，超越了最好的指令调整线性 RNN 模型。

总结

Mamba 作者的新作成功将 Llama3 蒸馏成混合线性 RNN，为长文本处理提供了新的解决方案。这一研究不仅为深度学习领域带来了新的突破，也为实际应用场景中的文本处理提供了更多可能性。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Mamba新作惊艳！Llama3蒸馏打造RNN-Transformer革新力作

作者智能小编

背景介绍

Mamba 的出现

Mamba 作者新作

研究方法

线性 RNN 的优势

实验及结果

性能最佳模型

总结

相关文章

Sports Brands Go Big Outsizing Luxury with Mega-Stores

TikTok劲敌？两天MVP估值5亿，资本狂涌！

运动品牌“巨无霸”店来袭，奢侈品都得让路？

发表回复取消回复

为您推荐

Sports Brands Go Big Outsizing Luxury with Mega-Stores

TikTok劲敌？两天MVP估值5亿，资本狂涌！

运动品牌“巨无霸”店来袭，奢侈品都得让路？

Cloudflare Workers & Hyperdrive Supercharge Global MySQL App Performance

作者智能小编

背景介绍

Mamba 的出现

Mamba 作者新作

研究方法

线性 RNN 的优势

实验及结果

性能最佳模型

总结

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复