腾讯混元开源最大MoE大模型，AIxiv重磅发布！

作者智能小编

11 月 7, 2024 #机器之心, #混元, #腾讯

引言

人工智能领域正经历着前所未有的变革，大型语言模型（LLMs）的快速发展正在重塑着各个行业。然而，随着模型规模的不断扩大，如何在保持高性能的同时优化资源消耗成为一大挑战。腾讯混元团队率先采用混合专家（MoE）模型架构，最新发布的 Hunyuan-Large（Hunyuan-MoE-A52B）模型，以其 389B 总参数和 52B 激活参数，成为目前业界已开源的最大基于 Transformer 的 MoE 模型，并展现出令人瞩目的性能优势。

MoE：稀疏网络结构，性能与效率兼备

MoE（Mixture of Experts）混合专家模型，其核心在于每一层都包含多个并行的同构专家，每次 token 的前向计算仅激活部分专家。通过路由算法，模型动态决定哪些专家负责处理特定 token，从而实现稀疏的网络结构。这种结构相比于同等大小的稠密模型，在性能上更具优势，同时推理成本也显著降低。

Hunyuan-Large：技术创新，性能全面领先

Hunyuan-Large 在 MoE 架构的基础上，进行了多项技术创新，使其在性能上全面领先：

共享专家路由策略：模型设置一个共享专家，负责处理所有 token 的通用知识，同时设置 16 个需要路由的专家，动态学习特定领域的知识。
随机补偿的路由策略：为了保障 token 在各个专家间平均分配，Hunyuan-Large 在传统 Top-K 路由的基础上，引入了随机补偿机制，确保每个专家都能获得足够的训练数据。
专家特定学习率适配策略：针对共享专家和路由专家处理 token 数差异，Hunyuan-Large 为不同专家适配最佳学习率，提高训练效率。
高质量的合成数据：为了解决公开网页数据质量参差不齐的问题，腾讯混元团队利用内部大语言模型，构建了大量高质量、多样性、高难度合成数据，并通过自动化方法持续维护数据质量。

开源与应用：赋能企业和开发者

腾讯混元团队将 Hunyuan-Large 开源，并提供三种模型版本：Hunyuan-A52B-Pretrain，Hunyuan-A52B-Instruct 和 Hunyuan-A52B-FP8，以满足不同场景的使用需求。开发者可以在 HuggingFace、Github 等技术社区直接下载，并免费商用。

此外，腾讯云 TI 平台和高性能应用服务HAI 也同步开放接入，为模型的精调、API 调用及私有化部署提供一站式服务。

结论

腾讯混元 Hunyuan-Large 的开源，不仅是技术突破，更是对人工智能领域的一次重要贡献。其强大的性能和开放的姿态，将赋能企业和开发者，推动人工智能应用的快速发展。未来，随着 MoE 模型技术的不断成熟，我们可以期待更多基于 MoE 架构的强大模型问世，为人工智能发展带来更多可能性。

参考文献

>>> Read more <<<