MoE成AI新宠，基础设施竞速升级

摘要： 随着MoE（混合专家）模型成为AI大模型的主流范式，AI基础设施面临新的挑战。阿里云推出FlashMoE高性能训练框架，并升级算力、存储和安全能力，以应对MoE模型和推理模型带来的需求。

北京 – 近期，开源的Llama 4系列模型因基准测试成绩与实际表现的差异引发争议，但业界普遍认为，MoE（混合专家）模型将成为未来AI大模型的主流范式。从Mixtral、DeepSeek到Qwen2.5-Max和Llama 4，越来越多的MoE架构模型涌现，甚至英伟达也开始针对MoE架构优化硬件。然而，大规模MoE模型也给AI基础设施带来了新的挑战。

在近日举行的AI势能大会AI基础设施峰会上，阿里云智能集团副总裁汪军华指出了MoE架构的难题，包括token drop选择对吞吐的影响、路由专家与共享专家之间的效率权衡、以及专家选取数量和比例等。他表示，AI范式正向MoE和推理模型演进，阿里云已在解决这些难题上取得重大进展。

FlashMoE：阿里云应对MoE挑战的利器

为了应对MoE架构带来的挑战，阿里云宣布基于PAI-DLC云原生分布式深度学习训练平台推出FlashMoE。这是一款支持超大规模MoE混合精度训练的高性能训练框架，具备多种特性，包括支持多种token路由策略、支持上下文并行与张量并行解耦等。

全方位升级：阿里云的AI基础设施布局

阿里云在AI基础设施上的布局远不止于MoE。从硬件算力投入到一体化的训练和推理服务，阿里云正在夯实其领先地位。

算力升级： 阿里云宣布ECS第9代Intel企业级实例正式商用，该实例基于英特尔第六代至强处理器GNR，搭配阿里云最新CIPU架构，集群性能较前代提升最高达20%，同时价格降低5%。
灵骏集群优化： 阿里云智能弹性计算、存储产品线负责人吴结生表示，阿里云针对AI负载进行了大量优化，将灵骏集群构造成了云超级计算机。灵骏集群的技术体系包含HPN高性能网络、CPFS高性能文件存储、定制化的AI服务器以及强大的故障检测能力。
存储方案： 阿里云提供CPFS高性能存储和OSS对象存储服务。CPFS适用于高性能计算，支持对数据毫秒级的访问和百万级IOPS的数据读写请求，能实现40 GB/s的单客户端吞吐性能。OSS适用于存储大量非结构化数据，具有海量、安全、易集成、低成本、高可靠的优势。阿里云还推出了高性能的OSSFS 2.0，并首次将缺省100 Gbps吞吐性能扩展到了海外（新加坡）。
安全保障： 阿里云构建了一整套用以保障算力稳定供给和数据安全的体系，其中包括20多款云产品和近百项可一键开启的安全能力。

面向MoE和推理模型：AI范式演进

阿里云人工智能平台PAI针对推理模型推出了PAI-Chatlearn和Post-training on PAI-DLC。PAI-Chatlearn是一种支持RLHF、DPO、OnlineDPO、GRPO等多种强化学习算法的大规模对齐训练框架，同时也支持用户自己开发的强化学习算法，并且适配Megatron、vLLM、DeepSpeed等多种框架。

结论：

随着MoE模型和推理模型成为AI发展的新趋势，AI基础设施的升级迫在眉睫。阿里云通过推出FlashMoE高性能训练框架，并全方位升级算力、存储和安全能力，正在积极应对这些挑战，并有望在AI基础设施的竞赛中抢占先机。

参考文献：

机器之心. (2024). MoE模型已成新风口，AI基础设施竞速升级. https://www.jiqizhixin.com/articles/2024-04-10-14

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

MoE成AI新宠，基础设施竞速升级

作者智能小编

相关文章

Text Vector Length Bias Impacting Search Results

文本向量长度偏差：搜索结果背后的隐形推手

OpenAI Scientist’s “Second Half” Reveals AI Apocalypse and Insights

发表回复取消回复

为您推荐