摘要: 随着MoE(混合专家)模型成为AI大模型的主流范式,AI基础设施面临新的挑战。阿里云推出FlashMoE高性能训练框架,并升级算力、存储和安全能力,以应对MoE模型和推理模型带来的需求。
北京 – 近期,开源的Llama 4系列模型因基准测试成绩与实际表现的差异引发争议,但业界普遍认为,MoE(混合专家)模型将成为未来AI大模型的主流范式。从Mixtral、DeepSeek到Qwen2.5-Max和Llama 4,越来越多的MoE架构模型涌现,甚至英伟达也开始针对MoE架构优化硬件。然而,大规模MoE模型也给AI基础设施带来了新的挑战。
在近日举行的AI势能大会AI基础设施峰会上,阿里云智能集团副总裁汪军华指出了MoE架构的难题,包括token drop选择对吞吐的影响、路由专家与共享专家之间的效率权衡、以及专家选取数量和比例等。他表示,AI范式正向MoE和推理模型演进,阿里云已在解决这些难题上取得重大进展。
FlashMoE:阿里云应对MoE挑战的利器
为了应对MoE架构带来的挑战,阿里云宣布基于PAI-DLC云原生分布式深度学习训练平台推出FlashMoE。这是一款支持超大规模MoE混合精度训练的高性能训练框架,具备多种特性,包括支持多种token路由策略、支持上下文并行与张量并行解耦等。
全方位升级:阿里云的AI基础设施布局
阿里云在AI基础设施上的布局远不止于MoE。从硬件算力投入到一体化的训练和推理服务,阿里云正在夯实其领先地位。
- 算力升级: 阿里云宣布ECS第9代Intel企业级实例正式商用,该实例基于英特尔第六代至强处理器GNR,搭配阿里云最新CIPU架构,集群性能较前代提升最高达20%,同时价格降低5%。
- 灵骏集群优化: 阿里云智能弹性计算、存储产品线负责人吴结生表示,阿里云针对AI负载进行了大量优化,将灵骏集群构造成了云超级计算机。灵骏集群的技术体系包含HPN高性能网络、CPFS高性能文件存储、定制化的AI服务器以及强大的故障检测能力。
- 存储方案: 阿里云提供CPFS高性能存储和OSS对象存储服务。CPFS适用于高性能计算,支持对数据毫秒级的访问和百万级IOPS的数据读写请求,能实现40 GB/s的单客户端吞吐性能。OSS适用于存储大量非结构化数据,具有海量、安全、易集成、低成本、高可靠的优势。阿里云还推出了高性能的OSSFS 2.0,并首次将缺省100 Gbps吞吐性能扩展到了海外(新加坡)。
- 安全保障: 阿里云构建了一整套用以保障算力稳定供给和数据安全的体系,其中包括20多款云产品和近百项可一键开启的安全能力。
面向MoE和推理模型:AI范式演进
阿里云人工智能平台PAI针对推理模型推出了PAI-Chatlearn和Post-training on PAI-DLC。PAI-Chatlearn是一种支持RLHF、DPO、OnlineDPO、GRPO等多种强化学习算法的大规模对齐训练框架,同时也支持用户自己开发的强化学习算法,并且适配Megatron、vLLM、DeepSpeed等多种框架。
结论:
随着MoE模型和推理模型成为AI发展的新趋势,AI基础设施的升级迫在眉睫。阿里云通过推出FlashMoE高性能训练框架,并全方位升级算力、存储和安全能力,正在积极应对这些挑战,并有望在AI基础设施的竞赛中抢占先机。
参考文献:
- 机器之心. (2024). MoE模型已成新风口,AI基础设施竞速升级. https://www.jiqizhixin.com/articles/2024-04-10-14
Views: 0