Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

在上海浦东滨江公园观赏外滩建筑群-20240824在上海浦东滨江公园观赏外滩建筑群-20240824
0

摘要: 随着MoE(混合专家)模型成为AI大模型的主流范式,AI基础设施面临新的挑战。阿里云推出FlashMoE高性能训练框架,并升级算力、存储和安全能力,以应对MoE模型和推理模型带来的需求。

北京 – 近期,开源的Llama 4系列模型因基准测试成绩与实际表现的差异引发争议,但业界普遍认为,MoE(混合专家)模型将成为未来AI大模型的主流范式。从Mixtral、DeepSeek到Qwen2.5-Max和Llama 4,越来越多的MoE架构模型涌现,甚至英伟达也开始针对MoE架构优化硬件。然而,大规模MoE模型也给AI基础设施带来了新的挑战。

在近日举行的AI势能大会AI基础设施峰会上,阿里云智能集团副总裁汪军华指出了MoE架构的难题,包括token drop选择对吞吐的影响、路由专家与共享专家之间的效率权衡、以及专家选取数量和比例等。他表示,AI范式正向MoE和推理模型演进,阿里云已在解决这些难题上取得重大进展。

FlashMoE:阿里云应对MoE挑战的利器

为了应对MoE架构带来的挑战,阿里云宣布基于PAI-DLC云原生分布式深度学习训练平台推出FlashMoE。这是一款支持超大规模MoE混合精度训练的高性能训练框架,具备多种特性,包括支持多种token路由策略、支持上下文并行与张量并行解耦等。

全方位升级:阿里云的AI基础设施布局

阿里云在AI基础设施上的布局远不止于MoE。从硬件算力投入到一体化的训练和推理服务,阿里云正在夯实其领先地位。

  • 算力升级: 阿里云宣布ECS第9代Intel企业级实例正式商用,该实例基于英特尔第六代至强处理器GNR,搭配阿里云最新CIPU架构,集群性能较前代提升最高达20%,同时价格降低5%。
  • 灵骏集群优化: 阿里云智能弹性计算、存储产品线负责人吴结生表示,阿里云针对AI负载进行了大量优化,将灵骏集群构造成了云超级计算机。灵骏集群的技术体系包含HPN高性能网络、CPFS高性能文件存储、定制化的AI服务器以及强大的故障检测能力。
  • 存储方案: 阿里云提供CPFS高性能存储和OSS对象存储服务。CPFS适用于高性能计算,支持对数据毫秒级的访问和百万级IOPS的数据读写请求,能实现40 GB/s的单客户端吞吐性能。OSS适用于存储大量非结构化数据,具有海量、安全、易集成、低成本、高可靠的优势。阿里云还推出了高性能的OSSFS 2.0,并首次将缺省100 Gbps吞吐性能扩展到了海外(新加坡)。
  • 安全保障: 阿里云构建了一整套用以保障算力稳定供给和数据安全的体系,其中包括20多款云产品和近百项可一键开启的安全能力。

面向MoE和推理模型:AI范式演进

阿里云人工智能平台PAI针对推理模型推出了PAI-Chatlearn和Post-training on PAI-DLC。PAI-Chatlearn是一种支持RLHF、DPO、OnlineDPO、GRPO等多种强化学习算法的大规模对齐训练框架,同时也支持用户自己开发的强化学习算法,并且适配Megatron、vLLM、DeepSpeed等多种框架。

结论:

随着MoE模型和推理模型成为AI发展的新趋势,AI基础设施的升级迫在眉睫。阿里云通过推出FlashMoE高性能训练框架,并全方位升级算力、存储和安全能力,正在积极应对这些挑战,并有望在AI基础设施的竞赛中抢占先机。

参考文献:


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注