华为云发布AI原生基础设施CloudMatrix，提供澎湃算力

作者智能小编

9 月 20, 2024 #华为, #机器之心

2024年9月20日，华为全联接大会

在今日举行的华为全联接大会2024上，华为云正式发布了其AI原生云基础设施架构——CloudMatrix，旨在满足AI时代企业对于算力的大规模、高效稳定、弹性灵活的需求。随着AI算力需求的高速增长，超越通用算力已成为必然趋势。构建弹性、高效的多元算力基础设施成为AI发展的关键所在。华为云通过推出CloudMatrix，将算力基础设施推向了一个全新的高度。

CloudMatrix的核心设计理念是“一切可池化、一切皆对等、一切可组合”，通过将CPU、NPU、DPU、存储和内存等资源全部互联和池化，构建了一个分布式对等全互联架构，实现了从单体算力到矩阵算力的演进，为客户提供澎湃的AI算力。

一切可池化：资源统一，算力倍增

华为云通过CPU、NPU为客户提供强大的通用计算和智能计算能力。而华为云的分布式QingTian技术，突破了单服务器的能力边界，将服务器内的CPU、NPU、DPU、存储和内存等资源统一池化并灵活配置，形成了大规模、紧耦合的多元算力池化架构，显著提升了算力。

一切皆对等：高速互联，打破瓶颈

CloudMatrix通过超高带宽ScaleUp网络，从“传统以太网”向“共享总线以太网”演进，实现了池化算力的高速互联。华为云在传统算力集群ScaleOut网络基础上，结合ScaleUp超高带宽网络，将资源互联带宽提升了一个数量级。新的网络协议实现了跨物理服务器的统一标识、统一访问和消息通信机制，从而实现CPU、NPU、存储和内存等资源的跨服务器统一池化。通过资源全部对等连接，实现了水平和垂直扩展，打破了计算集群线性度的瓶颈，能够将大模型训练集群的线性度提升至95%，网络故障恢复时间缩短至分钟级。