2024年9月20日,华为全联接大会
在今日举行的华为全联接大会2024上,华为云正式发布了其AI原生云基础设施架构——CloudMatrix,旨在满足AI时代企业对于算力的大规模、高效稳定、弹性灵活的需求。随着AI算力需求的高速增长,超越通用算力已成为必然趋势。构建弹性、高效的多元算力基础设施成为AI发展的关键所在。华为云通过推出CloudMatrix,将算力基础设施推向了一个全新的高度。
CloudMatrix的核心设计理念是“一切可池化、一切皆对等、一切可组合”,通过将CPU、NPU、DPU、存储和内存等资源全部互联和池化,构建了一个分布式对等全互联架构,实现了从单体算力到矩阵算力的演进,为客户提供澎湃的AI算力。
一切可池化:资源统一,算力倍增
华为云通过CPU、NPU为客户提供强大的通用计算和智能计算能力。而华为云的分布式QingTian技术,突破了单服务器的能力边界,将服务器内的CPU、NPU、DPU、存储和内存等资源统一池化并灵活配置,形成了大规模、紧耦合的多元算力池化架构,显著提升了算力。
一切皆对等:高速互联,打破瓶颈
CloudMatrix通过超高带宽ScaleUp网络,从“传统以太网”向“共享总线以太网”演进,实现了池化算力的高速互联。华为云在传统算力集群ScaleOut网络基础上,结合ScaleUp超高带宽网络,将资源互联带宽提升了一个数量级。新的网络协议实现了跨物理服务器的统一标识、统一访问和消息通信机制,从而实现CPU、NPU、存储和内存等资源的跨服务器统一池化。通过资源全部对等连接,实现了水平和垂直扩展,打破了计算集群线性度的瓶颈,能够将大模型训练集群的线性度提升至95%,网络故障恢复时间缩短至分钟级。
一切可组合:灵活调度,按需服务
CloudMatrix能够按需组合多样化算力资源,并根据应用需求灵活调整。在统一多元算力逻辑池化、高速全对等互联的基础上,通过瑶光智能云脑对云上资源进行多元算力统一建模、灵活调度组合,按需提供给应用。这一设计不仅覆盖了大模型和小模型的训练和推理,还能应用于数据分析、媒体内容生成等更多场景。
华为云宣布,基于CloudMatrix的新一代昇腾AI云服务将于年底上线。这一里程碑式的发布,标志着华为云在AI算力领域的又一重大突破,将为AI时代的数字化转型提供强大的技术支持。
Views: 0