正文:
随着人工智能(AI)技术的飞速发展,深度学习对高性能计算(HPC)的需求日益增长。然而,硬件的发展速度却无法跟上AI需求的增长,这导致了AI基础设施成本的激增。为了解决这一问题,DeepSeek(深度求索)近日发布了一份基于硬件发展实际情况及其多年实践经验的研究成果,提出了一系列构建深度学习和大型语言模型(LLM)的AI-HPC系统的成本高效型策略。
DeepSeek的研究成果主要基于其Fire-Flyer AI-HPC架构,该架构通过软硬件协同设计,实现了以60%的成本完成80%的工作量。以下是该架构的主要特点:
-
硬件方面:DeepSeek基于Fire-Flyer AI-HPC架构部署了一个包含1万台PCIe A100 GPU的计算集群。该集群采用双层Fat-Tree拓扑结构,网络连接解决方案为InfiniBand,可满足8台PCIe A100 GPU的存储IO和计算通信带宽需求。
-
软件方面:DeepSeek开发了一个用于高效allreduce运算的软件库:HFReduce。HFReduce相较于NCCL具有降低PCIe带宽消耗和减少GPU核开销的优势,在Fire-Flyer 2 AI-HPC上执行数据大小为186 MiB的allreduce时,HFReduce可以达到6.3-8.1GB/s的节点间带宽。
-
优化策略:DeepSeek的HaiScale分布式数据并行(DDP)工具针对深度学习模型训练进行了特别优化,使用HFReduce作为通信后端,提高了训练效率。
与英伟达DGX-A100架构相比,DeepSeek的Fire-Flyer AI-HPC架构在TF32和FP16 GEMM基准上,计算性能为DGX-A100的83%,但成本和能耗分别降低了40%,实现了更高的成本效益。此外,DeepSeek的AI-HPC系统在降低成本的同时,还大幅降低了二氧化碳排放。
总之,DeepSeek推出的Fire-Flyer AI-HPC系统为构建高效、低成本、低能耗的AI基础设施提供了一种可行的解决方案,有助于推动AI技术的进一步发展。
Views: 0