正文:
【新华社讯】在人工智能领域,硬件发展速度难以跟上深度学习需求的背景下,高效的成本控制显得尤为重要。近日,DeepSeek(深度求索)发布了一份研究成果,提出了一种基于硬件发展实际情况的高性能深度学习架构,该架构能够在保持高性能的同时,将成本降低至原有水平的60%。
根据摩尔定律,计算机速度每两年翻一番,但深度学习的发展速度更快,对算力的需求每年以10倍幅度增长。然而,硬件速度每两年仅增长3倍,DRAM带宽增长1.6倍,互连带宽增长1.4倍。这导致了构建AI基础设施的成本激增。
DeepSeek的研究成果,题为《Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning》,提出了一系列成本高效的策略,用于构建深度学习和大型语言模型(LLM)的AI高性能计算(HPC)系统。
具体而言,DeepSeek基于Fire-Flyer AI-HPC架构,部署了一个包含1万台PCIe A100 GPU的计算集群。该集群的性能在TF32和FP16 GEMM基准上,达到了英伟达DGX-A100架构的83%,但其成本和能耗仅为DGX-A100的60%。
DeepSeek选择了Fat-Tree网络拓扑结构,因其具有极高的对分带宽,并使用了InfiniBand作为网络连接解决方案。为了降低成本,他们选择了两区网络配置而非三层Fat-Tree解决方案。这种设计不仅降低了成本,还提高了系统的整体性能。
此外,DeepSeek团队还开发了一个用于高效allreduce运算的软件库:HFReduce。HFReduce通过减少PCIe带宽消耗和消除GPU核开销,显著提升了节点间带宽。他们还实现了一种名为HFReduce with NVLink的allreduce模式,进一步提高了节点间带宽。
DeepSeek的研究成果为深度学习领域提供了重要的成本控制策略,有助于推动人工智能技术的普及和应用。相关论文已发布在arxiv.org上,供业界和学术界参考。
【机器之心报道】DeepSeek的这一成果在人工智能数字化转型、汽车科技、交叉前沿等领域引起了广泛关注。在2023年度榜单中,DeepSeek的研究成果被认为是一项重要的创新,为未来出行及智能汽车科技提供了新的思路。
【结束语】DeepSeek的研究成果不仅展示了人工智能领域的创新潜力,也为相关行业提供了降低成本、提高效率的可行方案。随着人工智能技术的不断进步,我们期待更多这样的研究成果能够推动整个行业的可持续发展。
Views: 0