AI发展迅猛，硬件滞后：深度学习架构破局之道

作者智能小编

9 月 7, 2024 #机器之心, #深度

正文：

【新华社讯】在人工智能领域，硬件发展速度难以跟上深度学习需求的背景下，高效的成本控制显得尤为重要。近日，DeepSeek（深度求索）发布了一份研究成果，提出了一种基于硬件发展实际情况的高性能深度学习架构，该架构能够在保持高性能的同时，将成本降低至原有水平的60%。

根据摩尔定律，计算机速度每两年翻一番，但深度学习的发展速度更快，对算力的需求每年以10倍幅度增长。然而，硬件速度每两年仅增长3倍，DRAM带宽增长1.6倍，互连带宽增长1.4倍。这导致了构建AI基础设施的成本激增。

DeepSeek的研究成果，题为《Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning》，提出了一系列成本高效的策略，用于构建深度学习和大型语言模型（LLM）的AI高性能计算（HPC）系统。

具体而言，DeepSeek基于Fire-Flyer AI-HPC架构，部署了一个包含1万台PCIe A100 GPU的计算集群。该集群的性能在TF32和FP16 GEMM基准上，达到了英伟达DGX-A100架构的83%，但其成本和能耗仅为DGX-A100的60%。

DeepSeek选择了Fat-Tree网络拓扑结构，因其具有极高的对分带宽，并使用了InfiniBand作为网络连接解决方案。为了降低成本，他们选择了两区网络配置而非三层Fat-Tree解决方案。这种设计不仅降低了成本，还提高了系统的整体性能。

此外，DeepSeek团队还开发了一个用于高效allreduce运算的软件库：HFReduce。HFReduce通过减少PCIe带宽消耗和消除GPU核开销，显著提升了节点间带宽。他们还实现了一种名为HFReduce with NVLink的allreduce模式，进一步提高了节点间带宽。

DeepSeek的研究成果为深度学习领域提供了重要的成本控制策略，有助于推动人工智能技术的普及和应用。相关论文已发布在arxiv.org上，供业界和学术界参考。

【机器之心报道】DeepSeek的这一成果在人工智能数字化转型、汽车科技、交叉前沿等领域引起了广泛关注。在2023年度榜单中，DeepSeek的研究成果被认为是一项重要的创新，为未来出行及智能汽车科技提供了新的思路。

【结束语】DeepSeek的研究成果不仅展示了人工智能领域的创新潜力，也为相关行业提供了降低成本、提高效率的可行方案。随着人工智能技术的不断进步，我们期待更多这样的研究成果能够推动整个行业的可持续发展。

>>> Read more <<<