“`markdown
摩尔线程突破大模型训练瓶颈,成功支持DeepSeek开源通信库与并行算法
北京,2025年2月27日 – 在人工智能领域,大模型训练的效率一直是制约行业发展的关键瓶颈。今日,国内GPU厂商摩尔线程宣布,其已成功适配并支持由DeepSeek开源的通信库DeepEP和并行算法DualPipe,并在其MUSA架构的GPU上实现了显著的性能提升。这一突破性进展,不仅为国内大模型训练提供了新的解决方案,也标志着国产GPU在高性能计算领域迈出了重要一步。
引言:大模型时代的算力挑战与国产GPU的崛起
近年来,以GPT系列、BERT等为代表的大型语言模型(LLM)在自然语言处理、机器翻译、文本生成等领域取得了令人瞩目的成果。然而,这些模型的训练需要海量的计算资源,对GPU的性能、通信效率和并行计算能力提出了极高的要求。
在过去,NVIDIA等国际巨头在高性能GPU领域占据主导地位,国内企业在算力基础设施方面面临着“卡脖子”的风险。随着人工智能技术的快速发展,国产GPU厂商逐渐崛起,致力于打破技术壁垒,为国内人工智能产业提供自主可控的算力支撑。
摩尔线程作为国内领先的GPU厂商,一直致力于研发高性能、通用型的GPU产品。此次成功支持DeepSeek开源的DeepEP和DualPipe,是摩尔线程在人工智能领域的重要突破,也是国产GPU在技术创新方面的一次有力证明。
DeepSeek开源周:推动AI生态繁荣的里程碑
DeepSeek是一家专注于人工智能基础研究和应用开发的科技公司。为了促进人工智能技术的开放与共享,DeepSeek推出了开源周活动,陆续开源了一系列重要的技术成果,包括DeepEP通信库、DualPipe并行算法等。
DeepSeek的开源举措,旨在构建一个开放、合作、共赢的人工智能生态系统,吸引更多的开发者参与到大模型训练和应用开发中来。摩尔线程积极响应DeepSeek的开源倡议,投入大量资源进行技术适配和优化,最终成功实现了对DeepEP和DualPipe的支持。
DeepEP:解决MoE模型训练的通信难题
DeepEP(Expert Parallelism)是一个专门为MoE(混合专家)模型训练和推理设计的开源通信库。MoE模型是一种特殊的深度学习模型,它由多个“专家”网络组成,每个专家网络负责处理一部分输入数据。MoE模型具有强大的表达能力和泛化能力,被广泛应用于自然语言处理、推荐系统等领域。
然而,MoE模型的训练面临着巨大的通信挑战。由于每个专家网络都需要与其他专家网络进行数据交换,因此通信开销非常大,严重影响了训练效率。DeepEP通过优化通信信道的使用率,减少了通信延迟,从而提升了MoE模型的训练效率。
摩尔线程的DeepEP适配:性能与效率的双重提升
摩尔线程基于其MUSA Compute Capability 3.1全功能GPU适配了DeepEP,并针对其硬件特性进行了深度优化。主要体现在以下几个方面:
-
高效优化的All-to-All通信: DeepEP的核心功能是实现高效的All-to-All通信,即所有GPU之间都需要进行数据交换。摩尔线程通过优化底层通信协议和硬件加速,显著提升了All-to-All通信的效率。
-
支持dispatch & combine: DeepEP支持dispatch & combine操作,可以将输入数据分配给不同的专家网络,并将专家网络的输出结果合并起来。摩尔线程针对dispatch & combine操作进行了优化,使其能够充分利用GPU的并行计算能力。
-
支持MTLink + GPU节点内通信: 摩尔线程的GPU支持MTLink高速互连技术,可以实现节点内GPU之间的高速数据传输。摩尔线程利用MTLink技术,优化了节点内GPU之间的通信效率,进一步提升了训练性能。
-
训练及推理预填充阶段的高吞吐量计算核心: 在MoE模型的训练和推理过程中,预填充阶段需要进行大量的计算。摩尔线程通过优化计算核心的性能,提升了预填充阶段的吞吐量,从而加快了训练和推理的速度。
-
解码阶段的低延迟计算核心: 在MoE模型的推理过程中,解码阶段对延迟要求非常高。摩尔线程通过优化计算核心的延迟,降低了解码阶段的延迟,从而提升了推理的实时性。
-
原生支持FP8数据分发: FP8(8位浮点数)是一种低精度的数据格式,可以减少内存占用和计算开销。摩尔线程的GPU原生支持FP8数据分发,可以进一步提升MoE模型的训练和推理效率。
-
灵活控制GPU资源,实现计算与通信的高效重叠: 摩尔线程的GPU提供了灵活的资源管理机制,可以根据不同的任务需求,动态调整GPU资源的分配。通过合理分配GPU资源,可以实现计算与通信的高效重叠,从而最大限度地提升训练效率。
DualPipe:打破流水线气泡,实现并行计算的极致优化
DualPipe是由DeepSeek-V3提出的双向流水线并行算法。在传统的流水线并行算法中,由于前向计算和后向计算之间存在依赖关系,会导致“流水线气泡”的出现,即某些设备在一段时间内处于空闲状态,从而降低了并行计算的效率。
DualPipe通过将前向计算和后向计算阶段的计算与通信完全重叠,减少了“流水线气泡”的出现,从而提升了并行计算的效率。具体来说,DualPipe将整个模型分成多个阶段,每个阶段由一个或多个GPU负责。在前向计算阶段,数据从第一个阶段流向最后一个阶段;在后向计算阶段,梯度从最后一个阶段流向第一个阶段。通过精心设计计算和通信的顺序,DualPipe可以实现计算和通信的完全重叠,从而最大限度地减少“流水线气泡”的出现。
摩尔线程的DualPipe适配:软硬件协同,释放并行潜力
摩尔线程依托其深度学习框架Torch-MUSA(已开源)和MUSA软件栈全方位的兼容性,实现了对DualPipe算法的支持。Torch-MUSA是摩尔线程自主研发的深度学习框架,它提供了丰富的API和工具,方便开发者进行模型训练和推理。MUSA软件栈是摩尔线程GPU的基础软件平台,它提供了底层的硬件加速和驱动支持。
通过Torch-MUSA和MUSA软件栈的协同作用,摩尔线程可以充分利用GPU的硬件特性,优化DualPipe算法的性能。具体来说,摩尔线程的DualPipe适配主要体现在以下几个方面:
-
完整接入MT-Megatron框架和MT-TransformerEngine框架: MT-Megatron和MT-TransformerEngine是摩尔线程自主研发的两个高性能Transformer模型训练框架。MT-Megatron主要用于训练大规模的Transformer模型,MT-TransformerEngine主要用于加速Transformer模型的推理。摩尔线程将DualPipe算法完整接入MT-Megatron框架和MT-TransformerEngine框架,使得开发者可以方便地使用DualPipe算法来训练和推理Transformer模型。
-
实现DeepSeek V3训练流程完整复现: 摩尔线程通过DualPipe算法,成功复现了DeepSeek V3模型的训练流程。这表明摩尔线程的GPU和软件栈已经具备了支持大规模深度学习模型训练的能力。
-
结合MT-Megatron实现DeepSeek V3模型MLP-FFN分离以及DW-DG分离: 摩尔线程结合MT-Megatron框架,实现了DeepSeek V3模型的MLP-FFN分离以及DW-DG分离。MLP-FFN分离是指将Transformer模型中的MLP(多层感知机)和FFN(前馈神经网络)分离到不同的GPU上进行计算。DW-DG分离是指将Transformer模型中的权重和梯度分离到不同的GPU上进行存储。通过MLP-FFN分离和DW-DG分离,可以进一步降低“流水线气泡”的占比,优化通信效率。
-
与MT-TranformerEngine和MT-DeepEP结合,利用MT-DeepEP和异步通信引擎实现更高效的通信掩盖: 摩尔线程将DualPipe算法与MT-TransformerEngine框架和MT-DeepEP通信库结合起来,利用MT-DeepEP的异步通信引擎,实现了更高效的通信掩盖。通过通信掩盖,可以将通信操作隐藏在计算操作之后,从而减少通信对计算的影响,进一步提升训练效率。
摩尔线程的开源贡献:加速国产AI生态建设
除了适配DeepSeek开源的DeepEP和DualPipe之外,摩尔线程还积极参与开源社区的建设,贡献了大量的代码和技术文档。摩尔线程的开源贡献,不仅加速了国产AI生态的建设,也提升了国产GPU在国际上的影响力。
摩尔线程开源的Torch-MUSA深度学习框架,为国内开发者提供了一个自主可控的深度学习平台。Torch-MUSA框架兼容PyTorch API,方便开发者从PyTorch迁移到Torch-MUSA。同时,Torch-MUSA框架针对摩尔线程GPU进行了深度优化,可以充分利用GPU的硬件特性,提升模型训练和推理的效率。
摩尔线程还开源了MT-Megatron和MT-TransformerEngine等高性能Transformer模型训练框架,为国内开发者提供了训练大规模Transformer模型的工具。这些框架不仅性能优越,而且易于使用,可以帮助开发者快速构建和部署各种人工智能应用。
展望未来:国产GPU的机遇与挑战
摩尔线程成功支持DeepSeek开源通信库DeepEP和并行算法DualPipe,是国产GPU在技术创新方面的一次重要突破。这一突破不仅为国内大模型训练提供了新的解决方案,也为国产GPU的未来发展带来了新的机遇。
随着人工智能技术的快速发展,对算力的需求将持续增长。国产GPU厂商需要不断提升自身的研发能力,推出更高性能、更具竞争力的产品,才能在激烈的市场竞争中占据一席之地。
同时,国产GPU厂商还需要加强与国内人工智能企业的合作,共同构建一个繁荣的AI生态系统。通过与人工智能企业的深度合作,国产GPU厂商可以更好地了解用户的需求,优化产品的性能,并为用户提供更好的服务。
国产GPU的崛起,不仅可以打破国外厂商的技术垄断,保障国内人工智能产业的安全可控,还可以为国内经济发展注入新的动力。我们期待着国产GPU在未来能够取得更大的成就,为中国人工智能产业的发展做出更大的贡献。
参考文献
- IT之家. 摩尔线程成功支持 DeepSeek 开源通信库 DeepEP 和并行算法 DualPipe. https://www.ithome.com/0/753/280.htm
- DeepSeek. DeepSeek 开源进度 4/5:DualPipe、EPLB 优化并行策略.
- DeepSeek. DeepSeek 开源进度 3/5:深度学习利器 DeepGEMM.
- DeepSeek. DeepSeek 开源进度 2/5:首个用于 MoE 模型训练和推理的 EP 通信库 DeepEP.
- DeepSeek. DeepSeek 代码库开源进度 1/5:为 Hopper GPU 优化的高效 MLA 解码内核 FlashMLA.
- Moore Threads. Torch-MUSA 开源地址. https://github.com/MooreThreads/Torch_MUSA
“`
Views: 0