“`markdown

摩尔线程突破大模型训练瓶颈，成功支持DeepSeek开源通信库与并行算法

北京，2025年2月27日 – 在人工智能领域，大模型训练的效率一直是制约行业发展的关键瓶颈。今日，国内GPU厂商摩尔线程宣布，其已成功适配并支持由DeepSeek开源的通信库DeepEP和并行算法DualPipe，并在其MUSA架构的GPU上实现了显著的性能提升。这一突破性进展，不仅为国内大模型训练提供了新的解决方案，也标志着国产GPU在高性能计算领域迈出了重要一步。

引言：大模型时代的算力挑战与国产GPU的崛起

近年来，以GPT系列、BERT等为代表的大型语言模型（LLM）在自然语言处理、机器翻译、文本生成等领域取得了令人瞩目的成果。然而，这些模型的训练需要海量的计算资源，对GPU的性能、通信效率和并行计算能力提出了极高的要求。

在过去，NVIDIA等国际巨头在高性能GPU领域占据主导地位，国内企业在算力基础设施方面面临着“卡脖子”的风险。随着人工智能技术的快速发展，国产GPU厂商逐渐崛起，致力于打破技术壁垒，为国内人工智能产业提供自主可控的算力支撑。

摩尔线程作为国内领先的GPU厂商，一直致力于研发高性能、通用型的GPU产品。此次成功支持DeepSeek开源的DeepEP和DualPipe，是摩尔线程在人工智能领域的重要突破，也是国产GPU在技术创新方面的一次有力证明。

DeepSeek开源周：推动AI生态繁荣的里程碑

DeepSeek是一家专注于人工智能基础研究和应用开发的科技公司。为了促进人工智能技术的开放与共享，DeepSeek推出了开源周活动，陆续开源了一系列重要的技术成果，包括DeepEP通信库、DualPipe并行算法等。

DeepSeek的开源举措，旨在构建一个开放、合作、共赢的人工智能生态系统，吸引更多的开发者参与到大模型训练和应用开发中来。摩尔线程积极响应DeepSeek的开源倡议，投入大量资源进行技术适配和优化，最终成功实现了对DeepEP和DualPipe的支持。

DeepEP：解决MoE模型训练的通信难题

DeepEP（Expert Parallelism）是一个专门为MoE（混合专家）模型训练和推理设计的开源通信库。MoE模型是一种特殊的深度学习模型，它由多个“专家”网络组成，每个专家网络负责处理一部分输入数据。MoE模型具有强大的表达能力和泛化能力，被广泛应用于自然语言处理、推荐系统等领域。

然而，MoE模型的训练面临着巨大的通信挑战。由于每个专家网络都需要与其他专家网络进行数据交换，因此通信开销非常大，严重影响了训练效率。DeepEP通过优化通信信道的使用率，减少了通信延迟，从而提升了MoE模型的训练效率。

摩尔线程的DeepEP适配：性能与效率的双重提升

摩尔线程基于其MUSA Compute Capability 3.1全功能GPU适配了DeepEP，并针对其硬件特性进行了深度优化。主要体现在以下几个方面：

高效优化的All-to-All通信： DeepEP的核心功能是实现高效的All-to-All通信，即所有GPU之间都需要进行数据交换。摩尔线程通过优化底层通信协议和硬件加速，显著提升了All-to-All通信的效率。
支持dispatch & combine： DeepEP支持dispatch & combine操作，可以将输入数据分配给不同的专家网络，并将专家网络的输出结果合并起来。摩尔线程针对dispatch & combine操作进行了优化，使其能够充分利用GPU的并行计算能力。
支持MTLink + GPU节点内通信： 摩尔线程的GPU支持MTLink高速互连技术，可以实现节点内GPU之间的高速数据传输。摩尔线程利用MTLink技术，优化了节点内GPU之间的通信效率，进一步提升了训练性能。
训练及推理预填充阶段的高吞吐量计算核心： 在MoE模型的训练和推理过程中，预填充阶段需要进行大量的计算。摩尔线程通过优化计算核心的性能，提升了预填充阶段的吞吐量，从而加快了训练和推理的速度。
解码阶段的低延迟计算核心： 在MoE模型的推理过程中，解码阶段对延迟要求非常高。摩尔线程通过优化计算核心的延迟，降低了解码阶段的延迟，从而提升了推理的实时性。
原生支持FP8数据分发： FP8（8位浮点数）是一种低精度的数据格式，可以减少内存占用和计算开销。摩尔线程的GPU原生支持FP8数据分发，可以进一步提升MoE模型的训练和推理效率。
灵活控制GPU资源，实现计算与通信的高效重叠： 摩尔线程的GPU提供了灵活的资源管理机制，可以根据不同的任务需求，动态调整GPU资源的分配。通过合理分配GPU资源，可以实现计算与通信的高效重叠，从而最大限度地提升训练效率。

DualPipe：打破流水线气泡，实现并行计算的极致优化

DualPipe是由DeepSeek-V3提出的双向流水线并行算法。在传统的流水线并行算法中，由于前向计算和后向计算之间存在依赖关系，会导致“流水线气泡”的出现，即某些设备在一段时间内处于空闲状态，从而降低了并行计算的效率。

DualPipe通过将前向计算和后向计算阶段的计算与通信完全重叠，减少了“流水线气泡”的出现，从而提升了并行计算的效率。具体来说，DualPipe将整个模型分成多个阶段，每个阶段由一个或多个GPU负责。在前向计算阶段，数据从第一个阶段流向最后一个阶段；在后向计算阶段，梯度从最后一个阶段流向第一个阶段。通过精心设计计算和通信的顺序，DualPipe可以实现计算和通信的完全重叠，从而最大限度地减少“流水线气泡”的出现。

摩尔线程的DualPipe适配：软硬件协同，释放并行潜力

摩尔线程依托其深度学习框架Torch-MUSA（已开源）和MUSA软件栈全方位的兼容性，实现了对DualPipe算法的支持。Torch-MUSA是摩尔线程自主研发的深度学习框架，它提供了丰富的API和工具，方便开发者进行模型训练和推理。MUSA软件栈是摩尔线程GPU的基础软件平台，它提供了底层的硬件加速和驱动支持。

通过Torch-MUSA和MUSA软件栈的协同作用，摩尔线程可以充分利用GPU的硬件特性，优化DualPipe算法的性能。具体来说，摩尔线程的DualPipe适配主要体现在以下几个方面：

完整接入MT-Megatron框架和MT-TransformerEngine框架： MT-Megatron和MT-TransformerEngine是摩尔线程自主研发的两个高性能Transformer模型训练框架。MT-Megatron主要用于训练大规模的Transformer模型，MT-TransformerEngine主要用于加速Transformer模型的推理。摩尔线程将DualPipe算法完整接入MT-Megatron框架和MT-TransformerEngine框架，使得开发者可以方便地使用DualPipe算法来训练和推理Transformer模型。
实现DeepSeek V3训练流程完整复现： 摩尔线程通过DualPipe算法，成功复现了DeepSeek V3模型的训练流程。这表明摩尔线程的GPU和软件栈已经具备了支持大规模深度学习模型训练的能力。
结合MT-Megatron实现DeepSeek V3模型MLP-FFN分离以及DW-DG分离： 摩尔线程结合MT-Megatron框架，实现了DeepSeek V3模型的MLP-FFN分离以及DW-DG分离。MLP-FFN分离是指将Transformer模型中的MLP（多层感知机）和FFN（前馈神经网络）分离到不同的GPU上进行计算。DW-DG分离是指将Transformer模型中的权重和梯度分离到不同的GPU上进行存储。通过MLP-FFN分离和DW-DG分离，可以进一步降低“流水线气泡”的占比，优化通信效率。
与MT-TranformerEngine和MT-DeepEP结合，利用MT-DeepEP和异步通信引擎实现更高效的通信掩盖： 摩尔线程将DualPipe算法与MT-TransformerEngine框架和MT-DeepEP通信库结合起来，利用MT-DeepEP的异步通信引擎，实现了更高效的通信掩盖。通过通信掩盖，可以将通信操作隐藏在计算操作之后，从而减少通信对计算的影响，进一步提升训练效率。

摩尔线程的开源贡献：加速国产AI生态建设

除了适配DeepSeek开源的DeepEP和DualPipe之外，摩尔线程还积极参与开源社区的建设，贡献了大量的代码和技术文档。摩尔线程的开源贡献，不仅加速了国产AI生态的建设，也提升了国产GPU在国际上的影响力。

摩尔线程开源的Torch-MUSA深度学习框架，为国内开发者提供了一个自主可控的深度学习平台。Torch-MUSA框架兼容PyTorch API，方便开发者从PyTorch迁移到Torch-MUSA。同时，Torch-MUSA框架针对摩尔线程GPU进行了深度优化，可以充分利用GPU的硬件特性，提升模型训练和推理的效率。

摩尔线程还开源了MT-Megatron和MT-TransformerEngine等高性能Transformer模型训练框架，为国内开发者提供了训练大规模Transformer模型的工具。这些框架不仅性能优越，而且易于使用，可以帮助开发者快速构建和部署各种人工智能应用。

展望未来：国产GPU的机遇与挑战

摩尔线程成功支持DeepSeek开源通信库DeepEP和并行算法DualPipe，是国产GPU在技术创新方面的一次重要突破。这一突破不仅为国内大模型训练提供了新的解决方案，也为国产GPU的未来发展带来了新的机遇。

随着人工智能技术的快速发展，对算力的需求将持续增长。国产GPU厂商需要不断提升自身的研发能力，推出更高性能、更具竞争力的产品，才能在激烈的市场竞争中占据一席之地。

同时，国产GPU厂商还需要加强与国内人工智能企业的合作，共同构建一个繁荣的AI生态系统。通过与人工智能企业的深度合作，国产GPU厂商可以更好地了解用户的需求，优化产品的性能，并为用户提供更好的服务。

国产GPU的崛起，不仅可以打破国外厂商的技术垄断，保障国内人工智能产业的安全可控，还可以为国内经济发展注入新的动力。我们期待着国产GPU在未来能够取得更大的成就，为中国人工智能产业的发展做出更大的贡献。

参考文献

IT之家. 摩尔线程成功支持 DeepSeek 开源通信库 DeepEP 和并行算法 DualPipe. https://www.ithome.com/0/753/280.htm
DeepSeek. DeepSeek 开源进度 4/5：DualPipe、EPLB 优化并行策略.
DeepSeek. DeepSeek 开源进度 3/5：深度学习利器 DeepGEMM.
DeepSeek. DeepSeek 开源进度 2/5：首个用于 MoE 模型训练和推理的 EP 通信库 DeepEP.
DeepSeek. DeepSeek 代码库开源进度 1/5：为 Hopper GPU 优化的高效 MLA 解码内核 FlashMLA.
Moore Threads. Torch-MUSA 开源地址. https://github.com/MooreThreads/Torch_MUSA
“`

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

摩尔线程力挺DeepSeek，加速AI并行计算

作者智能小编

摩尔线程突破大模型训练瓶颈，成功支持DeepSeek开源通信库与并行算法

引言：大模型时代的算力挑战与国产GPU的崛起

DeepSeek开源周：推动AI生态繁荣的里程碑

DeepEP：解决MoE模型训练的通信难题

摩尔线程的DeepEP适配：性能与效率的双重提升

DualPipe：打破流水线气泡，实现并行计算的极致优化

摩尔线程的DualPipe适配：软硬件协同，释放并行潜力

摩尔线程的开源贡献：加速国产AI生态建设

展望未来：国产GPU的机遇与挑战

参考文献

相关文章

Tencent-Backed Founder Builds AIGC Platform Boasts High Engagement & Conversion

ICLR 2025：中国科大、Meta论文荣膺杰出奖

腾讯收购后再创业，AIGC交互平台用户粘性惊人

发表回复取消回复

为您推荐

Tencent-Backed Founder Builds AIGC Platform Boasts High Engagement & Conversion

ICLR 2025：中国科大、Meta论文荣膺杰出奖

腾讯收购后再创业，AIGC交互平台用户粘性惊人

国产Vidu Q1爆红！AI视频技术登顶VBench

作者智能小编

摩尔线程突破大模型训练瓶颈，成功支持DeepSeek开源通信库与并行算法

引言：大模型时代的算力挑战与国产GPU的崛起

DeepSeek开源周：推动AI生态繁荣的里程碑

DeepEP：解决MoE模型训练的通信难题

摩尔线程的DeepEP适配：性能与效率的双重提升

DualPipe：打破流水线气泡，实现并行计算的极致优化

摩尔线程的DualPipe适配：软硬件协同，释放并行潜力

摩尔线程的开源贡献：加速国产AI生态建设

展望未来：国产GPU的机遇与挑战

参考文献

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复