Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

“`markdown

摩尔线程突破大模型训练瓶颈,成功支持DeepSeek开源通信库与并行算法

北京,2025年2月27日 – 在人工智能领域,大模型训练的效率一直是制约行业发展的关键瓶颈。今日,国内GPU厂商摩尔线程宣布,其已成功适配并支持由DeepSeek开源的通信库DeepEP和并行算法DualPipe,并在其MUSA架构的GPU上实现了显著的性能提升。这一突破性进展,不仅为国内大模型训练提供了新的解决方案,也标志着国产GPU在高性能计算领域迈出了重要一步。

引言:大模型时代的算力挑战与国产GPU的崛起

近年来,以GPT系列、BERT等为代表的大型语言模型(LLM)在自然语言处理、机器翻译、文本生成等领域取得了令人瞩目的成果。然而,这些模型的训练需要海量的计算资源,对GPU的性能、通信效率和并行计算能力提出了极高的要求。

在过去,NVIDIA等国际巨头在高性能GPU领域占据主导地位,国内企业在算力基础设施方面面临着“卡脖子”的风险。随着人工智能技术的快速发展,国产GPU厂商逐渐崛起,致力于打破技术壁垒,为国内人工智能产业提供自主可控的算力支撑。

摩尔线程作为国内领先的GPU厂商,一直致力于研发高性能、通用型的GPU产品。此次成功支持DeepSeek开源的DeepEP和DualPipe,是摩尔线程在人工智能领域的重要突破,也是国产GPU在技术创新方面的一次有力证明。

DeepSeek开源周:推动AI生态繁荣的里程碑

DeepSeek是一家专注于人工智能基础研究和应用开发的科技公司。为了促进人工智能技术的开放与共享,DeepSeek推出了开源周活动,陆续开源了一系列重要的技术成果,包括DeepEP通信库、DualPipe并行算法等。

DeepSeek的开源举措,旨在构建一个开放、合作、共赢的人工智能生态系统,吸引更多的开发者参与到大模型训练和应用开发中来。摩尔线程积极响应DeepSeek的开源倡议,投入大量资源进行技术适配和优化,最终成功实现了对DeepEP和DualPipe的支持。

DeepEP:解决MoE模型训练的通信难题

DeepEP(Expert Parallelism)是一个专门为MoE(混合专家)模型训练和推理设计的开源通信库。MoE模型是一种特殊的深度学习模型,它由多个“专家”网络组成,每个专家网络负责处理一部分输入数据。MoE模型具有强大的表达能力和泛化能力,被广泛应用于自然语言处理、推荐系统等领域。

然而,MoE模型的训练面临着巨大的通信挑战。由于每个专家网络都需要与其他专家网络进行数据交换,因此通信开销非常大,严重影响了训练效率。DeepEP通过优化通信信道的使用率,减少了通信延迟,从而提升了MoE模型的训练效率。

摩尔线程的DeepEP适配:性能与效率的双重提升

摩尔线程基于其MUSA Compute Capability 3.1全功能GPU适配了DeepEP,并针对其硬件特性进行了深度优化。主要体现在以下几个方面:

  • 高效优化的All-to-All通信: DeepEP的核心功能是实现高效的All-to-All通信,即所有GPU之间都需要进行数据交换。摩尔线程通过优化底层通信协议和硬件加速,显著提升了All-to-All通信的效率。

  • 支持dispatch & combine: DeepEP支持dispatch & combine操作,可以将输入数据分配给不同的专家网络,并将专家网络的输出结果合并起来。摩尔线程针对dispatch & combine操作进行了优化,使其能够充分利用GPU的并行计算能力。

  • 支持MTLink + GPU节点内通信: 摩尔线程的GPU支持MTLink高速互连技术,可以实现节点内GPU之间的高速数据传输。摩尔线程利用MTLink技术,优化了节点内GPU之间的通信效率,进一步提升了训练性能。

  • 训练及推理预填充阶段的高吞吐量计算核心: 在MoE模型的训练和推理过程中,预填充阶段需要进行大量的计算。摩尔线程通过优化计算核心的性能,提升了预填充阶段的吞吐量,从而加快了训练和推理的速度。

  • 解码阶段的低延迟计算核心: 在MoE模型的推理过程中,解码阶段对延迟要求非常高。摩尔线程通过优化计算核心的延迟,降低了解码阶段的延迟,从而提升了推理的实时性。

  • 原生支持FP8数据分发: FP8(8位浮点数)是一种低精度的数据格式,可以减少内存占用和计算开销。摩尔线程的GPU原生支持FP8数据分发,可以进一步提升MoE模型的训练和推理效率。

  • 灵活控制GPU资源,实现计算与通信的高效重叠: 摩尔线程的GPU提供了灵活的资源管理机制,可以根据不同的任务需求,动态调整GPU资源的分配。通过合理分配GPU资源,可以实现计算与通信的高效重叠,从而最大限度地提升训练效率。

DualPipe:打破流水线气泡,实现并行计算的极致优化

DualPipe是由DeepSeek-V3提出的双向流水线并行算法。在传统的流水线并行算法中,由于前向计算和后向计算之间存在依赖关系,会导致“流水线气泡”的出现,即某些设备在一段时间内处于空闲状态,从而降低了并行计算的效率。

DualPipe通过将前向计算和后向计算阶段的计算与通信完全重叠,减少了“流水线气泡”的出现,从而提升了并行计算的效率。具体来说,DualPipe将整个模型分成多个阶段,每个阶段由一个或多个GPU负责。在前向计算阶段,数据从第一个阶段流向最后一个阶段;在后向计算阶段,梯度从最后一个阶段流向第一个阶段。通过精心设计计算和通信的顺序,DualPipe可以实现计算和通信的完全重叠,从而最大限度地减少“流水线气泡”的出现。

摩尔线程的DualPipe适配:软硬件协同,释放并行潜力

摩尔线程依托其深度学习框架Torch-MUSA(已开源)和MUSA软件栈全方位的兼容性,实现了对DualPipe算法的支持。Torch-MUSA是摩尔线程自主研发的深度学习框架,它提供了丰富的API和工具,方便开发者进行模型训练和推理。MUSA软件栈是摩尔线程GPU的基础软件平台,它提供了底层的硬件加速和驱动支持。

通过Torch-MUSA和MUSA软件栈的协同作用,摩尔线程可以充分利用GPU的硬件特性,优化DualPipe算法的性能。具体来说,摩尔线程的DualPipe适配主要体现在以下几个方面:

  • 完整接入MT-Megatron框架和MT-TransformerEngine框架: MT-Megatron和MT-TransformerEngine是摩尔线程自主研发的两个高性能Transformer模型训练框架。MT-Megatron主要用于训练大规模的Transformer模型,MT-TransformerEngine主要用于加速Transformer模型的推理。摩尔线程将DualPipe算法完整接入MT-Megatron框架和MT-TransformerEngine框架,使得开发者可以方便地使用DualPipe算法来训练和推理Transformer模型。

  • 实现DeepSeek V3训练流程完整复现: 摩尔线程通过DualPipe算法,成功复现了DeepSeek V3模型的训练流程。这表明摩尔线程的GPU和软件栈已经具备了支持大规模深度学习模型训练的能力。

  • 结合MT-Megatron实现DeepSeek V3模型MLP-FFN分离以及DW-DG分离: 摩尔线程结合MT-Megatron框架,实现了DeepSeek V3模型的MLP-FFN分离以及DW-DG分离。MLP-FFN分离是指将Transformer模型中的MLP(多层感知机)和FFN(前馈神经网络)分离到不同的GPU上进行计算。DW-DG分离是指将Transformer模型中的权重和梯度分离到不同的GPU上进行存储。通过MLP-FFN分离和DW-DG分离,可以进一步降低“流水线气泡”的占比,优化通信效率。

  • 与MT-TranformerEngine和MT-DeepEP结合,利用MT-DeepEP和异步通信引擎实现更高效的通信掩盖: 摩尔线程将DualPipe算法与MT-TransformerEngine框架和MT-DeepEP通信库结合起来,利用MT-DeepEP的异步通信引擎,实现了更高效的通信掩盖。通过通信掩盖,可以将通信操作隐藏在计算操作之后,从而减少通信对计算的影响,进一步提升训练效率。

摩尔线程的开源贡献:加速国产AI生态建设

除了适配DeepSeek开源的DeepEP和DualPipe之外,摩尔线程还积极参与开源社区的建设,贡献了大量的代码和技术文档。摩尔线程的开源贡献,不仅加速了国产AI生态的建设,也提升了国产GPU在国际上的影响力。

摩尔线程开源的Torch-MUSA深度学习框架,为国内开发者提供了一个自主可控的深度学习平台。Torch-MUSA框架兼容PyTorch API,方便开发者从PyTorch迁移到Torch-MUSA。同时,Torch-MUSA框架针对摩尔线程GPU进行了深度优化,可以充分利用GPU的硬件特性,提升模型训练和推理的效率。

摩尔线程还开源了MT-Megatron和MT-TransformerEngine等高性能Transformer模型训练框架,为国内开发者提供了训练大规模Transformer模型的工具。这些框架不仅性能优越,而且易于使用,可以帮助开发者快速构建和部署各种人工智能应用。

展望未来:国产GPU的机遇与挑战

摩尔线程成功支持DeepSeek开源通信库DeepEP和并行算法DualPipe,是国产GPU在技术创新方面的一次重要突破。这一突破不仅为国内大模型训练提供了新的解决方案,也为国产GPU的未来发展带来了新的机遇。

随着人工智能技术的快速发展,对算力的需求将持续增长。国产GPU厂商需要不断提升自身的研发能力,推出更高性能、更具竞争力的产品,才能在激烈的市场竞争中占据一席之地。

同时,国产GPU厂商还需要加强与国内人工智能企业的合作,共同构建一个繁荣的AI生态系统。通过与人工智能企业的深度合作,国产GPU厂商可以更好地了解用户的需求,优化产品的性能,并为用户提供更好的服务。

国产GPU的崛起,不仅可以打破国外厂商的技术垄断,保障国内人工智能产业的安全可控,还可以为国内经济发展注入新的动力。我们期待着国产GPU在未来能够取得更大的成就,为中国人工智能产业的发展做出更大的贡献。

参考文献

  • IT之家. 摩尔线程成功支持 DeepSeek 开源通信库 DeepEP 和并行算法 DualPipe. https://www.ithome.com/0/753/280.htm
  • DeepSeek. DeepSeek 开源进度 4/5:DualPipe、EPLB 优化并行策略.
  • DeepSeek. DeepSeek 开源进度 3/5:深度学习利器 DeepGEMM.
  • DeepSeek. DeepSeek 开源进度 2/5:首个用于 MoE 模型训练和推理的 EP 通信库 DeepEP.
  • DeepSeek. DeepSeek 代码库开源进度 1/5:为 Hopper GPU 优化的高效 MLA 解码内核 FlashMLA.
  • Moore Threads. Torch-MUSA 开源地址. https://github.com/MooreThreads/Torch_MUSA
    “`


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注