合肥讯 – 在人工智能技术日新月异的浪潮中,算力已成为制约大模型发展的关键瓶颈。近日,科大讯飞研究院宣布与华为联合攻关,在国产算力领域取得重大突破,率先实现了国产算力集群上MoE(Mixture of Experts,混合专家)模型的大规模跨节点专家并行集群推理。这一成果不仅标志着国产算力在支撑复杂AI模型推理能力上的显著提升,也为我国人工智能产业的自主可控发展注入了强劲动力。
背景:大模型时代的算力挑战
近年来,以Transformer为代表的深度学习模型在自然语言处理、计算机视觉等领域取得了巨大成功。为了进一步提升模型性能,研究人员不断探索更大的模型规模和更复杂的模型结构。MoE模型作为一种新型的神经网络架构,通过引入多个“专家”子网络,并根据输入数据的特点动态选择合适的专家进行计算,从而在不显著增加计算量的情况下,大幅提升模型容量和性能。
然而,MoE模型的训练和推理对算力提出了极高的要求。尤其是在大规模集群上进行并行推理时,需要解决数据分发、通信同步、负载均衡等一系列技术难题。长期以来,高性能算力主要依赖于国外厂商,这给我国人工智能产业的自主可控发展带来了潜在风险。
科大讯飞-华为联合团队的突破性进展
面对算力瓶颈,科大讯飞与华为强强联合,组建了一支精锐的研发团队,致力于突破国产算力在支撑大模型推理方面的技术瓶颈。经过不懈努力,该联合团队在国产昇腾集群上成功实现了MoE模型的大规模跨节点专家并行集群推理,取得了以下关键突破:
1. 软硬件深度协同创新
科大讯飞-华为联合团队深知,仅仅依靠硬件或软件的单方面提升难以实现质的飞跃。因此,他们从底层硬件架构出发,结合上层软件算法的特点,进行了全方位的深度协同创新。
- 算子融合优化: 在MLA(Machine Learning Accelerator,机器学习加速器)预处理阶段,团队充分利用昇腾芯片的异构计算能力,将Vector(向量)和Cube(立方体)计算单元并行流水,大幅提升计算效率。同时,他们将多个小算子融合重构为原子级计算单元,消除了小算子下发带来的额外开销,最终将MLA前处理时延降低了50%以上。
- 混合并行策略: 针对MoE模型的特点,团队创新性地构建了TP(Tensor Parallelism,张量并行)+EP(Expert Parallelism,专家并行)混合范式。对于MLA计算层,采用机内TP并行,充分发挥机内高速互联的优势,降低跨机通信损耗。
- 专家分层调度: 团队创新MoE专家分层调度策略,将64张加速卡均衡分配给专家计算节点,并定制AllToAll通信协议,将专家数据交换效率提升40%。通过构建跨机/机内双层通信架构,分层优化降低跨机流量60%。
- 负载均衡算法: 为了避免因专家计算负载不均衡而导致的性能瓶颈,团队研发了路由专家负载均衡算法,实现了卡间负载差异小于10%,集群吞吐量提升30%。
2. 分布式架构创新与算法协同优化
除了软硬件协同创新外,科大讯飞-华为联合团队还在分布式架构和算法层面进行了深入优化,进一步提升了国产算力的利用效率。
- 单卡内存优化: 通过精细的内存管理和优化,团队将单卡静态内存占用缩减至双机部署的1/4,效率提升75%。
- 专家计算密度提升: 优化后的方案使得专家计算密度增加4倍,这意味着在相同的硬件资源下,可以支持更大规模的MoE模型。
- 推理性能提升: 通过上述一系列优化措施,推理吞吐量提升3.2倍,端到端时延降低50%,显著提升了推理效率。
3. 应用于讯飞星火大模型
科大讯飞将这一突破性的解决方案应用于讯飞星火深度推理模型的训练加速,预期训练时推理效率将提升200%。同时,基于该方案的推理引擎也实现了国产算力上DeepSeek V3和R1的高效推理。
意义:国产算力自主可控的关键一步
科大讯飞与华为联合团队在国产算力领域取得的突破,具有重要的战略意义和产业价值:
1. 突破算力瓶颈,加速大模型发展
算力是人工智能发展的基石。科大讯飞-华为联合团队的突破,有效提升了国产算力在支撑大模型推理方面的能力,为我国人工智能产业的快速发展提供了坚实的算力保障。
2. 推动国产算力生态建设
科大讯飞与华为的合作,不仅在技术上取得了突破,也为国产算力生态的建设树立了标杆。通过与硬件厂商的深度协同,软件开发者可以更好地利用国产算力的优势,开发出更高效、更强大的AI应用。
3. 提升人工智能产业自主可控能力
长期以来,我国人工智能产业在算力方面存在对外依赖。科大讯飞-华为联合团队的突破,打破了国外厂商在高性能算力领域的垄断,提升了我国人工智能产业的自主可控能力,为国家安全提供了有力保障。
4. 降低大模型应用成本,加速AI普惠
通过提升国产算力的利用效率,科大讯飞-华为联合团队降低了大模型应用成本,为人工智能技术的普及应用创造了条件。这将有助于加速人工智能技术在各行各业的落地,推动经济社会智能化转型。
科大讯飞的国产化战略
科大讯飞始终坚定走国产化道路,星火X1也是当前唯一采用全国产算力训练的深度推理大模型。这一战略选择体现了科大讯飞对国家自主创新战略的积极响应,以及对国产算力发展前景的坚定信心。
科大讯飞表示,将持续迭代升级星火大模型,并通过推理引擎加速为开发者带来更普惠的星火SparkAPI,星火大模型系列API以及星辰MaaS平台上开源的相关模型API成本也将进一步降低,为开发者提供更优惠、更可靠的自主可控新选择。
展望:国产算力的未来
科大讯飞与华为的合作,为国产算力的发展注入了新的活力。随着技术的不断进步和生态的日益完善,国产算力将在人工智能领域发挥越来越重要的作用。
未来,国产算力有望在以下几个方面取得更大的突破:
- 硬件性能提升: 通过采用更先进的芯片制造工艺和架构设计,进一步提升国产算力的计算能力和能效比。
- 软件生态完善: 建立更加开放、完善的软件生态,吸引更多的开发者参与到国产算力的应用开发中来。
- 应用场景拓展: 将国产算力应用于更多的领域,如智能制造、智慧医疗、智慧城市等,推动各行各业的智能化转型。
- 安全可信保障: 加强国产算力的安全可信保障,确保国家关键基础设施的安全稳定运行。
科大讯飞与华为的合作,只是国产算力发展的一个缩影。相信在政府、企业、科研机构的共同努力下,国产算力必将迎来更加美好的未来,为我国人工智能产业的蓬勃发展提供强劲动力。
关键词: 科大讯飞,华为,国产算力,MoE模型,大规模跨节点专家并行集群推理,昇腾集群,人工智能,大模型,自主可控,星火大模型
参考文献:
- 科大讯飞研究院官方微信公众号文章:科大讯飞联合华为率先实现国产算力大规模跨节点专家并行集群推理
- DeepSeek官方网站
- OpenAI官方网站
致谢:
感谢科大讯飞研究院和华为团队为本文提供的资料和技术支持。
Views: 0