大模型训练成本揭秘：算力浪费超半数，市场投入几何？

作者智能小编

9 月 14, 2024 #机器之心, #训大

NEWS 新闻

正文：

在人工智能飞速发展的今天，大模型作为AI领域的重要突破，其训练成本之高昂一直是业界关注的焦点。近日，百度智能云举办的媒体技术沙龙上，百度杰出系统架构师、百度智能云AI计算部负责人王雁鹏揭示了其中原因，并提出了提升算力有效利用率的五大核心技术难题及解决方案。

王雁鹏指出，大模型训练成本高昂的主要原因是算力利用率低。目前，企业训练大模型的算力有效利用率不足50%，意味着一半以上的算力被浪费。在算力短缺且昂贵的当下，这种浪费无疑是一种巨大的挑战。

那么，如何提升算力的有效利用率呢？王雁鹏提出了五大核心技术难题：

提升能耗有效率：通过优化数据中心的制冷系统、提高设备的能效，降低PUE值，实现电力的有效利用。
提升单卡算力有效率：使用AI加速套件，对显存、算子等层面进行深度优化，提升GPU算力利用率。
提升并行扩展有效率：采用自动并行策略，降低策略调优时间，提高计算效率。
提升有效训练时间：提升AI基础设施稳定性，减少故障恢复时间。
提升资源利用率：支持训推一体技术，将算力资源利用率提升到90%。

针对以上五大难题，百度智能云已连续3年升级百舸AI异构计算平台，取得了显著成果。例如，在提升能耗有效率方面，依托百舸打造的智算中心已实现PUE值低于1.1；在提升单卡算力有效率方面，百舸提供的大模型训推加速套件AIAK，在主流开源大模型训练任务中，将MFU大幅提升至70%以上；在提升并行扩展有效率方面，百舸提供自动并行策略，把策略调优时间缩短至分钟级别；在提升有效训练时间方面，百舸能够提供全面的故障诊断手段以及自动容错能力，在万卡任务中实现大于99%的有效训练时长占比；在提升资源利用率方面，百舸支持训推一体技术，能够将算力资源利用率提升到90%。

尽管在万卡集群的GPU算力有效利用率上已达到国际领先水平，但王雁鹏表示，面向未来10万卡超大规模的计算，百度智能云仍需不断努力。据悉，在9月25日举办的2024百度云智大会上，百舸将再次升级，针对大模型的训练和推理服务，为业界提供更加高效、经济的解决方案。

总之，大模型训练成本高昂的原因在于算力利用率低。通过解决五大核心技术难题，我们可以有效提升算力的有效利用率，降低大模型训练成本，推动人工智能技术的广泛应用。

>>> Read more <<<