AI Training Costs Skyrocket Experts Reveal Over 50% of Computing PowerWasted

作者智能小编

9 月 14, 2024 #high, #机器之心

正文：

随着人工智能技术的飞速发展，大模型训练成为各大企业竞相投入的领域。然而，大模型训练的成本高昂，其中算力浪费问题尤为突出。据百度智能云杰出系统架构师、AI计算部负责人王雁鹏在百度智能云举办的媒体技术沙龙上透露，目前企业训练大模型的算力有效利用率不足50%，意味着一半以上的算力被浪费。

大模型训练算力需求每年增长10倍，算力浪费问题凸显

自2012年以来，AI模型训练算力需求每3~4个月就翻一番，每年增长幅度高达10倍。OpenAI在2020年提出的Scaling law定律指出，大模型的最终性能与计算量、模型参数量及训练数据量的大小密切相关。因此，为了提升大模型的能力，就需要不断增加模型参数和训练数据量，这就需要部署大规模的训练集群。随着集群规模的不断扩大，训练成本也呈指数级增长。

算力有效利用率低，如何提升？

王雁鹏指出，算力有效利用率=能耗有效率✖单卡算力有效率✖并行扩展有效率✖有效训练时间✖资源利用率。其中每一项都是乘积关系，任何一项的表现有细微偏差，都会对整体算力利用率产生系统性影响。目前，提升任意一项都绝非易事，系统性提升更是难上加难。

百度智能云百舸AI异构计算平台助力提升算力利用率

针对以上5大核心技术难题，百度智能云已经连续3年升级百舸AI异构计算平台。从百度云的实践经验看，在提升能耗有效率方面，依托百舸打造的智算中心已经能够实现PUE值低于1.1；在提升单卡算力有效率方面，百舸所提供的大模型训推加速套件AIAK，可在主流开源大模型训练任务中，将MFU大幅提升至70%以上；在提升并行扩展有效率方面，百舸提供自动并行策略，把策略调优时间缩短至分钟级别；在提升有效训练时间方面，百舸能够提供全面的故障诊断手段以及自动容错能力，在万卡任务中实现大于99%的有效训练时长占比；在提升资源利用率方面，百舸支持训推一体技术，能够将算力资源利用率提升到90%。

未来，百度智能云将继续致力于提升大模型训练的算力利用率，为AI行业的发展贡献力量。

>>> Read more <<<