模型之争：算力浪费过半，谁将胜出？

正文：

在人工智能时代，大模型的发展推动了智能算力需求的激增。据估算，自2012年以来，AI模型训练算力需求每3至4个月就翻一番，每年增长幅度高达10倍。这一趋势在OpenAI于2020年提出的Scaling law定律中得到体现，指出大模型的最终性能与计算量、模型参数量及训练数据量的大小密切相关。因此，提升大模型能力的关键在于不断增大模型参数和训练数据量，进而需要部署大规模的训练集群。

然而，当前大模型训练过程中存在一个共性问题：算力利用率低。据百度智能云AI计算部负责人王雁鹏在百度智能云举办的媒体技术沙龙上表示，目前企业训练大模型的算力有效利用率不足50%，意味着一半以上的算力被浪费。

如何提升算力的有效利用率成为行业关注的焦点。王雁鹏指出，算力有效利用率取决于能耗有效率、单卡算力有效率、并行扩展有效率、有效训练时间和资源利用率等多个因素。目前，提升任意一项都存在挑战，系统性提升更是难上加难。

百度智能云针对这一问题，已连续3年升级百舸AI异构计算平台。从实践经验来看，在提升能耗有效率方面，依托百舸打造的智算中心已实现PUE值低于1.1；在提升单卡算力有效率方面，百舸提供的大模型训推加速套件AIAK将MFU大幅提升至70%以上；在提升并行扩展有效率方面，百舸提供自动并行策略，将策略调优时间缩短至分钟级别；在提升有效训练时间方面，百舸提供全面的故障诊断手段以及自动容错能力，实现大于99%的有效训练时长占比；在提升资源利用率方面，百舸支持训推一体技术，将算力资源利用率提升到90%。

此外，王雁鹏还介绍了如何提升能耗有效率、单卡算力有效率、并行扩展有效率、有效训练时间和资源利用率等方面的具体措施。例如，在提升能耗有效率方面，降低数据中心能耗，中国电网比美国有优势；在提升单卡算力有效率方面，使用AI加速套件，提升大模型训练的MFU；在提升并行扩展有效率方面，使用自动并行策略，降低策略调优时间；在提升有效训练时间方面，提升AI基础设施稳定性，减少故障恢复时间；在提升资源利用率方面，训推一体，提升资源利用率。

尽管百舸在提升GPU算力有效利用率方面取得了一定的成果，但面向未来10万卡超大规模的计算，还有许多工作要做。据悉，在2024百度云智大会上，百舸将再次升级，针对大模型的训练和推理服务，进一步提升算力有效利用率。

总结来说，模型之争的本质是算力之争。在人工智能时代，提升算力的有效利用率已成为行业关注的焦点。通过不断优化技术、提升基础设施稳定性，企业有望在算力利用效率方面取得更大的突破。

>>> Read more <<<