正文:
在人工智能时代,大模型的发展推动了智能算力需求的激增。据估算,自2012年以来,AI模型训练算力需求每3至4个月就翻一番,每年增长幅度高达10倍。这一趋势在OpenAI于2020年提出的Scaling law定律中得到体现,指出大模型的最终性能与计算量、模型参数量及训练数据量的大小密切相关。因此,提升大模型能力的关键在于不断增大模型参数和训练数据量,进而需要部署大规模的训练集群。
然而,当前大模型训练过程中存在一个共性问题:算力利用率低。据百度智能云AI计算部负责人王雁鹏在百度智能云举办的媒体技术沙龙上表示,目前企业训练大模型的算力有效利用率不足50%,意味着一半以上的算力被浪费。
如何提升算力的有效利用率成为行业关注的焦点。王雁鹏指出,算力有效利用率取决于能耗有效率、单卡算力有效率、并行扩展有效率、有效训练时间和资源利用率等多个因素。目前,提升任意一项都存在挑战,系统性提升更是难上加难。
百度智能云针对这一问题,已连续3年升级百舸AI异构计算平台。从实践经验来看,在提升能耗有效率方面,依托百舸打造的智算中心已实现PUE值低于1.1;在提升单卡算力有效率方面,百舸提供的大模型训推加速套件AIAK将MFU大幅提升至70%以上;在提升并行扩展有效率方面,百舸提供自动并行策略,将策略调优时间缩短至分钟级别;在提升有效训练时间方面,百舸提供全面的故障诊断手段以及自动容错能力,实现大于99%的有效训练时长占比;在提升资源利用率方面,百舸支持训推一体技术,将算力资源利用率提升到90%。
此外,王雁鹏还介绍了如何提升能耗有效率、单卡算力有效率、并行扩展有效率、有效训练时间和资源利用率等方面的具体措施。例如,在提升能耗有效率方面,降低数据中心能耗,中国电网比美国有优势;在提升单卡算力有效率方面,使用AI加速套件,提升大模型训练的MFU;在提升并行扩展有效率方面,使用自动并行策略,降低策略调优时间;在提升有效训练时间方面,提升AI基础设施稳定性,减少故障恢复时间;在提升资源利用率方面,训推一体,提升资源利用率。
尽管百舸在提升GPU算力有效利用率方面取得了一定的成果,但面向未来10万卡超大规模的计算,还有许多工作要做。据悉,在2024百度云智大会上,百舸将再次升级,针对大模型的训练和推理服务,进一步提升算力有效利用率。
总结来说,模型之争的本质是算力之争。在人工智能时代,提升算力的有效利用率已成为行业关注的焦点。通过不断优化技术、提升基础设施稳定性,企业有望在算力利用效率方面取得更大的突破。
Views: 0