正文:
随着人工智能技术的飞速发展,大模型训练成为各大企业竞相投入的领域。然而,大模型训练的成本高昂,其中算力浪费问题尤为突出。据百度智能云杰出系统架构师、AI计算部负责人王雁鹏在百度智能云举办的媒体技术沙龙上透露,目前企业训练大模型的算力有效利用率不足50%,意味着一半以上的算力被浪费。
大模型训练算力需求每年增长10倍,算力浪费问题凸显
自2012年以来,AI模型训练算力需求每3~4个月就翻一番,每年增长幅度高达10倍。OpenAI在2020年提出的Scaling law定律指出,大模型的最终性能与计算量、模型参数量及训练数据量的大小密切相关。因此,为了提升大模型的能力,就需要不断增加模型参数和训练数据量,这就需要部署大规模的训练集群。随着集群规模的不断扩大,训练成本也呈指数级增长。
算力有效利用率低,如何提升?
王雁鹏指出,算力有效利用率=能耗有效率✖单卡算力有效率✖并行扩展有效率✖有效训练时间✖资源利用率。其中每一项都是乘积关系,任何一项的表现有细微偏差,都会对整体算力利用率产生系统性影响。目前,提升任意一项都绝非易事,系统性提升更是难上加难。
百度智能云百舸AI异构计算平台助力提升算力利用率
针对以上5大核心技术难题,百度智能云已经连续3年升级百舸AI异构计算平台。从百度云的实践经验看,在提升能耗有效率方面,依托百舸打造的智算中心已经能够实现PUE值低于1.1;在提升单卡算力有效率方面,百舸所提供的大模型训推加速套件AIAK,可在主流开源大模型训练任务中,将MFU大幅提升至70%以上;在提升并行扩展有效率方面,百舸提供自动并行策略,把策略调优时间缩短至分钟级别;在提升有效训练时间方面,百舸能够提供全面的故障诊断手段以及自动容错能力,在万卡任务中实现大于99%的有效训练时长占比;在提升资源利用率方面,百舸支持训推一体技术,能够将算力资源利用率提升到90%。
未来,百度智能云将继续致力于提升大模型训练的算力利用率,为AI行业的发展贡献力量。
Views: 0