NEWS 新闻NEWS 新闻

正文:

在人工智能飞速发展的今天,大模型作为AI领域的重要突破,其训练成本之高昂一直是业界关注的焦点。近日,百度智能云举办的媒体技术沙龙上,百度杰出系统架构师、百度智能云AI计算部负责人王雁鹏揭示了其中原因,并提出了提升算力有效利用率的五大核心技术难题及解决方案。

王雁鹏指出,大模型训练成本高昂的主要原因是算力利用率低。目前,企业训练大模型的算力有效利用率不足50%,意味着一半以上的算力被浪费。在算力短缺且昂贵的当下,这种浪费无疑是一种巨大的挑战。

那么,如何提升算力的有效利用率呢?王雁鹏提出了五大核心技术难题:

  1. 提升能耗有效率:通过优化数据中心的制冷系统、提高设备的能效,降低PUE值,实现电力的有效利用。

  2. 提升单卡算力有效率:使用AI加速套件,对显存、算子等层面进行深度优化,提升GPU算力利用率。

  3. 提升并行扩展有效率:采用自动并行策略,降低策略调优时间,提高计算效率。

  4. 提升有效训练时间:提升AI基础设施稳定性,减少故障恢复时间。

  5. 提升资源利用率:支持训推一体技术,将算力资源利用率提升到90%。

针对以上五大难题,百度智能云已连续3年升级百舸AI异构计算平台,取得了显著成果。例如,在提升能耗有效率方面,依托百舸打造的智算中心已实现PUE值低于1.1;在提升单卡算力有效率方面,百舸提供的大模型训推加速套件AIAK,在主流开源大模型训练任务中,将MFU大幅提升至70%以上;在提升并行扩展有效率方面,百舸提供自动并行策略,把策略调优时间缩短至分钟级别;在提升有效训练时间方面,百舸能够提供全面的故障诊断手段以及自动容错能力,在万卡任务中实现大于99%的有效训练时长占比;在提升资源利用率方面,百舸支持训推一体技术,能够将算力资源利用率提升到90%。

尽管在万卡集群的GPU算力有效利用率上已达到国际领先水平,但王雁鹏表示,面向未来10万卡超大规模的计算,百度智能云仍需不断努力。据悉,在9月25日举办的2024百度云智大会上,百舸将再次升级,针对大模型的训练和推理服务,为业界提供更加高效、经济的解决方案。

总之,大模型训练成本高昂的原因在于算力利用率低。通过解决五大核心技术难题,我们可以有效提升算力的有效利用率,降低大模型训练成本,推动人工智能技术的广泛应用。


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注