Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

NEWS 新闻NEWS 新闻
0

正文:

在人工智能飞速发展的今天,大模型作为AI领域的重要突破,其训练成本之高昂一直是业界关注的焦点。近日,百度智能云举办的媒体技术沙龙上,百度杰出系统架构师、百度智能云AI计算部负责人王雁鹏揭示了其中原因,并提出了提升算力有效利用率的五大核心技术难题及解决方案。

王雁鹏指出,大模型训练成本高昂的主要原因是算力利用率低。目前,企业训练大模型的算力有效利用率不足50%,意味着一半以上的算力被浪费。在算力短缺且昂贵的当下,这种浪费无疑是一种巨大的挑战。

那么,如何提升算力的有效利用率呢?王雁鹏提出了五大核心技术难题:

  1. 提升能耗有效率:通过优化数据中心的制冷系统、提高设备的能效,降低PUE值,实现电力的有效利用。

  2. 提升单卡算力有效率:使用AI加速套件,对显存、算子等层面进行深度优化,提升GPU算力利用率。

  3. 提升并行扩展有效率:采用自动并行策略,降低策略调优时间,提高计算效率。

  4. 提升有效训练时间:提升AI基础设施稳定性,减少故障恢复时间。

  5. 提升资源利用率:支持训推一体技术,将算力资源利用率提升到90%。

针对以上五大难题,百度智能云已连续3年升级百舸AI异构计算平台,取得了显著成果。例如,在提升能耗有效率方面,依托百舸打造的智算中心已实现PUE值低于1.1;在提升单卡算力有效率方面,百舸提供的大模型训推加速套件AIAK,在主流开源大模型训练任务中,将MFU大幅提升至70%以上;在提升并行扩展有效率方面,百舸提供自动并行策略,把策略调优时间缩短至分钟级别;在提升有效训练时间方面,百舸能够提供全面的故障诊断手段以及自动容错能力,在万卡任务中实现大于99%的有效训练时长占比;在提升资源利用率方面,百舸支持训推一体技术,能够将算力资源利用率提升到90%。

尽管在万卡集群的GPU算力有效利用率上已达到国际领先水平,但王雁鹏表示,面向未来10万卡超大规模的计算,百度智能云仍需不断努力。据悉,在9月25日举办的2024百度云智大会上,百舸将再次升级,针对大模型的训练和推理服务,为业界提供更加高效、经济的解决方案。

总之,大模型训练成本高昂的原因在于算力利用率低。通过解决五大核心技术难题,我们可以有效提升算力的有效利用率,降低大模型训练成本,推动人工智能技术的广泛应用。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注