Talent” Takes a Backseat AI’s New Gold Rush is”Compute Power

9 月 25, 2024 #机器之心

根据您提供的信息，以下是关于“当大模型Scaling Law继续，万卡集群算力释放在‘百舸’这里找到一条通途”的详细分析：

算力需求的激增：
- 由于大模型规模急剧扩张，参数已经飙升到千亿甚至万亿级，AI训练和推理的算力需求呈指数级增长。
- OpenAI的估算显示，自2012年以来，AI模型训练所需的算力每3.5个月翻一番，每年增幅高达10倍，远远超过了摩尔定律的18个月翻一番的速度。
硬件挑战：
- 大规模GPU集群成为必然选择，但面临着多类型芯片混合训练、数据中心电力消耗、网络通信和负载、单卡算力效率、多卡并行计算、设施稳定性等挑战。
- 当前集群算力利用率不高且成本高昂，要求厂商在集群系统、框架和算法层面进行技术突破。

多芯异构计算平台「百舸」：
- 百舸AI异构计算平台由百度推出，旨在解决大模型训练和推理的算力需求。
- 百舸平台通过四层架构（资源层、组件层、大模型加速层和工具层）来优化算力资源的调用。
多芯混合训练：
- 百舸4.0构建了GPU和多类型AI芯片组成的单一智算集群，兼容国内外主流AI芯片的混合训练。
- 提供一键发起、支持多种使用场景和主流训练方式，性能损失控制在合理范围内。
大模型加速套件AIAK：
- AIAK支持大模型训练和推理加速，优化了并行策略、显存和算力，提升了整体训练效率。
- 特别是针对万亿参数MoE模型训练，整体训练效率提升了30%。
集群稳定性：
- 百舸4.0在万卡规模AI任务上的有效训练时长占比达到了99.5%，确保了计算资源的高效利用。
- 提供了数据工程能力，包括数据增强、效果评估和Prompt优化，进一步调优大模型调用全流程。
算力资源利用率：
- 通过训推一体技术，百舸4.0将算力资源利用率提升到90%，远超行业平均水平的50%。