AI时代，算力成“无价之宝”！

9 月 25, 2024 #机器之心, #算力

shanghai

随着人工智能行业的快速发展，大模型时代的到来使得算力成为了最宝贵的资源。在电影《天下无贼》中，葛优扮演的黎叔的经典台词“二十一世纪什么最贵？人才！”如今在人工智能领域，已经被“算力”所取代。近日，百度在2024百度云智大会上推出了百舸4.0，一款能够高效释放万卡集群算力的AI异构计算平台。

正文：

在人工智能领域，模型的规模和复杂度不断攀升，参数量已经达到了千亿甚至万亿级别。这导致算力需求呈现爆炸式增长，无论是模型训练还是推理阶段，都对GPU等硬件提出了更高的要求。为了满足这一需求，国内外科技厂商纷纷布局AI算力基础设施，致力于打造大规模GPU算力集群。

然而，在追求算力的同时，如何高效利用算力资源、降低成本、提高稳定性成为了一个亟待解决的问题。百度百舸4.0正是在这样的背景下应运而生，它通过以下五个方面的优化，成功解锁了万卡集群算力的秘密：

多芯异构：百舸4.0构建了GPU和多类型AI芯片组成的单一智算集群，兼容了国内外主流AI芯片的混合训练，如昆仑芯、昇腾、海光DCU、英伟达、英特尔等。这种多芯异构的设计，不仅提高了算力资源的利用率，还降低了用户对单一芯片的依赖。
大模型训推加速：百舸4.0通过全新升级的AIAK训练加速和推理加速套件，针对主流开源大模型进行了深度优化，实现了万亿参数MoE模型的训练和推理加速，提升了整体训练效率。
稳定性和效率：百舸4.0在万卡规模AI任务上的有效训练时长占比达到了99.5%，这意味着昂贵的计算资源得到了最大化利用，浪费更少，成本效益更高。
训推一体：百舸4.0实现了训推之间的算力自由切换，使得集群可以同时支持在线推理服务部署和离线训练任务，提高了算力资源利用率，达到了90%。
易用性和快速部署：百舸4.0简化了配置和调试工作，用户最快1小时便能创建万卡规模集群，大大缩短了部署时间。