2024年9月2日
在人工智能推理领域,一场激烈的竞赛正在上演。近日,ML Commons 发布了最新的 AI 推理竞赛 MLPerf Inference v4.1 的成绩单,多家科技巨头和初创公司参与其中,竞相展示其在 AI 推理方面的实力。
英伟达Blackwell芯片表现卓越
尽管英伟达在 AI 训练领域的主导地位难以撼动,但在推理方面,竞争对手正逐渐迎头赶上。然而,英伟达新推出的 Blackwell 芯片以其卓越性能,依然保持了领先地位。
在本轮竞赛中,英伟达 Blackwell 芯片在 LLM 问答任务中的性能比所有之前的芯片高出 2.5 倍。Blackwell 芯片成功的关键因素之一是它能够使用 4 位浮点精度运行 LLM。此外,其内存带宽的显著提升,达到了每秒 8 兆字节,几乎是 H200 芯片每秒 4.8 兆字节带宽的两倍。
英伟达产品营销总监 Dave Salvator 表示,Blackwell 芯片是为了实现联网和伸缩性而设计的,在与英伟达的 NVLink 互连技术配合使用时将发挥最大效能。Blackwell GPU 支持多达 18 个 NVLink 连接,总带宽达到每秒 1.8 兆字节。
竞争对手迎头赶上
尽管英伟达保持领先,但其他竞争对手的表现也相当亮眼。Untether AI 的 speedAI240 预览芯片在图像识别任务中的性能几乎与 H200 持平。谷歌的 Trillium 在图像生成任务上的性能大约是 H100 和 H200 的一半,而 AMD 的 Instinct 在 LLM 问答任务上的性能与 H100 大致相当。
Untether AI 在能效方面表现出色
在功耗和边缘计算方面,Untether AI 的表现尤为突出。该公司的 speedAI240 预览芯片通过“内存内计算”实现了卓越的能效。这种设计将处理器与内存单元格紧密相邻,显著减少了模型数据在内存与计算核心间传输所需的时间和资源。
在图像识别任务中,Untether AI 的 speedAI240 预览芯片在延迟性能方面是 NVIDIA L40S 的 2.8 倍,吞吐量提升了 1.6 倍。此外,该芯片的标称功耗为 150 瓦,而 Nvidia 的 L40s 为 350 瓦,这意味着在延迟性能提升的同时,功耗名义上降低了 2.3 倍。
Cerebras 和 FuriosaAI 发布新芯片
尽管 Cerebras 和 FuriosaAI 没有参与 MLPerf 竞赛,但两家公司均发布了新的推理芯片。Furiosa 的新芯片采用了一种独特且高效的手段来实现 AI 推理中的基本数学运算——矩阵乘法。而 Cerebras 则专注于制造大型芯片,利用尽可能大的硅片来避免芯片间的互连。
随着 AI 推理竞赛的激烈进行,各家公司都在不断优化和升级自己的产品,以在未来的市场竞争中占据有利地位。英伟达 Blackwell 芯片的表现无疑为该公司在 AI 推理领域树立了一个新的标杆。
Views: 0