新闻报道新闻报道

2024年9月2日

在人工智能推理领域,一场激烈的竞赛正在上演。近日,ML Commons 发布了最新的 AI 推理竞赛 MLPerf Inference v4.1 的成绩单,多家科技巨头和初创公司参与其中,竞相展示其在 AI 推理方面的实力。

英伟达Blackwell芯片表现卓越

尽管英伟达在 AI 训练领域的主导地位难以撼动,但在推理方面,竞争对手正逐渐迎头赶上。然而,英伟达新推出的 Blackwell 芯片以其卓越性能,依然保持了领先地位。

在本轮竞赛中,英伟达 Blackwell 芯片在 LLM 问答任务中的性能比所有之前的芯片高出 2.5 倍。Blackwell 芯片成功的关键因素之一是它能够使用 4 位浮点精度运行 LLM。此外,其内存带宽的显著提升,达到了每秒 8 兆字节,几乎是 H200 芯片每秒 4.8 兆字节带宽的两倍。

英伟达产品营销总监 Dave Salvator 表示,Blackwell 芯片是为了实现联网和伸缩性而设计的,在与英伟达的 NVLink 互连技术配合使用时将发挥最大效能。Blackwell GPU 支持多达 18 个 NVLink 连接,总带宽达到每秒 1.8 兆字节。

竞争对手迎头赶上

尽管英伟达保持领先,但其他竞争对手的表现也相当亮眼。Untether AI 的 speedAI240 预览芯片在图像识别任务中的性能几乎与 H200 持平。谷歌的 Trillium 在图像生成任务上的性能大约是 H100 和 H200 的一半,而 AMD 的 Instinct 在 LLM 问答任务上的性能与 H100 大致相当。

Untether AI 在能效方面表现出色

在功耗和边缘计算方面,Untether AI 的表现尤为突出。该公司的 speedAI240 预览芯片通过“内存内计算”实现了卓越的能效。这种设计将处理器与内存单元格紧密相邻,显著减少了模型数据在内存与计算核心间传输所需的时间和资源。

在图像识别任务中,Untether AI 的 speedAI240 预览芯片在延迟性能方面是 NVIDIA L40S 的 2.8 倍,吞吐量提升了 1.6 倍。此外,该芯片的标称功耗为 150 瓦,而 Nvidia 的 L40s 为 350 瓦,这意味着在延迟性能提升的同时,功耗名义上降低了 2.3 倍。

Cerebras 和 FuriosaAI 发布新芯片

尽管 Cerebras 和 FuriosaAI 没有参与 MLPerf 竞赛,但两家公司均发布了新的推理芯片。Furiosa 的新芯片采用了一种独特且高效的手段来实现 AI 推理中的基本数学运算——矩阵乘法。而 Cerebras 则专注于制造大型芯片,利用尽可能大的硅片来避免芯片间的互连。

随着 AI 推理竞赛的激烈进行,各家公司都在不断优化和升级自己的产品,以在未来的市场竞争中占据有利地位。英伟达 Blackwell 芯片的表现无疑为该公司在 AI 推理领域树立了一个新的标杆。


read more

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注