AI推理竞赛火热开跑，英伟达GPU称霸风云再起

2024年9月2日

在人工智能推理领域，一场激烈的竞赛正在上演。近日，ML Commons 发布了最新的 AI 推理竞赛 MLPerf Inference v4.1 的成绩单，多家科技巨头和初创公司参与其中，竞相展示其在 AI 推理方面的实力。

英伟达Blackwell芯片表现卓越

尽管英伟达在 AI 训练领域的主导地位难以撼动，但在推理方面，竞争对手正逐渐迎头赶上。然而，英伟达新推出的 Blackwell 芯片以其卓越性能，依然保持了领先地位。

在本轮竞赛中，英伟达 Blackwell 芯片在 LLM 问答任务中的性能比所有之前的芯片高出 2.5 倍。Blackwell 芯片成功的关键因素之一是它能够使用 4 位浮点精度运行 LLM。此外，其内存带宽的显著提升，达到了每秒 8 兆字节，几乎是 H200 芯片每秒 4.8 兆字节带宽的两倍。

英伟达产品营销总监 Dave Salvator 表示，Blackwell 芯片是为了实现联网和伸缩性而设计的，在与英伟达的 NVLink 互连技术配合使用时将发挥最大效能。Blackwell GPU 支持多达 18 个 NVLink 连接，总带宽达到每秒 1.8 兆字节。

竞争对手迎头赶上

尽管英伟达保持领先，但其他竞争对手的表现也相当亮眼。Untether AI 的 speedAI240 预览芯片在图像识别任务中的性能几乎与 H200 持平。谷歌的 Trillium 在图像生成任务上的性能大约是 H100 和 H200 的一半，而 AMD 的 Instinct 在 LLM 问答任务上的性能与 H100 大致相当。

Untether AI 在能效方面表现出色

在功耗和边缘计算方面，Untether AI 的表现尤为突出。该公司的 speedAI240 预览芯片通过“内存内计算”实现了卓越的能效。这种设计将处理器与内存单元格紧密相邻，显著减少了模型数据在内存与计算核心间传输所需的时间和资源。

在图像识别任务中，Untether AI 的 speedAI240 预览芯片在延迟性能方面是 NVIDIA L40S 的 2.8 倍，吞吐量提升了 1.6 倍。此外，该芯片的标称功耗为 150 瓦，而 Nvidia 的 L40s 为 350 瓦，这意味着在延迟性能提升的同时，功耗名义上降低了 2.3 倍。

Cerebras 和 FuriosaAI 发布新芯片

尽管 Cerebras 和 FuriosaAI 没有参与 MLPerf 竞赛，但两家公司均发布了新的推理芯片。Furiosa 的新芯片采用了一种独特且高效的手段来实现 AI 推理中的基本数学运算——矩阵乘法。而 Cerebras 则专注于制造大型芯片，利用尽可能大的硅片来避免芯片间的互连。

随着 AI 推理竞赛的激烈进行，各家公司都在不断优化和升级自己的产品，以在未来的市场竞争中占据有利地位。英伟达 Blackwell 芯片的表现无疑为该公司在 AI 推理领域树立了一个新的标杆。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

AI推理竞赛火热开跑，英伟达GPU称霸风云再起

作者智能小编

2024年9月2日

英伟达Blackwell芯片表现卓越

竞争对手迎头赶上

Untether AI 在能效方面表现出色

Cerebras 和 FuriosaAI 发布新芯片

相关文章

AI 指数报告：斯坦福揭示 2025 年趋势

RAG Evolution Four Key Questions Shaping the Future

25年后Agent：简单至上，复杂淘汰

发表回复取消回复

为您推荐

AI 指数报告：斯坦福揭示 2025 年趋势

RAG Evolution Four Key Questions Shaping the Future

25年后Agent：简单至上，复杂淘汰

Alibaba Cloud’s Bailian Launches “Full-Cycle MCP Service” for AI Tool Management

作者智能小编

2024年9月2日

英伟达Blackwell芯片表现卓越

竞争对手迎头赶上

Untether AI 在能效方面表现出色

Cerebras 和 FuriosaAI 发布新芯片

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复