Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

新闻报道新闻报道
0

2024年9月2日

在人工智能推理领域,一场激烈的竞赛正在上演。近日,ML Commons 发布了最新的 AI 推理竞赛 MLPerf Inference v4.1 的成绩单,多家科技巨头和初创公司参与其中,竞相展示其在 AI 推理方面的实力。

英伟达Blackwell芯片表现卓越

尽管英伟达在 AI 训练领域的主导地位难以撼动,但在推理方面,竞争对手正逐渐迎头赶上。然而,英伟达新推出的 Blackwell 芯片以其卓越性能,依然保持了领先地位。

在本轮竞赛中,英伟达 Blackwell 芯片在 LLM 问答任务中的性能比所有之前的芯片高出 2.5 倍。Blackwell 芯片成功的关键因素之一是它能够使用 4 位浮点精度运行 LLM。此外,其内存带宽的显著提升,达到了每秒 8 兆字节,几乎是 H200 芯片每秒 4.8 兆字节带宽的两倍。

英伟达产品营销总监 Dave Salvator 表示,Blackwell 芯片是为了实现联网和伸缩性而设计的,在与英伟达的 NVLink 互连技术配合使用时将发挥最大效能。Blackwell GPU 支持多达 18 个 NVLink 连接,总带宽达到每秒 1.8 兆字节。

竞争对手迎头赶上

尽管英伟达保持领先,但其他竞争对手的表现也相当亮眼。Untether AI 的 speedAI240 预览芯片在图像识别任务中的性能几乎与 H200 持平。谷歌的 Trillium 在图像生成任务上的性能大约是 H100 和 H200 的一半,而 AMD 的 Instinct 在 LLM 问答任务上的性能与 H100 大致相当。

Untether AI 在能效方面表现出色

在功耗和边缘计算方面,Untether AI 的表现尤为突出。该公司的 speedAI240 预览芯片通过“内存内计算”实现了卓越的能效。这种设计将处理器与内存单元格紧密相邻,显著减少了模型数据在内存与计算核心间传输所需的时间和资源。

在图像识别任务中,Untether AI 的 speedAI240 预览芯片在延迟性能方面是 NVIDIA L40S 的 2.8 倍,吞吐量提升了 1.6 倍。此外,该芯片的标称功耗为 150 瓦,而 Nvidia 的 L40s 为 350 瓦,这意味着在延迟性能提升的同时,功耗名义上降低了 2.3 倍。

Cerebras 和 FuriosaAI 发布新芯片

尽管 Cerebras 和 FuriosaAI 没有参与 MLPerf 竞赛,但两家公司均发布了新的推理芯片。Furiosa 的新芯片采用了一种独特且高效的手段来实现 AI 推理中的基本数学运算——矩阵乘法。而 Cerebras 则专注于制造大型芯片,利用尽可能大的硅片来避免芯片间的互连。

随着 AI 推理竞赛的激烈进行,各家公司都在不断优化和升级自己的产品,以在未来的市场竞争中占据有利地位。英伟达 Blackwell 芯片的表现无疑为该公司在 AI 推理领域树立了一个新的标杆。


read more

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注