Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

英伟达Blackwell:高性能背后的隐忧——良品率与过热挑战巨头霸权

引言: 今年GTC大会上,英伟达Blackwell AI芯片以其令人瞠目的性能惊艳全球,承诺将AI算力提升至前所未有的高度。然而,这款号称“世界最先进GPU”的芯片却在量产道路上遭遇了接连不断的挑战:良品率低,如今更是爆出过热问题。这不仅延误了发货时间,更引发了客户的担忧,甚至可能撼动英伟达在AI芯片领域的霸主地位。

主体:

一、Blackwell:技术突破与市场预期

Blackwell芯片拥有2080亿个晶体管,集成两个GPU,互联速度高达10TBps,性能较前代产品H100提升数倍,甚至达到Hopper的30倍。其在大型语言模型训练方面的效率提升尤为显著:训练一个1.8万亿参数的GPT模型,Hopper需要8000个GPU和15兆瓦电力,耗时3个月;而Blackwell只需2000个GPU和4兆瓦电力,同样能在3个月内完成。如此强大的性能,使其成为全球科技巨头争相追逐的目标,订单积压甚至长达12个月。

二、良品率低下的挑战

Blackwell采用多芯片封装(MCM)技术,这虽然带来了性能提升,但也带来了良品率低下的问题。英伟达CEO黄仁勋曾公开承认Blackwell存在设计缺陷,导致良品率低,并表示已修复相关问题。这一问题导致Blackwell的量产计划多次推迟,原定于2024年第二季度发货,后推迟至第四季度,甚至到10月底才开始量产。

三、过热问题的浮现:新的瓶颈

然而,正当业界期待Blackwell正式交付时,新的问题出现了:过热。据The Information报道,当Blackwell芯片连接到英伟达自家的72核服务器机架时,会产生严重的过热问题,每个机架功耗高达120千瓦。这不仅限制了GPU性能,更可能损坏组件,迫使英伟达多次重新设计服务器机架,进一步推迟了发货时间。英伟达发言人将此称为“工程迭代”,但这一说法并未完全打消客户的疑虑。

四、技术挑战与商业风险

Blackwell的良品率和过热问题并非孤立事件,它们反映了在追求极致性能的同时,所面临的巨大技术挑战。MCM技术固然先进,但其复杂性也带来了更高的风险,包括热管理、信号完整性等方面。这些问题不仅延误了产品交付,也对英伟达的声誉和市场份额造成潜在影响。 谷歌、Meta和微软等大客户的担忧,也凸显了Blackwell问题对整个AI产业链的潜在冲击。

五、英伟达的应对与未来展望

面对挑战,英伟达正积极应对,不断优化设计,改进服务器机架。然而,这些问题也暴露出英伟达在技术创新与量产之间的平衡问题。 Blackwell的最终交付时间仍存在不确定性,这将直接影响到AI模型训练和相关应用的发展进程。 英伟达能否克服这些挑战,维持其在AI芯片领域的领先地位,将是未来一段时期内值得关注的焦点。 此次事件也为其他AI芯片厂商敲响警钟,提醒他们在追求高性能的同时,必须重视技术可靠性和量产的可行性。

结论:

Blackwell芯片代表着AI芯片技术发展的一个重要方向,但其良品率和过热问题也暴露了高性能芯片量产的复杂性和挑战。英伟达的应对措施和最终结果,将对AI产业发展产生深远影响,也值得业界持续关注和深入研究。 未来,在追求高性能的同时,更需重视芯片的稳定性、可靠性和可量产性,才能真正推动AI技术的普及和应用。

参考文献:

  1. https://www.theinformation.com/articles/nvidia-customers-worry-about-snag-with-new-ai-chip-servers
  2. https://www.tomshardware.com/pc-components/gpus/nvidias-data-center-blackwell-gpus-reportedly-overheat-require-rack-redesigns-and-cause-delays-for-customers
  3. 机器之心报道 (相关报道链接,需补充具体链接)

*(注:由于无法直接访问并验证所有提供的链接,参考文献中部分链接为示例,请根据实际情况补充完整。) *


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注