英伟达承认Blackwell芯片设计缺陷,明年初出货
英伟达CEO黄仁勋承认,该公司最新一代AI芯片Blackwell存在设计缺陷,导致良率低下,并表示该缺陷完全由英伟达造成。
自今年3月发布以来,Blackwell芯片备受全球科技公司的追捧,但其出货却迟迟未能实现。本周三,英伟达在与高盛的会议中表示,Blackwell GPU中影响良率的设计缺陷已修复,B100/B200处理器的改进版即将投入量产,预计将于2025年初开始发货。
黄仁勋在会议中明确表示,Blackwell芯片的设计缺陷“100%是英伟达的错”。 他还驳斥了此前一些媒体关于台积电应承担责任的报道,称其为“假新闻”。
Blackwell芯片采用全新一代架构,由台积电4NP工艺打造,拥有2080亿个晶体管,在执行大模型推理等任务时效率较前代提升了30倍。 为了让Blackwell计算设备正常工作,英伟达设计了七种不同类型的芯片,并同时投入生产。其中,B100和B200 GPU两个型号使用台积电的CoWoS-L封装技术连接两个芯片,该技术依赖于配备局部硅互连(LSI)桥接器的RDL中介层,以实现约10 TB/s的数据传输速率。
然而,GPU芯片、LSI桥接器、RDL中介层和主板基板之间的热膨胀特性可能不匹配,导致系统弯曲和故障。 这一问题导致Blackwell芯片的良品率低下,英伟达不得不修改GPU硅片的顶部金属层和凸片,以提高生产良率。
英伟达表示,公司已经对Blackwell GPU的掩膜实施了修复,并针对B100和B200 GPU的设计进行了所有必要的变更,从而有望在第四季度实现量产。
值得注意的是,英伟达在今年初披露的消息显示,AWS、谷歌、Meta和微软是其主要客户,合计收入占比高达40%。 为了满足他们对其新一代AI算力的需求,英伟达必须在本年度出货一些最初低良率的Blackwell GPU。
Blackwell芯片的良率问题再次凸显了芯片设计和制造的复杂性。 尽管英伟达和台积电修复Blackwell GPU的速度令人印象深刻,但这一事件也提醒我们,即使是世界上最先进的芯片制造商也无法完全避免设计缺陷。
随着AI技术的快速发展,对高性能芯片的需求将继续增长。 英伟达能否克服Blackwell芯片的良率问题,并顺利完成量产,将对该公司未来的发展至关重要。
参考文献:
- https://www.tomshardware.com/pc-components/gpus/nvidia-adresses-significant-blackwell-yield-issues-production-ramp-in-q4
- https://www.reuters.com/technology/artificial-intelligence/nvidias-design-flaw-with-blackwell-ai-chips-now-fixed-ceo-says-2024-10-23/
- https://www.tomshardware.com/tech-industry/artificial-intelligence/nvidias-jensen-huang-admits-ai-chip-design-flaw-was-100-percent-nvidias-fault-tsmc-not-to-blame-now-fixed-blackwell-chips-are-in-production
Views: 0