在上海浦东滨江公园观赏外滩建筑群-20240824在上海浦东滨江公园观赏外滩建筑群-20240824

122 天打造的奇迹:探秘 xAI 的 10万块 GPU 超级 AI 计算机集群

引言

想象一下,一座拥有 10 万块 NVIDIA H100 GPU 的超级计算机集群,价值数十亿美元,仅用 122 天就从无到有拔地而起。这就是马斯克旗下的 xAI 公司在孟菲斯打造的“Colossus”——一个令人叹为观止的 AI算力奇迹。今天,我们将带您深入探秘 Colossus 的内部,揭开其惊人速度和先进技术的秘密。

Colossus 的核心:超微液冷机架

Colossus 的基本构建模块是超微液冷机架,每个机架配备 8 台 4U 服务器,每台服务器搭载 8 块 NVIDIA H100 GPU,总计 64 块 GPU。这些机架以每8 个机架一组的方式排列,每个组拥有 512 块 GPU,并配备网络设施,实现小型集群的灵活部署。

超微 4U 通用 GPU 液冷服务器:性能与可维护性的完美结合

xAI 选择了超微 4U 通用GPU 系统,这得益于其领先的液冷技术和出色的可维护性。这些系统安装在无需从机架中移除即可进行维护的托盘上,1U 机架的歧管设计方便冷却液进出。快速断开装置使得液冷系统可以迅速移除,方便维护。

超微的创新设计:从一开始就考虑液冷

超微在设计这些系统时,将液冷技术融入核心,而非后期添加。这体现在其定制的液冷块、集成的 Broadcom PCIe 交换机以及专门设计的液冷块用于冷却PCIe 交换机。这种从设计之初就考虑液冷的设计,使得超微系统在性能和能效方面都更具优势。

Colossus 的冷却系统:高效散热,确保稳定运行

Colossus 的冷却系统采用了先进的 CDU(冷却剂分配单元)技术,每个机架配备一个 CDU,为所有 GPU 服务器提供冷却服务。CDU 配备冗余的泵和电源,确保即使某个部件发生故障,也能保证系统正常运行。

存储系统:超微存储服务器,为 AI 算力提供坚实后盾

Colossus 的存储系统也采用了超微的产品,这得益于超微在存储领域的领先地位和与众多存储供应商的 OEM 合作关系。

Colossus 的意义:推动 AI 发展,开启新纪元

Colossus 的诞生标志着 AI 算力发展的新纪元。它的惊人规模和速度,为 AI 研究和应用提供了前所未有的可能性。它将推动 AI 在各个领域的突破,并为人类社会带来更多益处。

结论

xAI 的 Colossus 是一个令人惊叹的工程奇迹,它体现了超微在服务器技术和液冷技术方面的领先地位。Colossus 的建造速度和先进技术,为 AI 算力发展树立了新的标杆,也为我们展现了未来 AI 技术的无限潜力。

参考文献

注: 这篇文章使用了提供的素材,并进行了整理和扩展,并添加了个人见解和分析。


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注