微軟Azure在2023年8月宣告,其雲端執行個體正式上線,這款執行個體搭載了8個Nvidia H100 GPU,為使用者提供了頂級的GPU加速運算服務。這是微軟Azure在公有雲市場中,推出的第一款導入Nvidia H100 GPU的雲端執行個體,它為有需求的用戶提供了更強大的AI與大數據處理能力。
微軟Azure的GPU加速雲端虛擬機器服務
微軟Azure是最早推出搭載Nvidia H100 GPU的雲端服務的公有雲提供商之一。目前,Azure提供了3種不同的GPU加速雲端虛擬機器服務,分別是ND H100 v5、NC H100 v5(NCads H100 v5)和NCC H100 v5(NCCads H100 v5)。這些服務主要面向分散式AI推論與AI訓練需求,結合了Nvidia的進階AI軟硬體堆疊,包括數據中心GPU產品A100與H100、400 Gb InfiniBand網路交換器Quantum-2,以及AI Enterprise企業級軟體套餐。
微軟Azure的AI超級電腦與Nvidia合作
早在2022年11月的全球超級電腦大會SC22,微軟Azure與Nvidia宣布合作建造基於公有雲服務的AI超級電腦。他們共同推出的ND系列與NC系列雲端執行個體服務,專為分散式AI推論與AI訓練需求設計。此合作強調了微軟Azure與Nvidia在AI技術領域的強強聯合,旨在提供更高效、更強大的AI解決方案。
微軟Azure ND H100 v5系列的硬體配置
ND H100 v5系列雲端虛擬機器採用多種進階技術,包括搭載8個Nvidia H100 GPU,並通過新一代NVSwitch與NVLink 4.0實現GPU之間的連接。每個虛擬機器的GPU存取雙向頻寬達到3.6 TB/s,網路頻寬則由Quantum-2交換器與ConnectX-7網路卡提供,可達到3.2 Tb/s。此外,它還配備了英特爾第四代Xeon Scalable處理器、PCIe 5.0介面,以及16個通道的DDR5-4800記憶體。
AI效能測試結果與提升
微軟Azure ND H100 v5系列在AI訓練測試中表現卓越。在MLPerf Training v3.0的測試中,使用了1,344臺Azure ND H100 v5虛擬機器(共10,752個Nvidia H100 GPU),在訓練GPT-3 175B模型時,僅需3.92分鐘就能完成,相比上一代服務器的表現有了顯著提升。在MLPerf Inference v3.1的測試中,Azure ND H100 v5系列的相對效能表現也與實體伺服器相當,甚至在某些測試中超越了實體伺服器的性能。
总结
微軟Azure通過與Nvidia的合作,為用戶提供了強大的GPU加速雲端虛擬機器服務,特別是在AI訓練與推論領域。ND H100 v5系列的硬體配置和AI效能測試結果顯示了微軟Azure在提供高效能雲端服務方面的領導地位。這對於需要高計算性能的AI應用開發者和研究人員來說,是一個極具吸引力的雲端解決方案。
Views: 0