云端算力“堰塞湖”:企业AI应用落地遭遇“高成本低效率”瓶颈
北京 — 在人工智能浪潮席卷全球的当下,算力如同数字时代的“石油”,驱动着AI模型的训练与应用。然而,高昂的算力成本和极低的利用率,正成为企业拥抱AI的“拦路虎”。近日,多方数据显示,AI模型训练成本动辄数千万美元,而算力利用率却不足50%,云端“算力浪费”现象日益凸显,严重掣肘了企业AI应用的落地。
算力“烧钱”:高成本与低效率并存
据行业报告,训练如GPT-4等前沿模型,成本高达7800万美元,而企业私有化部署大模型也需数百万元。即使采用开源模型微调和RAG(检索增强生成)策略,虽然成本相对较低,但仍面临安全隐患和持续的算力消耗。
与此同时,算力利用率却令人堪忧。OpenAI在GPT-4训练中,算力利用率仅为32%至36%,而大模型训练的平均算力有效利用率也低于50%。这主要是由于训练过程中,GPU资源无法始终保持高负荷运转,以及模型部署阶段,服务器因业务波动和需求预测不准而长期处于闲置状态。
基础设施“错位”:传统云架构难解AI算力之渴
算力浪费的根源在于,传统云计算基础设施与当前大模型训练及推理需求之间存在“错位”。过去两年,主流云服务商虽不断更新产品和算力,但仍未能完全解决这一问题。
一方面,AI模型训练所需的算力正以每年10倍的速度增长;另一方面,云计算发展受限于摩尔定律,且涉及底层到顶层的服务架构,无法简单通过堆砌GPU来解决。
英特尔联手火山引擎:破局算力瓶颈
面对算力困局,云厂商纷纷寻求创新。其中,英特尔与火山引擎的合作,被视为一种突围的尝试。
英特尔作为x86架构的领导者,深耕通用处理器多年,并预见到传统单一计算架构的瓶颈。其提出的XPU战略,旨在整合CPU、GPU、ASIC、FPGA等多种计算单元,以更有效地应对场景化数据。
在近日举行的火山引擎FORCE原动力大会上,英特尔推出了至强® 6 性能核处理器,并携手火山引擎发布了搭载该处理器的第四代通用计算实例g4il。该实例通过优化云服务底层架构,旨在帮助用户应对多样化的AI需求。
g4il:软硬协同,性能大幅提升
据介绍,g4il 搭载英特尔® 至强® 6 性能核处理器(代号Granite Rapids),计算密度大幅提升。其采用双单路架构,降低了“爆炸半径”,保障了稳定性。此外,基于火山引擎自研DPU板卡和Hypervisor等组件,g4il实现了软硬一体的深度协同。
在I/O能力方面,g4il整机网络带宽、存储带宽和IOPS分别提升了100%、100%和66%。CPU方面,内存通道为12CH,支持高达6400 MT/s的DDR5内存,L3缓存提升了60%。此外,g4il还新增支持fp16指令集,可满足更多精度的AI运算需求,相比AVX512有高达5倍的算力提升。
英特尔数据显示,在g4il实例上,开源大模型验证以及大模型与embedding、向量数据库等组合验证均取得了显著进展。用户仅需极低的成本,即可上手大模型,并将其轻松部署到多个场景中,大幅降低了AI开发门槛。
弹性预约实例:降低算力成本
为了进一步提供高性价比弹性算力,火山引擎还推出了业界首创的“弹性预约实例”售卖模式。该模式支持免费提前预约,到点资源自动交付,在为弹性需求提供资源确定性保障的同时,还能够节省33%以上的算力成本。
英特尔全方位赋能:幕后功臣
英特尔针对AI模型训练、推理等应用场景,推出了多项自研技术,并内置于至强® 6 中,如英特尔® 高级矩阵扩展(英特尔® AMX)和英特尔® 信任域扩展(英特尔® TDX)。
英特尔® AMX通过在CPU中加入专门用于矩阵运算的硬件单元,增强对大模型的支持。英特尔® TDX则为用户的数据和应用提供端到端的保护,其核心在于创建一个受信任域(TD),这是一个被硬件严格隔离的虚拟机实例,即使云服务商也无法访问TD内部的数据。
此外,英特尔还推出了基于GNR+MRDIMM内存优化的全新方案,通过深度调优,带来更大内存带宽和更强CPU算力,大幅提升了LLM性能。
结语:
云端算力浪费问题已成为制约企业AI应用落地的关键瓶颈。英特尔与火山引擎的合作,通过技术创新和模式创新,为解决这一难题提供了新的思路。随着更多厂商加入到算力优化和创新行列,我们有理由相信,AI技术将更好地服务于各行各业,真正实现普惠AI。
参考文献:
- InfoQ:云上「算力浪费」,正在掣肘企业应用落地
- 英特尔官方网站
- 火山引擎官方网站
(完)
Views: 0