近年来,人工智能模型的能力显著提升,其中计算资源的增长对性能提升起到了关键作用。人工智能实验室通过不断扩大训练规模,使得训练计算以每年约4倍的速度增长,这一增速甚至超过了历史上一些最快的技术扩张。
Epoch AI的最新报告探讨了当前人工智能训练规模快速增长(约每年4倍)在2030年之前的技术可行性。报告指出,电源可用性、芯片制造能力、数据稀缺性和“延迟墙”是制约扩展的四大关键因素。
电源可用性:报告预测,到2030年,数据中心园区将达到1至5GW的电力容量,支持1e28至3e29 FLOP的训练运行。通过地域分布式训练,可以进一步扩大规模。
芯片制造能力:尽管目前受限于先进封装和高带宽内存生产能力,但制造商计划的规模扩张和硬件效率的提高可能提供足够的能力,支持1亿个H100等效GPU用于训练,为9e29 FLOP的训练运行提供动力。
数据稀缺性:报告估计,到2030年,可用于训练的token数量将在400万亿到20亿亿个之间,允许6e28至2e32 FLOP的训练运行。
延迟墙:随着模型规模的扩大,训练需要更多的顺序操作,增加并行处理的训练token数量可以摊销延迟,但超过“临界批大小”后,这种方法的效率会递减。报告估计,现代GPU设置上的累积延迟将使训练运行的FLOP上限达到3e30至1e32。
报告认为,到本个十年末,2e29 FLOP的训练运行或许是可行的,这意味着到2030年,我们可能会训练出规模超过GPT-4的模型。然而,这取决于人工智能开发者是否愿意在未来几年投资数千亿美元用于人工智能的扩展。
总体而言,尽管存在诸多挑战,但人工智能的“规模化定律”有望持续至2030年,推动人工智能的巨大进步。
Views: 0