摘要: 苹果研究人员近日提出了一种名为“蒸馏扩展定律”(Distillation Scaling Laws)的新理论,为大模型知识蒸馏领域带来了突破性进展。该定律能够基于计算预算及其在教师模型和学生模型之间的分配,量化估算蒸馏模型的性能,从而优化计算资源的分配,降低大规模使用蒸馏技术的风险,并指导AI社区构建更强大的模型。
北京时间 [当前日期] – 在人工智能领域,知识蒸馏技术已成为压缩大模型、提升性能的关键手段。近日,苹果公司的研究人员发布了一项重要的研究成果,提出了“蒸馏扩展定律”(Distillation Scaling Laws),为这一领域带来了新的理论指导。该研究成果发表在预印本平台arXiv上,题为《Distillation Scaling Laws》。
知识蒸馏是一种模型压缩技术,通过将大型、复杂的教师模型中的知识迁移到小型、简单的学生模型中,从而在保持模型性能的同时,降低计算成本和延迟。这项技术在大模型领域应用广泛,可以有效压缩模型体积、提升模型精度,并实现知识域的集成和迁移。
然而,长期以来,学界对蒸馏技术的理解尚不充分,缺乏对计算资源分配的共识。为了弥补这一知识差距,苹果的研究人员进行了广泛的实验研究,涵盖了从1.43亿到126亿参数范围的教师和学生模型,以及高达5120亿token的训练数据。
研究的核心发现是,一个大小为NS的学生模型,通过从大小为NT的教师模型中蒸馏DS个token所得到的交叉熵,可以通过蒸馏扩展定律进行预测。该定律表明,教师模型的大小(NT)和训练token数量(DT)仅通过确定教师的交叉熵LT = LT (NT , D_T)来确定学生交叉熵。
此外,研究还发现,教师交叉熵对学生损失的影响遵循幂律,该幂律根据学生和教师的相对学习能力在两种行为之间转换,反映了蒸馏中称为“能力差距”的现象。研究人员认为,这种能力差距是教师和学生之间学习能力(假设空间和优化能力)的差距,而不仅仅是他们的相对大小。
这项研究的重要意义在于,它为知识蒸馏提供了一种量化的评估方法,降低了大规模使用蒸馏技术的风险。基于该定律,研究人员可以优化教师模型和学生模型的计算分配,从而最大化学生模型的性能。该工作提供的计算最优的蒸馏方案适用于两种情况:1)已有教师模型;2)需要训练教师模型。
研究人员还指出,如果要蒸馏多个学生模型,或者已有教师模型,蒸馏在计算水平上优于监督预训练,直到计算水平随着学生模型规模的增加而可预测地增长。如果要蒸馏一个学生模型且还需要训练教师模型,则应采用监督学习。
苹果研究人员的这项工作不仅加深了我们对蒸馏技术的理解,也为实验设计提供了重要的指导。他们通过结合固定M的教师/学生IsoFLOP实验等多种方案,验证了蒸馏扩展定律的有效性。研究结果表明,在某些情况下,学生模型甚至能够超越教师模型的表现,展现出“弱到强”的泛化能力。
这项研究的结论是,当两个学习过程都有足够的数据或计算时,蒸馏不能产生比监督学习更低的模型交叉熵。但是,如果用于学生的总计算或token不大于新扩展定律给出的学生大小相关阈值,且教师已经存在或要训练的教师有超出单次蒸馏的用途,则蒸馏比监督学习更有效。
总而言之,苹果公司提出的“蒸馏扩展定律”为大模型知识蒸馏领域带来了重要的理论突破,有望指导AI社区构建更强大的模型,实现更低的推理成本和总计算成本。这项研究成果将推动人工智能技术的进一步发展和应用。
参考文献:
关键词: 知识蒸馏,大模型,苹果,蒸馏扩展定律,人工智能,模型压缩,计算优化
Views: 0