Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

90年代申花出租车司机夜晚在车内看文汇报90年代申花出租车司机夜晚在车内看文汇报
0

摘要: 苹果研究人员近日提出了一种名为“蒸馏扩展定律”(Distillation Scaling Laws)的新理论,为大模型知识蒸馏领域带来了突破性进展。该定律能够基于计算预算及其在教师模型和学生模型之间的分配,量化估算蒸馏模型的性能,从而优化计算资源的分配,降低大规模使用蒸馏技术的风险,并指导AI社区构建更强大的模型。

北京时间 [当前日期] – 在人工智能领域,知识蒸馏技术已成为压缩大模型、提升性能的关键手段。近日,苹果公司的研究人员发布了一项重要的研究成果,提出了“蒸馏扩展定律”(Distillation Scaling Laws),为这一领域带来了新的理论指导。该研究成果发表在预印本平台arXiv上,题为《Distillation Scaling Laws》。

知识蒸馏是一种模型压缩技术,通过将大型、复杂的教师模型中的知识迁移到小型、简单的学生模型中,从而在保持模型性能的同时,降低计算成本和延迟。这项技术在大模型领域应用广泛,可以有效压缩模型体积、提升模型精度,并实现知识域的集成和迁移。

然而,长期以来,学界对蒸馏技术的理解尚不充分,缺乏对计算资源分配的共识。为了弥补这一知识差距,苹果的研究人员进行了广泛的实验研究,涵盖了从1.43亿到126亿参数范围的教师和学生模型,以及高达5120亿token的训练数据。

研究的核心发现是,一个大小为NS的学生模型,通过从大小为NT的教师模型中蒸馏DS个token所得到的交叉熵,可以通过蒸馏扩展定律进行预测。该定律表明,教师模型的大小(NT)和训练token数量(DT)仅通过确定教师的交叉熵LT = LT (NT , D_T)来确定学生交叉熵。

此外,研究还发现,教师交叉熵对学生损失的影响遵循幂律,该幂律根据学生和教师的相对学习能力在两种行为之间转换,反映了蒸馏中称为“能力差距”的现象。研究人员认为,这种能力差距是教师和学生之间学习能力(假设空间和优化能力)的差距,而不仅仅是他们的相对大小。

这项研究的重要意义在于,它为知识蒸馏提供了一种量化的评估方法,降低了大规模使用蒸馏技术的风险。基于该定律,研究人员可以优化教师模型和学生模型的计算分配,从而最大化学生模型的性能。该工作提供的计算最优的蒸馏方案适用于两种情况:1)已有教师模型;2)需要训练教师模型。

研究人员还指出,如果要蒸馏多个学生模型,或者已有教师模型,蒸馏在计算水平上优于监督预训练,直到计算水平随着学生模型规模的增加而可预测地增长。如果要蒸馏一个学生模型且还需要训练教师模型,则应采用监督学习。

苹果研究人员的这项工作不仅加深了我们对蒸馏技术的理解,也为实验设计提供了重要的指导。他们通过结合固定M的教师/学生IsoFLOP实验等多种方案,验证了蒸馏扩展定律的有效性。研究结果表明,在某些情况下,学生模型甚至能够超越教师模型的表现,展现出“弱到强”的泛化能力。

这项研究的结论是,当两个学习过程都有足够的数据或计算时,蒸馏不能产生比监督学习更低的模型交叉熵。但是,如果用于学生的总计算或token不大于新扩展定律给出的学生大小相关阈值,且教师已经存在或要训练的教师有超出单次蒸馏的用途,则蒸馏比监督学习更有效。

总而言之,苹果公司提出的“蒸馏扩展定律”为大模型知识蒸馏领域带来了重要的理论突破,有望指导AI社区构建更强大的模型,实现更低的推理成本和总计算成本。这项研究成果将推动人工智能技术的进一步发展和应用。

参考文献:

关键词: 知识蒸馏,大模型,苹果,蒸馏扩展定律,人工智能,模型压缩,计算优化


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注