Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

Delta-CoMe:突破大型语言模型规模瓶颈的增量压缩利器

引言: 想象一下,一个80GB显存的A100 GPU,能够同时加载50个7B参数规模的大型语言模型(LLM)。这不再是科幻小说,而是清华大学NLP实验室联合OpenBMB开源社区、北京大学和上海财经大学共同研发的新型增量压缩算法——Delta-CoMe带来的现实。这项突破性技术,有望彻底改变我们部署和使用LLM的方式,开启人工智能应用的新篇章。

主体:

Delta-CoMe并非简单的模型压缩算法,它巧妙地利用了模型参数增量(Delta)的低秩特性,结合低秩分解和混合精度量化技术,实现了高效的模型压缩和性能保持。

  • 低秩分解的巧妙应用:Delta-CoMe的核心在于对模型参数增量进行奇异值分解(SVD)。研究团队发现,在模型微调过程中,参数变化并非随机的,而是集中在少数几个主成分上,呈现出低秩特性。通过SVD,Delta-CoMe能够提取这些主要的成分,并有效地压缩模型参数。这就好比用精简的乐谱来表达一首复杂的交响乐,虽然信息量减少,但核心旋律依然保留。

  • 混合精度量化的精细控制: 为了进一步压缩模型,Delta-CoMe采用混合精度量化技术。根据奇异值的幅度大小,不同的奇异向量被分配不同的精度。重要的奇异向量(对应较大的奇异值)使用更高的精度表示,而不太重要的奇异向量(对应较小的奇异值)则使用较低的精度表示。这种精细的控制,最大限度地减少了信息损失,同时显著降低了存储需求。这如同画家运用不同的笔触和色彩,既能展现画面的细节,又能控制整体的色调和风格。

  • 长尾分布的有效利用: Delta-CoMe观察到Delta参数的奇异值呈现长尾分布,即大部分奇异值较小,只有少数奇异值较大。算法针对这种分布特性,对小奇异值对应的奇异向量进行更激进的压缩,而对大奇异值对应的奇异向量保留更高的精度,从而在压缩率和精度之间取得最佳平衡。

  • 显著的性能提升和兼容性: Delta-CoMe不仅实现了高达8倍的显存节省,而且在多种复杂任务(包括数学、代码和多模态任务)上,压缩后的模型性能几乎与压缩前的微调模型相当。更重要的是,该算法具有良好的兼容性和泛化性,能够与不同的主干模型(如Llama-2、Llama-3和Mistral)兼容。

  • Triton Kernel算子的硬件加速: 为了进一步提升推理速度,Delta-CoMe团队还实现了针对混合精度量化的Triton kernel算子,在硬件层面优化了模型的运行效率,相比PyTorch实现方式提升近3倍。

结论:

Delta-CoMe的出现,为大型语言模型的部署和应用带来了革命性的变化。它不仅解决了LLM对硬件资源的高需求问题,而且在性能上几乎没有损失。这项技术将极大地促进LLM在多租户服务、多任务处理、端侧部署和模型微调等领域的应用,并为学术研究和开发提供更强大的工具。 Delta-CoMe的开源,也为全球人工智能社区贡献了一份宝贵的财富,预示着LLM应用将迈向一个更加高效、便捷和普惠的未来。 未来,我们有理由期待Delta-CoMe及其后续改进版本能够进一步降低LLM的部署门槛,推动人工智能技术在更多领域落地生花。

参考文献:

(注:本文信息基于提供的材料,并结合笔者多年新闻报道和编辑经验进行撰写,力求准确、客观、深入。如有任何出入,请以官方资料为准。)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注