12% 的计算量,媲美原模型:YOPO 剪枝技术革新多模态大模型效率

引言:近年来,多模态大模型如雨后春笋般涌现,Qwen2-VL 和 InternVL-2.0 等更是将开源模型的性能推向了新的高度。然而,这些模型巨大的计算开销成为了其广泛应用的瓶颈。 Adobe 和罗切斯特大学的研究团队近日联合发布了一项突破性研究,提出了一种名为 YOPO(You Only Prune Once)的剪枝技术,仅需 12% 的计算量即可实现与原模型相当的性能,为多模态大模型的效率革命打开了新篇章。

主体:

这项研究的核心在于对主流多模态大模型(例如 LLaVA-1.5、Qwen2-VL 和 InternVL-2.0)中存在的参数和计算模式冗余进行系统性分析。研究团队发现,这些模型在处理视觉信息时存在显著的冗余,主要体现在以下几个方面:

  1. 邻域感知视觉注意力 (Neighborhood-Aware Visual Attention): 研究人员发现,多模态大模型的注意力机制中,大部分注意力权重集中在相邻的视觉 tokens 上,大量的非必要注意力计算造成了计算冗余。YOPO 通过修改注意力机制,只允许相邻视觉 tokens 之间进行注意力计算,从而显著降低了计算复杂度。 这种方法将计算复杂度从与视觉 token 数量的二次方成正比降低到线性正比,极大地提升了效率。

  2. 非活跃注意力头剪枝 (Inactive Attention Head Pruning): 通过对 LLaVA-1.5 模型的分析,研究团队发现约一半的注意力头并未被激活,这些注意力头的计算完全是冗余的。YOPO 通过识别并剪枝这些非活跃的注意力头,进一步减少了计算开销。

  3. 选择性层丢弃 (Selective Layer Dropping): 研究团队通过可视化分析发现,LLaVA-1.5 模型中,视觉 token 的跨模态注意力权重主要集中在前几层,后几层权重接近于零。这意味着后几层中与视觉相关的计算是冗余的。YOPO 通过选择性地丢弃后几层中与视觉相关的计算,进一步优化了模型效率。

  4. 在 FFN 中进行稀疏视觉投影 (Sparse Visual Projection in FFN): 由于前述剪枝策略使得视觉表示变得高度稀疏,YOPO 在每个 Transformer 模块内的前馈神经网络 (FFN) 隐藏层中随机丢弃一部分神经元,以更好地利用这种稀疏性,进一步提升效率。

实验结果:

研究团队在多个基准测试(GQA、VQAv2、POPE 和 MMB)上对 YOPO 进行评估。结果表明,在相同的计算预算下,YOPO 在多个基准测试上均取得了最佳结果,相比其他方法平均提升了 1% 以上。尤其是在 LLaVA-1.5 模型上,YOPO 仅需保留 12% 的计算量即可达到与原模型相当的性能。 这一结果充分证明了 YOPO 方法的有效性和可扩展性。 研究团队还在 VQAv2 和 GQA 这两个最大的基准测试上,与其他 token 剪枝方法(PyramidDrop 和 FastV)进行了比较,结果显示 YOPO 在计算量减少的同时,性能下降更小。

结论:

YOPO 剪枝技术为解决多模态大模型计算开销过大的难题提供了一种高效且有效的解决方案。其在多个基准测试上的优异表现,以及在不同模型上的可扩展性,预示着 YOPO 将对多模态大模型的应用和发展产生深远的影响。 这项研究不仅为高效处理密集视觉 tokens 提供了新的路径,也为未来大模型的优化方向提供了宝贵的经验。 目前,YOPO 的代码、模型和项目主页均已公开发布,这将进一步促进学术界和工业界对该技术的深入研究和应用。

参考文献:

  • Zhang, Z., Xu, C., Zhao, W., Wan, K., & Li, Y. (2024). Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See. arXiv preprint arXiv:2410.06169. https://arxiv.org/abs/2410.06169
  • (其他相关论文及报告,如果需要可以补充)


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注