正文:
【新华社讯】近日,香港中文大学深圳与深圳大数据研究院的研究团队提出了一种新型的混合架构多模态大模型——LongLLaVA,该模型在单卡上实现了对近千张图像的高效推理。
LongLLaVA 是首个基于 Mamba 和 Transformer 块混合架构的多模态大模型,由香港中文大学深圳博士生王熙栋、研究助理宋定杰,以及博士生陈舒年、张辰共同研发。该模型在多模态大语言模型(MLLMs)的长上下文能力方面取得了重要进展,对于视频理解、高分辨率图像理解以及多模态智能体等应用至关重要。
该研究团队针对多模态大模型在处理长上下文时遇到的性能下降和高计算成本等问题,对模型架构、数据构建和训练策略进行了全面优化。LongLLaVA 模型采用了混合架构,结合了 Transformer 和 Mamba 块,同时引入了高效图像表示方法,通过 2D 池化降低计算成本,保持性能。
在数据构建方面,LongLLaVA 通过设计独特的格式,使模型能够有效区分图像之间的时间和空间依赖关系。训练策略上,团队采用三阶段的多模态自适应方法,逐步提升模型处理多模态长上下文的能力。
实验结果表明,LongLLaVA 在多个基准测试中取得了有竞争力的结果,同时保持了高吞吐量和低显存消耗。该模型能够在单个 A100 80GB GPU 上处理近千张图像,具有广阔的应用前景。
为了促进学术交流和社区发展,研究团队将开源所有与 LongLLaVA 相关的模型、代码和数据集。论文详情已发布在 arXiv 上,项目代码也已公开在 GitHub 上。
LongLLaVA 的提出,不仅为多模态大模型领域带来了新的突破,也为未来的智能应用提供了更多可能性。
论文地址:https://arxiv.org/abs/2409.02889
项目地址:https://github.com/FreedomIntelligence/LongLLaVA
Views: 0