智谱AI发布新一代多模态大模型CogVLM2

智谱AI发布新一代多模态大模型CogVLM2，视觉语言理解能力显著提升

北京，2023年10月26日 – 智谱AI今日宣布推出新一代多模态大模型CogVLM2，该模型在视觉和语言理解方面实现了显著的性能提升，支持高达8K的文本长度和1344*1344分辨率的图像输入，具备强大的文档图像理解能力。

CogVLM2基于智谱AI在多模态领域的技术积累，采用50亿参数的视觉编码器与70亿参数的视觉专家模块，通过深度融合策略，优化了视觉与语言模态的交互，确保了在增强视觉理解的同时，语言处理能力也得到保持。

性能提升显著，多项基准测试表现出色

CogVLM2在多个关键基准测试中表现出色，性能相比前代模型有了显著提升。例如，在OCRbench上性能提升了32%，在TextVQA上性能提升了21.9%。

增强文档图像理解能力，支持高分辨率图像和长文本

CogVLM2增强了对文档图像的理解和问答能力，特别是在DocVQA基准测试中表现出色。此外，该模型还支持高达1344*1344像素的图像分辨率，能够处理更高清晰度的图像。同时，CogVLM2支持长达8K的文本输入，这使得模型能够处理更长的文档和更复杂的语言任务。

开源版本支持中英文双语，展现高效性能

CogVLM2的开源版本支持中英文双语，模型大小为19亿参数，但实际推理时激活的参数量约为120亿，展现了在多模态任务中的高效性能。

模型架构创新，深度融合视觉与语言模态

CogVLM2的模型架构在继承上一代模型的基础上进行了优化和创新，主要特点包括：

视觉编码器：采用了一个拥有50亿参数的视觉编码器，负责对输入图像进行特征提取和编码。
视觉专家模块：在大语言模型中整合了一个70亿参数的视觉专家模块，这一模块通过独特的参数设置，精细地建模了视觉与语言序列的交互。
深度融合策略：采用了深度融合策略，使得视觉模态与语言模态能够更加紧密地结合，从而增强了模型在视觉理解能力的同时，保持了在语言处理上的优势。
MLP Adapter：模型中使用了MLP（多层感知器）Adapter，用于调整和适配不同模态之间的特征。
降采样模块：为了更好地处理和理解高分辨率的文档或网页图片，CogVLM2在视觉编码器后引入了一个专门的降采样模块，有效提取关键信息，减少输入到语言模型中的序列长度。

CogVLM2的开源版本已发布，感兴趣的用户可以前往GitHub、Hugging Face或魔搭社区进行下载或在线体验。

智谱AI创始人兼CEO张鹏表示：“CogVLM2是智谱AI在多模态领域取得的重要突破，它将为多模态应用带来新的可能性。我们相信，CogVLM2将推动多模态人工智能技术的发展，并为各行各业带来更智能、更便捷的服务。”

关于智谱AI

智谱AI是一家专注于大模型技术研发的科技公司，致力于打造通用人工智能。公司拥有强大的技术团队和丰富的行业经验，在自然语言处理、机器学习、计算机视觉等领域取得了领先的成果。智谱AI已推出多个大模型产品，包括GLM系列、Cog系列等，并与多个行业合作伙伴开展合作，推动大模型技术应用落地。

【source】https://ai-bot.cn/cogvlm2/