阿里巴巴发布通用多模态AI模型mPLUG-Owl3

阿里巴巴发布通用多模态AI模型mPLUG-Owl3：4秒内分析完2小时电影

北京，2024年8月29日 – 阿里巴巴今日宣布推出其最新通用多模态AI模型mPLUG-Owl3，该模型专为理解和处理多图及长视频内容而设计。mPLUG-Owl3在保持准确性的同时，显著提升了推理效率，能够在4秒内分析完2小时电影。

mPLUG-Owl3的核心优势在于其创新的Hyper Attention模块，该模块优化了视觉与语言信息的融合，支持多图场景和长视频理解。该模型在多个基准测试中达到行业领先水平，其论文、代码和资源已开源，供研究和应用。

mPLUG-Owl3的主要功能:

mPLUG-Owl3的技术原理:

mPLUG-Owl3采用多模态融合技术，将视觉信息（图片）和语言信息（文本）融合，以理解多图和视频内容。该模型通过自注意力（self-attention）和跨模态注意力（cross-attention）机制实现多模态信息融合。

Hyper Attention模块是mPLUG-Owl3的核心创新，该模块通过共享LayerNorm、模态专属的Key-Value映射和自适应门控设计，优化了信息的并行处理和融合，提高了模型的效率和准确性。

mPLUG-Owl3使用如SigLIP-400M这样的视觉编码器来提取图像特征，并通过线性层映射到与语言模型相同的维度，以便进行有效的特征融合。语言模型则采用Qwen2，用于处理和理解文本信息，并通过融合视觉特征来增强语言表示。

为了保留图文的位置信息，mPLUG-Owl3引入了多模态交错的旋转位置编码（MI-Rope），确保模型能理解图像和文本在序列中的相对位置。

mPLUG-Owl3的应用场景:

mPLUG-Owl3的开源意味着开发者和研究人员可以更便捷地获取和使用该模型，推动多模态AI技术的发展和应用。 阿里巴巴表示，未来将继续投入资源，不断优化和完善mPLUG-Owl3，使其成为更强大的通用多模态AI模型，为更多行业和领域提供服务。

【source】https://ai-bot.cn/mplug-owl3/