阿里巴巴开源视觉多模态AI模型Qwen2-VL

9 月 13, 2024 #每日AI快讯, #达摩院

正文：
【新华社讯】近日，阿里巴巴达摩院正式开源了其最新的视觉多模态AI模型——Qwen2-VL。该模型以其高级图像和视频理解能力，以及对多语言文本的精准处理，在AI视觉理解和内容生成领域树立了新的性能标杆。

Qwen2-VL模型具备以下主要功能：

技术原理方面，Qwen2-VL采用了多模态学习能力、原生动态分辨率支持、多模态旋转位置嵌入（M-ROPE）、变换器架构、注意力机制、预训练和微调以及量化技术等先进技术。

在性能指标上，Qwen2-VL的72B规模模型在多个指标上达到最优，特别是在文档理解方面表现突出；7B规模模型在成本效益和性能之间取得平衡；2B规模模型为移动端应用优化，具备完整的图像视频多语言理解能力。

Qwen2-VL的应用场景广泛，包括内容创作、教育辅助、多语言翻译与理解、智能客服、图像和视频分析、辅助设计、自动化测试、数据检索与信息管理、辅助驾驶和机器人导航、医疗影像分析等。

该模型的源代码和API接口已通过GitHub、HuggingFace模型库和魔搭社区等平台向全球开发者开放，旨在推动AI技术的发展和应用。

【结束语】Qwen2-VL的开源，标志着我国在视觉多模态AI领域取得了重要进展，将为全球AI技术的发展和应用带来新的机遇。