阿里Ovis1.6超越GPT-4o-mini！

阿里国际AI团队推出多模态大模型Ovis1.6，超越闭源GPT-4o-mini

北京时间2024年6月10日 – 阿里国际AI团队今日宣布推出其最新多模态大模型Ovis1.6，该模型在多模态权威综合评测基准OpenCompass上取得了优异的成绩，特别是在30亿参数以下的模型中综合得分排名第一，超越了其他主流模型，包括闭源的GPT-4o-mini。

Ovis1.6模型在数学推理、视觉理解等多项任务中表现出色，具备强大的视觉感知推理、数学和科学问题解答、生活场景理解等多模态任务处理能力。该模型能够处理包括文本和图像在内的多种数据输入，并根据输入内容进行综合分析，做出更精准的判断和决策。

Ovis1.6的主要功能包括：

数学推理问答：准确回答各种数学问题，包括复杂的数学公式和逻辑推理。
物体识别：识别不同物体，例如花卉品种，表明其在图像识别方面的能力。
文本提取：支持多种语言的文本提取，Ovis1.6能从各种文档中识别和提取文本信息。
复杂任务决策：处理和理解多种类型的数据输入，进行复杂的决策任务，如图像和文本的综合分析。
图像理解：在图像理解任务上达到SOTA（State of theArt）水平，能处理高分辨率和极端长宽比的图像。

Ovis1.6的技术原理：

创新架构设计：Ovis1.6基于视觉tokenizer加上视觉嵌入表和大语言模型的架构。设计引入可学习的视觉嵌入表，将连续的视觉特征转换为概率化的视觉token，再通过视觉嵌入表多次索引加权得到结构化的视觉嵌入，提升多模态任务的表现。
高分图像处理：Ovis1.6支持处理极端长宽比的图像，并且兼容高分辨率图像，使模型在图像理解任务上展现出色的能力。
全面数据优化：Ovis1.6在训练中使用多种类型的数据集，包括Caption、VQA、OCR、Table、Chart等，全面数据覆盖显著提升模型在多模态问答、指令跟随等任务上的表现。
卓越模型性能：在多模态权威综合评测OpenCompass上，Ovis1.6-Gemma2-9B在30B参数以下的模型中取得综合排名第一的成绩，展现了优异的性能。

Ovis1.6的项目地址：

*GitHub仓库：https://github.com/AIDC-AI/Ovis
* HuggingFace模型库：https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B
* arXiv技术论文：https://arxiv.org/pdf/2405.20797

Ovis1.6的应用场景：