阿里国际AI团队推出多模态大模型Ovis1.6,超越闭源GPT-4o-mini
北京时间2024年6月10日 – 阿里国际AI团队今日宣布推出其最新多模态大模型Ovis1.6,该模型在多模态权威综合评测基准OpenCompass上取得了优异的成绩,特别是在30亿参数以下的模型中综合得分排名第一,超越了其他主流模型,包括闭源的GPT-4o-mini。
Ovis1.6模型在数学推理、视觉理解等多项任务中表现出色,具备强大的视觉感知推理、数学和科学问题解答、生活场景理解等多模态任务处理能力。该模型能够处理包括文本和图像在内的多种数据输入,并根据输入内容进行综合分析,做出更精准的判断和决策。
Ovis1.6的主要功能包括:
- 数学推理问答:准确回答各种数学问题,包括复杂的数学公式和逻辑推理。
- 物体识别:识别不同物体,例如花卉品种,表明其在图像识别方面的能力。
- 文本提取:支持多种语言的文本提取,Ovis1.6能从各种文档中识别和提取文本信息。
- 复杂任务决策:处理和理解多种类型的数据输入,进行复杂的决策任务,如图像和文本的综合分析。
- 图像理解:在图像理解任务上达到SOTA(State of theArt)水平,能处理高分辨率和极端长宽比的图像。
Ovis1.6的技术原理:
- 创新架构设计:Ovis1.6基于视觉tokenizer加上视觉嵌入表和大语言模型的架构。设计引入可学习的视觉嵌入表,将连续的视觉特征转换为概率化的视觉token,再通过视觉嵌入表多次索引加权得到结构化的视觉嵌入,提升多模态任务的表现。
- 高分图像处理:Ovis1.6支持处理极端长宽比的图像,并且兼容高分辨率图像,使模型在图像理解任务上展现出色的能力。
- 全面数据优化:Ovis1.6在训练中使用多种类型的数据集,包括Caption、VQA、OCR、Table、Chart等,全面数据覆盖显著提升模型在多模态问答、指令跟随等任务上的表现。
- 卓越模型性能:在多模态权威综合评测OpenCompass上,Ovis1.6-Gemma2-9B在30B参数以下的模型中取得综合排名第一的成绩,展现了优异的性能。
Ovis1.6的项目地址:
*GitHub仓库:https://github.com/AIDC-AI/Ovis
* HuggingFace模型库:https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B
* arXiv技术论文:https://arxiv.org/pdf/2405.20797
Ovis1.6的应用场景:
- 教育和学习辅助:Ovis1.6能准确回答数学问题,识别和解释数学公式,作为教育工具,能帮助学生学习和理解复杂概念。
- 农业和植物识别:通过物体识别能力,Ovis1.6帮助识别不同品种的植物,对农业研究和植物保护等领域有重要作用。
- 语言翻译和文本处理:支持多种语言的文本提取和翻译,适用于跨语言交流、国际商务和多语言内容创作。
- 图像识别和分析:识别手写字体和复杂图像,适用于图像内容审核、安全监控和艺术作品分析。
- 自动驾驶:整合视觉数据,提高自动驾驶车辆的环境感知和决策能力,增强行车安全。
- 医疗诊断:辅助医生进行医学图像分析,提高疾病诊断的准确性和效率。
Ovis1.6的推出标志着阿里国际AI团队在多模态大模型领域取得了重大突破,为未来人工智能技术发展提供了新的方向。该模型的应用将为各行各业带来新的变革,推动人工智能技术在更多领域落地应用。
Views: 0