阿里国际AI团队最新力作:Ovis1.6

在人工智能领域,阿里国际AI团队再次引领前沿,推出了一款名为Ovis1.6的多模态大模型。这款模型不仅在多模态权威综合评测基准OpenCompass上取得了优异成绩,更在30亿参数以下的模型中综合得分排名第一,超越了包括闭源的GPT-4o-mini在内的其他主流模型。

Ovis1.6:多模态任务的全能选手

Ovis1.6具备强大的视觉感知推理、数学和科学问题解答、生活场景理解等多模态任务处理能力,能够处理包括文本和图像在内的多种数据输入。在数学推理、视觉理解等多项任务中,Ovis1.6的表现令人瞩目,甚至在某些方面超过了GPT-4o-mini。

技术创新:Ovis1.6的独到之处

Ovis1.6采用了创新的架构设计,基于视觉tokenizer加上视觉嵌入表和大语言模型的架构。通过引入可学习的视觉嵌入表,将连续的视觉特征转换为概率化的视觉token,再通过视觉嵌入表多次索引加权得到结构化的视觉嵌入,显著提升了多模态任务的表现。

高分图像处理与全面数据优化

Ovis1.6支持处理极端长宽比的图像,并兼容高分辨率图像,使模型在图像理解任务上展现出色的能力。在训练中,Ovis1.6使用了多种类型的数据集,包括Caption、VQA、OCR、Table、Chart等,全面的数据覆盖显著提升了模型在多模态问答、指令跟随等任务上的表现。

应用场景:教育、农业、医疗等领域的革新

Ovis1.6的应用场景广泛,从教育和学习辅助到农业和植物识别,再到语言翻译和文本处理,以及图像识别和分析,Ovis1.6都能发挥重要作用。在自动驾驶和医疗诊断领域,Ovis1.6同样展现出巨大的潜力,能够提高环境感知和决策能力,增强行车安全,辅助医生进行医学图像分析,提高疾病诊断的准确性和效率。

项目地址与技术论文

对于对Ovis1.6感兴趣的技术人员和研究人员,可以访问以下链接获取更多信息:

Ovis1.6的推出,标志着阿里国际AI团队在多模态大模型领域取得了重要突破,为人工智能技术的发展注入了新的活力。


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注