Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

上海枫泾古镇正门_20240824上海枫泾古镇正门_20240824
0

摘要: 阿里巴巴国际团队近日推出了全新的多模态大语言模型系列——Ovis2。该系列模型通过结构化嵌入对齐技术,有效弥合了视觉和文本模态之间的差异,并在小规模模型上实现了高能力密度。Ovis2不仅具备强大的多模态理解与生成能力,还在数学推理、视频理解以及多语言支持等方面表现突出,为多模态大模型的研究和应用提供了新的方向。

北京 – 在人工智能领域,多模态大语言模型正逐渐成为研究热点。近日,阿里巴巴国际团队发布了其最新研发成果——Ovis2多模态大语言模型系列,引发了业界的广泛关注。Ovis2系列模型包含1B、2B、4B、8B、16B 和 34B 六个不同参数规模的版本,并在OpenCompass多模态评测榜单中展现出卓越性能,尤其在数学推理和视频理解方面表现突出。

Ovis2:弥合视觉与文本的桥梁

Ovis2的核心在于其独特的结构化嵌入对齐技术。该技术通过视觉tokenizer将图像分割成图像块(patch),提取特征后映射到“视觉单词”上,形成概率化的视觉token。这些视觉token与文本token一同输入到大语言模型(LLM)中,从而实现了模态间的结构化对齐。这种方法有效解决了视觉和文本模态之间的差异,使得模型能够更好地理解和处理多模态信息。

技术原理:四阶段训练策略

为了提升Ovis2的性能,研发团队采用了四阶段训练策略:

  1. 第一阶段: 冻结LLM,训练视觉模块,学习视觉特征到嵌入的转化。
  2. 第二阶段: 进一步训练视觉模块,增强高分辨率图像理解和多语言OCR能力。
  3. 第三阶段: 用对话形式的视觉数据,使视觉嵌入对齐LLM的对话格式。
  4. 第四阶段: 进行多模态指令训练和偏好学习,提升模型对用户指令的遵循能力和输出质量。

此外,Ovis2还引入了MDP3算法,用于选择视频关键帧,从而提升视频理解能力。该模型基于Transformer架构,结合了强大的视觉编码器(如ViT)和语言模型(如Qwen),实现了高效的多模态融合和生成。

Ovis2的主要功能:

  • 多模态理解与生成: 处理文本、图像、视频等多种输入模态,生成高质量的文本输出,支持复杂场景下的视觉和语言任务。
  • 强化推理能力: 基于思维链(CoT)推理能力的提升,解决复杂的逻辑和数学问题,提供逐步推理的解决方案。
  • 视频和多图像处理: 引入视频理解能力,支持关键帧选择和多图像输入,处理跨帧的复杂视觉信息。
  • 多语言支持和OCR能力: 支持多种语言的文本处理,从复杂视觉元素(如表格、图表)中提取结构化数据。
  • 小模型优化: 基于优化训练策略,使小规模模型达到高能力密度,满足不同应用场景的需求。

应用场景广泛

Ovis2的应用场景十分广泛,涵盖了研究、内容创作、教育、企业以及个人用户等多个领域:

  • 研究人员和开发者: 用于模型优化、算法改进或开发多模态应用。
  • 内容创作者: 快速生成图片或视频的描述、文案、标题等,提升创作效率。
  • 教育工作者和学生: 教师生成图片或视频的解释性文字,帮助学生理解复杂内容;学生则通过视觉问答功能解决学习中的问题。
  • 企业用户: 金融、法律、医疗等行业从业者处理复杂的文档、图像或视频数据,提取关键信息,辅助决策。
  • 普通用户和技术爱好者: 进行简单的多模态任务,例如生成图片描述或进行视觉问答,探索技术在日常生活中的应用。

开源共享,推动多模态技术发展

阿里巴巴国际团队选择开源Ovis2系列模型,无疑将加速多模态大模型领域的研究和应用。研究人员和开发者可以通过GitHub(https://github.com/AIDC-AI/Ovis)和HuggingFace模型库(https://huggingface.co/collections/AIDC-AI/ovis2)获取相关资源,并参与到模型的优化和改进中。

结论:

Ovis2的发布标志着阿里巴巴在多模态大语言模型领域取得了重要进展。其独特的结构化嵌入对齐技术和四阶段训练策略,使得小规模模型也能展现出卓越的性能。Ovis2的开源共享,将为多模态技术的发展注入新的活力,并推动其在各个领域的应用。未来,我们期待Ovis2能够在更多场景中发挥作用,为人类带来更智能、更便捷的生活体验。

参考文献:

(完)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注