Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

上海讯 – 上海人工智能实验室(OpenGVLab)近日正式推出其最新研发成果——多模态大模型InternVL。该模型专注于视觉与语言任务,旨在通过深度融合视觉和语言信息,为人工智能应用带来更强大的理解和生成能力。

InternVL采用了先进的ViT-MLP-LLM架构,其中,视觉模块由InternViT等改进的Vision Transformer模型构成,负责提取图像和视频中的视觉特征。语言模块则基于InternLM,处理文本输入并生成文本输出。一个关键的MLP投影器则负责将视觉特征映射到与语言模型相同的特征空间,实现二者的有效融合。

该模型基于海量网络级图像-文本数据进行训练,支持多种模态输入,包括图像、视频和文本,并能生成多语言输出。InternVL具备多模态理解、多学科推理、多语言处理和纯语言处理等多种功能。尤其在文档和图表理解、信息图表问答、场景文本理解以及科学和数学问题解决方面表现出色。此外,InternVL还具备多模态幻觉检测能力,能够识别和区分真实与虚构的视觉信息,并实现视觉地面化,将文本描述与图像中的实际对象相匹配。

技术亮点:动态高分辨率与渐进式训练

为了高效处理高分辨率图像,InternVL采用了动态高分辨率技术,将图像分割成多个小块,并动态调整分辨率,从而在保持计算效率的同时,保留图像的细节信息。此外,像素洗牌技术通过减少视觉标记的数量,进一步降低了计算复杂度。

在训练策略上,InternVL采用了渐进式训练策略。首先,使用小模型在大量带噪数据上进行预训练,然后使用大模型在精选数据上进行对齐。这种方法能够有效减少训练资源消耗,并提升模型的性能。

应用场景广泛,赋能多行业

InternVL的应用场景十分广泛,包括:

  • 视觉问答(VQA): InternVL能够处理与图像或视频内容相关的问题,适用于教育、电子商务和客户服务等领域。
  • 文档和图表理解: 在文档理解(DocVQA)和信息图表问答(ChartQA)任务中表现出色,能提取文档中的关键信息,解析表格和图表,生成文档摘要或图表解释。
  • 多语言翻译和理解: 支持多语言处理,能处理和生成多种语言的文本,在跨语言交流和国际商务中具有广阔的应用前景。
  • 图像和视频分析: 可用于自动标注、分类和理解图像和视频内容,在安防监控领域,可以实时分析监控视频,识别异常行为;在内容审核方面,能快速识别违规内容。
  • 智能客服: InternVL可以作为智能客服的核心技术,支持多模态交互。用户可以通过上传图片或视频描述问题,模型能理解并提供解决方案。

开源与体验

OpenGVLab已将InternVL项目开源,并提供在线体验Demo。感兴趣的研究人员和开发者可以通过以下链接获取更多信息:

InternVL的发布,标志着上海人工智能实验室在多模态大模型领域取得了重要进展。该模型的开源,将有助于推动人工智能技术的创新和应用,为各行各业带来更多可能性。

未来展望

OpenGVLab表示,未来将继续致力于多模态大模型的研究与开发,不断提升模型的性能和应用范围,为构建更加智能、高效的人工智能系统贡献力量。

参考文献

  • OpenGVLab. (2023). InternVL: Scaling up Vision-Language Representation Learning. arXiv preprint arXiv:2312.14238.


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注