Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

黄山的油菜花黄山的油菜花
0

北京——人工智能领域再添新星,北京大学近日发布了一款名为VARGPT的多模态大语言模型,该模型专注于视觉理解和生成任务,有望在视觉问答、图像生成、多模态内容创作等领域带来突破性进展。

VARGPT的核心创新在于其统一的自回归框架。与以往需要针对不同任务切换模型的复杂方法不同,VARGPT将视觉理解和视觉生成整合到一个模型中,极大地提高了效率和灵活性。该模型基于LLaVA架构扩展,通过“next-token预测”实现视觉理解,通过“next-scale预测”实现视觉生成,能够高效处理混合模态的输入和输出。

技术原理:统一框架与多尺度标记

VARGPT的技术亮点主要体现在以下几个方面:

  • 统一的自回归框架: VARGPT采用自回归框架,将视觉理解和生成任务统一处理。对于视觉理解,模型通过预测下一个文本标记来完成视觉问答和推理任务;对于视觉生成,则采用next-scale预测范式,逐步预测图像的下一个尺度信息。
  • 视觉解码器与特征映射: 模型配备了一个拥有20亿参数的专用视觉解码器,由30个Transformer块组成,每个块包含30个注意力头,宽度为1920,采用自适应归一化(AdaLN),用于高质量的视觉生成。
  • 多尺度标记化: VARGPT使用多尺度变分自编码器(VAE)架构,将图像分解为不同尺度的标记,词汇表大小为4090,训练数据为OpenImages数据集,从而支持视觉生成。
  • 混合模态输入与输出: VARGPT支持文本和图像的混合模态输入,并能同时输出文本和图像。模型通过特殊的标记和提示格式,灵活地在文本和视觉模态之间切换,实现混合模态生成。

三阶段训练策略:提升性能的关键

为了使VARGPT达到最佳性能,研究团队采用了三阶段训练策略:

  1. 预训练阶段: 学习文本和视觉特征之间的映射关系。
  2. 混合视觉指令微调阶段: 通过构造视觉生成指令数据集,结合多轮对话指令数据集进行混合训练,增强模型在视觉问答和指令到图像合成任务中的能力。

广泛的应用前景:从问答到创作

VARGPT的强大功能使其在多个领域具有广阔的应用前景:

  • 视觉问答与推理: VARGPT能够理解图像内容并生成准确的文本回答,适用于复杂的视觉问答任务。
  • 指令到图像生成: 用户可以通过简单的文字描述来生成特定场景的高质量图像。
  • 多模态内容创作: VARGPT支持文本与图像的无缝切换,可以根据文本描述生成相应的图像,或者根据图像生成相关的文本内容。
  • 创意与娱乐: VARGPT的图像生成能力可以应用于创意和娱乐领域,生成个性化的艺术作品、虚拟角色等。

开源共享:推动AI发展

为了促进人工智能领域的进步,北京大学选择开源VARGPT项目。研究人员、开发者和爱好者可以通过以下链接获取更多信息:

VARGPT的发布,无疑为多模态人工智能领域注入了新的活力。其统一的框架、强大的生成能力和广泛的应用前景,都预示着它将在未来的AI发展中扮演重要角色。我们期待看到VARGPT在实际应用中取得更多突破,为人类带来更智能、更便捷的生活体验。

参考文献:

(完)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注