北大发布VARGPT：多模态AI新突破！

北京讯 – 人工智能领域迎来一项重要进展。北京大学近日发布了其最新的多模态大语言模型——VARGPT，该模型在视觉理解和生成方面实现了统一，为人工智能在图像处理和跨模态交互领域开辟了新的可能性。

在人工智能研究领域，如何让机器像人类一样理解和生成图像一直是重要的研究方向。传统的模型往往需要针对不同的任务进行专门设计，这不仅增加了开发的复杂性，也限制了模型的通用性。而VARGPT的出现，有望打破这一瓶颈。

VARGPT是一个创新的多模态大语言模型，它将视觉理解与生成统一在一个自回归框架中。这意味着VARGPT能够同时处理视觉问答、推理以及图像生成等多种任务，而无需在不同模型之间切换。

该模型基于LLaVA架构进行扩展，通过“next-token预测”实现视觉理解，即通过预测下一个文本标记来完成视觉问答和推理任务。同时，通过“next-scale预测”实现视觉生成，逐步预测图像的下一个尺度信息，最终生成高质量的图像。

VARGPT的技术原理主要体现在以下几个方面：

统一的自回归框架： 将视觉理解和生成任务统一在一个框架内，简化了模型结构，提高了效率。
视觉解码器与特征映射： 配备了专门的视觉解码器，拥有20亿参数，用于高质量的视觉生成。解码器由30个Transformer块组成，每个块包含30个注意力头，宽度为1920，采用自适应归一化（AdaLN）。
多尺度标记化： 使用多尺度变分自编码器（VAE）架构，类似于VAR模型。架构通过多尺度量化方案将图像分解为不同尺度的标记，词汇表大小为4090，训练数据为OpenImages数据集。
混合模态输入与输出： 支持文本和图像的混合模态输入，能同时输出文本和图像。

VARGPT的训练过程分为三个阶段：

VARGPT的应用场景十分广泛，包括：

VARGPT的发布，标志着多模态人工智能领域取得了重要进展。它不仅提升了视觉理解和生成的能力，也为未来的研究方向提供了新的思路。

“VARGPT的出现，有望推动人工智能在图像处理、自然语言处理以及跨模态交互等领域的应用，”一位不愿透露姓名的业内专家表示，“它将加速人工智能在创意产业、教育、医疗等领域的落地，为人们的生活带来更多便利。”

随着技术的不断发展，我们有理由相信，VARGPT将在未来发挥更大的作用。它将不仅仅是一个工具，更是一个平台，一个连接人类创意与机器智能的桥梁。

项目地址：

参考文献：