PUMA：多模态大模型开启AI新纪元

AI工具集 2024年10月28日

近年来，多模态大语言模型（MLLM）在图像生成、图像编辑和视觉语言理解等领域展现出巨大潜力，而PUMA的出现，则标志着MLLM领域迈向了一个新的里程碑。PUMA，即“多粒度策略统一的多模态大语言模型”，由来自香港中文大学（CUHK）多媒体实验室、香港大学（HKU）多媒体实验室、商汤科技、上海人工智能实验室和清华大学的研究人员共同推出，其目标是基于集成多粒度视觉特征，统一和增强视觉生成和理解任务。

PUMA的核心优势在于其对图像特征的多粒度理解和处理能力。它能够提取从细粒度到粗粒度的多级视觉特征，并利用自回归MLLM和扩散式解码器，实现从精确图像重建到语义引导生成的广泛视觉解码能力。这种多粒度策略赋予了PUMA前所未有的灵活性和可控性，使其能够适应不同层次的细节要求，并完成更复杂、更精细的视觉任务。

PUMA的主要功能：

多样化文本到图像生成： PUMA能够根据文本提示生成多样化且高质量的图像，并基于粗粒度视觉特征增强创造力和一致性。这意味着用户可以更自由地表达自己的创意，并获得更符合预期、更具艺术性的图像结果。
图像编辑： PUMA利用细粒度图像特征实现精确的图像编辑，包括添加或移除对象、风格调整等，同时保持原始图像的保真度。这将为图像处理和编辑领域带来革命性的变化，用户可以更轻松地对图像进行精细化调整，满足各种个性化需求。
条件图像生成： PUMA擅长基于特定条件输入的图像生成任务，如从边缘图生成图像、图像修复或着色，确保结果精确且符合上下文。这将为图像生成领域带来新的可能性，例如根据草图生成完整图像，或根据已有图像进行修复和完善。
多粒度视觉解码： PUMA基于五个不同粒度的图像表示及对应的解码器，实现从精确图像重建到语义引导生成的广泛视觉解码能力。这意味着PUMA能够根据不同的任务需求，选择最合适的解码器，以获得最佳的视觉输出结果。

PUMA的技术原理：