Meta发布开源多模态模型Chameleon,性能接近GPT-4V
Meta(Facebook母公司)人工智能研究团队FAIR(Facebook AI Research)近日发布了一个名为Chameleon的开源多模态模型,该模型能够理解和生成任意序列的图像和文本,并拥有340亿参数。 Chameleon的出现标志着多模态人工智能技术取得了新的突破,其性能在多项基准测试中接近GPT-4V,引领了多模态AI技术的新浪潮。
Chameleon的核心能力在于其能够在单一神经网络中无缝处理文本和图像,生成多模态内容。 这一能力得益于其早期融合技术,该技术将不同模态的信息在输入阶段就映射到同一个表示空间中,实现跨模态的无缝处理。此外,Chameleon还开发了一种新的图像分词器,将图像编码为离散的token,以便模型进行处理。
Chameleon的训练数据包括纯文本、文本-图像对以及文本和图像交错出现的多模态文档,使其具备强大的学习和生成能力。 在多种基准测试中,Chameleon表现出色,特别是在常识推理、阅读理解、数学问题和世界知识领域。在视觉问答和图像标注任务中,Chameleon刷新了SOTA(State of the Art),性能接近GPT-4V。
Chameleon的开源资源包括模型的独立推理代码、输入输出查看工具以及用于人类评估的混合模态和纯文本提示。 开发者可以通过Chameleon的GitHub仓库访问这些资源,并进行进一步的研究和应用。
Chameleon的应用场景非常广泛,包括:
- 图像和文本生成: Chameleon可以生成与文本描述相匹配的图像,适用于创意写作、教育材料制作、游戏设计等领域。
- 视觉问答(Visual Question Answering): 在给定图像和相关问题的情况下,Chameleon可以提供准确的答案,适用于图像内容理解、辅助视觉障碍人士等。
- 图像标注: Chameleon可以为图像生成描述性标签,适用于图像数据库管理、图像检索系统等。
- 多模态文档生成: Chameleon能生成包含文本和图像的复杂文档,适用于自动化报告生成、教育材料、营销内容创作等。
Chameleon的发布为多模态人工智能技术的发展提供了新的动力,其开源特性也为开发者提供了更多探索和应用的机会。 相信在未来,Chameleon将被广泛应用于各个领域,推动人工智能技术的进一步发展。
Chameleon项目地址:
- GitHub仓库: https://github.com/facebookresearch/chameleon
- Hugging Face模型库: https://huggingface.co/papers/2405.09818
- arXiv技术论文: https://arxiv.org/abs/2405.09818
Chameleon的出现,意味着多模态人工智能技术正在迈向新的高度,它将为我们带来更多可能性,并改变我们与世界互动的方式。
【source】https://ai-bot.cn/chameleon/
Views: 0