Meta开源图文混合模型Chameleon，多模态AI新突破！

Meta发布开源多模态模型Chameleon，性能接近GPT-4V

Meta（Facebook母公司）人工智能研究团队FAIR（Facebook AI Research）近日发布了一个名为Chameleon的开源多模态模型，该模型能够理解和生成任意序列的图像和文本，并拥有340亿参数。 Chameleon的出现标志着多模态人工智能技术取得了新的突破，其性能在多项基准测试中接近GPT-4V，引领了多模态AI技术的新浪潮。

Chameleon的核心能力在于其能够在单一神经网络中无缝处理文本和图像，生成多模态内容。 这一能力得益于其早期融合技术，该技术将不同模态的信息在输入阶段就映射到同一个表示空间中，实现跨模态的无缝处理。此外，Chameleon还开发了一种新的图像分词器，将图像编码为离散的token，以便模型进行处理。

Chameleon的训练数据包括纯文本、文本-图像对以及文本和图像交错出现的多模态文档，使其具备强大的学习和生成能力。 在多种基准测试中，Chameleon表现出色，特别是在常识推理、阅读理解、数学问题和世界知识领域。在视觉问答和图像标注任务中，Chameleon刷新了SOTA（State of the Art），性能接近GPT-4V。

Chameleon的开源资源包括模型的独立推理代码、输入输出查看工具以及用于人类评估的混合模态和纯文本提示。 开发者可以通过Chameleon的GitHub仓库访问这些资源，并进行进一步的研究和应用。

Chameleon的应用场景非常广泛，包括：

图像和文本生成： Chameleon可以生成与文本描述相匹配的图像，适用于创意写作、教育材料制作、游戏设计等领域。
视觉问答（Visual Question Answering）： 在给定图像和相关问题的情况下，Chameleon可以提供准确的答案，适用于图像内容理解、辅助视觉障碍人士等。
图像标注： Chameleon可以为图像生成描述性标签，适用于图像数据库管理、图像检索系统等。
多模态文档生成： Chameleon能生成包含文本和图像的复杂文档，适用于自动化报告生成、教育材料、营销内容创作等。

Chameleon的发布为多模态人工智能技术的发展提供了新的动力，其开源特性也为开发者提供了更多探索和应用的机会。 相信在未来，Chameleon将被广泛应用于各个领域，推动人工智能技术的进一步发展。

Chameleon项目地址：

GitHub仓库： https://github.com/facebookresearch/chameleon
Hugging Face模型库： https://huggingface.co/papers/2405.09818
arXiv技术论文： https://arxiv.org/abs/2405.09818

Chameleon的出现，意味着多模态人工智能技术正在迈向新的高度，它将为我们带来更多可能性，并改变我们与世界互动的方式。

【source】https://ai-bot.cn/chameleon/

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Meta开源图文混合模型Chameleon，多模态AI新突破！

作者智能小编

Meta发布开源多模态模型Chameleon，性能接近GPT-4V

相关文章

博通市值破万亿，谁在幕后推手？

国产射频PA突围：能否打破外资垄断？

咖啡店密度超上海，新晋“咖啡之城”诞生？

发表回复取消回复

为您推荐

博通市值破万亿，谁在幕后推手？

国产射频PA突围：能否打破外资垄断？

咖啡店密度超上海，新晋“咖啡之城”诞生？

视频生成大模型：虚火？还是真拥挤？

作者智能小编

Meta发布开源多模态模型Chameleon，性能接近GPT-4V

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复