新闻正文:
近日,人工智能领域传来重磅消息,Mistral团队推出了其首个多模态模型——Pixtral 12B。这一模型以24GB的磁力链接形式直接放出,展示了Mistral团队一贯的低调风格。
根据解析,这个磁力链接包含4个文件,总大小为23.64GB,其中最大的文件是一个封装的多模态大模型。这一模型已由非官方Mistral社区上传至Hugging Face平台,便于研究人员和开发者获取和使用。
Pixtral 12B的规格和性能备受关注。从模型名称可以看出,该模型的参数量为12B。其视觉编码器支持1024×1024大小的图像,拥有24个隐藏层,支持高级图像处理。模型层数为40,隐藏维度大小为14,336,注意力头有32个。此外,Pixtral 12B的词汇库包含131,072个不同的token,具备强大的语言理解和生成能力。
这一模型的发布受到了广泛的欢迎和好评。有人将其与近期热门的Reflection模型进行了对比,Mistral团队踏实做事的风格再次得到了体现。
在Mistral AI Summit上,Mistral CEO Arthur Mensch和英伟达CEO黄仁勋等演讲者分享了Pixtral 12B的性能。该模型支持任意大小的图像和128k的上下文窗口,能处理同时包含文本和图像的大型文档。在性能指标上,Pixtral 12B虽然不及GPT-4o和Claude-3.5 Sonnet,但在多个基准测试中胜过了Claude-3 Haiku和Gemini-1.5 8B。
Mistral展示了Pixtral 12B的一些具体应用案例,包括OCR转录科学文章图片、识别手写内容、提取图片信息和描述图像内容等。该模型还具备出色的解释和推理能力,在MMMU和MathVista等多模态知识和推理性能上领先其他模型。
Mistral的愿景是让AI好用且有用。他们计划通过La Platforme简化用户的使用流程,降低使用成本。目前,Mistral已推出多种免费模型,包括用于通用任务和科研任务的模型,以及支持多种编程语言的Codestral模型。
Mistral AI成立于2023年5月,是一家法国人工智能初创公司。该公司以其低调的发布风格和高质量的产品在AI领域崭露头角。
新闻来源:机器之心
发布日期:2024年9月12日
Views: 0