Mistral AI进军图像处理，推出首款多模态模型Pixtral 12B

9 月 17, 2024 #MistralAI, #图像处理, #麻省理工科技评论

（2024年3月）法国AI初创公司Mistral AI近日宣布推出其首款多模态AI模型Pixtral 12B，正式进军图像处理领域。该模型旨在将视觉处理能力与自然语言处理相结合，为图像和文本分析提供强大的支持。

挑战巨头，展示技术创新

Mistral AI成立于不到两年前，此次推出Pixtral 12B标志着该公司正式进入竞争激烈的AI领域。该模型向业界巨头OpenAI和Anthropic发起挑战，展示了Mistral AI在技术创新方面的雄心。

欧盟支持，多模态趋势

Pixtral 12B的发布得到了欧盟的大力支持，这反映出AI行业向多模态发展的大趋势。Mistral AI联合创始人兼CEO亚瑟·门施入选了2024年《麻省理工科技评论》“35岁以下科技创新35人”全球名单，进一步证明了该公司在AI领域的实力。

多模态能力，灵活应用

Pixtral 12B基于Mistral AI此前发布的文本模型Nemo 12B，通过增加一个4亿参数的视觉适配器，实现了对图像和文本的双重处理能力。该模型拥有约120亿个参数，分布在40个层中，具有14336个隐藏维度和32个注意力头，为复杂的计算处理提供了强大支持。

在视觉处理方面，Pixtral 12B具有专门的视觉编码器，支持1024×1024像素分辨率的图像处理，并拥有24个隐藏层。该模型采用16×16像素的图像块处理方式，并引入了2D旋转位置嵌入（RoPE）技术，提升了模型理解图像空间关系的能力。

在实际应用中，用户可以通过URL或base64编码的方式输入图像，结合文本提示来分析图像内容。这意味着Pixtral 12B能够执行诸如图像分类、物体计数、图像描述生成等多样化的任务。

灵活发布，开放生态

Mistral AI选择了一种非常规的方式发布Pixtral 12B，首先通过种子链接发布了模型文件的下载途径，随后在GitHub和人工智能分发平台Hugging Face上公开了源代码。该公司计划通过其网络聊天机器人提供Pixtral 12B的使用接口，让潜在的开发者能够体验这一新模型。

授权条款待定，未来可期

Mistral AI尚未明确Pixtral 12B的授权条款。业界普遍推测，该模型可能会对研究和学术用途免费开放，而商业应用则需要付费许可。

Pixtral 12B的发布标志着Mistral AI正式进入多模态AI领域，这一举措体现了该公司在AI技术竞争中的雄心。随着越来越多的开发者开始下载和测试Pixtral 12B，有望在不久的将来看到更多关于其实际性能和应用潜力的具体信息。