微软新一代AIPhi-3.5亮相，混合模型引领视觉革命

作者智能小编

9 月 5, 2024 #微软, #每日AI快讯

黄山的油菜花

正文：

微软近日推出了一代全新的AI模型系列——Phi-3.5，该系列包括Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct和Phi-3.5-vision-instruct三个版本，分别针对轻量级推理、混合专家系统和多模态任务设计。

Phi-3.5系列模型采用MIT开源许可证，支持128k上下文长度，优化了多语言处理和多轮对话能力，在基准测试中的性能表现超越了GPT4o、Llama 3.1、Gemini Flash等同类模型。

以下是Phi-3.5系列模型的详细性能评估和功能特色：

Phi-3.5-mini-instruct
- 参数量：约38.2亿参数
- 设计目的：专为遵守指令而设计，支持快速推理任务
- 上下文支持：支持128k token的上下文长度
- 适用场景：适用于内存或计算资源受限的环境，能执行代码生成、数学问题求解和基于逻辑的推理等任务
- 性能：在多语言和多轮对话任务中表现出色，测量“长上下文代码理解”的性能超越了其他类似大小的模型
Phi-3.5-MoE-instruct
- 参数量：约419亿参数
- 架构特点：采用混合专家架构，将多个不同类型的模型组合成一个，每个模型专门处理不同任务
- 上下文支持：支持128k token的上下文长度
- 性能表现：在代码、数学和多语言理解方面表现出色，在特定的基准测试中通常优于大型模型
- 多任务能力：在5-shot MMLU基准测试中，在STEM、人文学科、社会科学等多个学科的不同层次上超越了GPT-40 mini
Phi-3.5-vision-instruct
- 参数量：约41.5亿参数
- 功能集成：集成了文本和图像处理功能，能够处理多模态数据
- 适用任务：适用于一般图像理解、光学字符识别（OCR）、图表和表格理解以及视频摘要等任务
- 上下文支持：支持128k token的上下文长度
- 训练数据：使用合成数据集和筛选后的公开数据集进行训练，重点放在高质量、推理密集的数据上

Phi-3.5系列模型的项目地址已发布在GitHub上，用户可以访问以下链接获取更多详细信息：

GitHub仓库：https://github.com/microsoft/Phi-3CookBook
Phi-3.5-mini-instruct模型地址：https://huggingface.co/microsoft/Phi-3.5-mini-instruct
Phi-3.5-MoE-instruct模型地址：https://huggingface.co/microsoft/Phi-3.5-MoE-instruct
Phi-3.5-vision-instruct模型地址：https://huggingface.co/microsoft/Phi-3.5-vision-instruct

Phi-3.5的应用场景广泛，Phi-3.5-mini-instruct适用于嵌入式系统和移动应用中的快速文本处理和代码生成；Phi-3.5-MoE-instruct为数据分析和多语言文本提供深度推理，适合跨学科研究和专业领域；而Phi-3.5-vision-instruct则适用于自动图像标注、视频监控和复杂视觉数据的深入分析。