上海枫泾古镇一角_20240824上海枫泾古镇一角_20240824

微软发布新一代AI模型Phi-3.5:轻量级、混合专家和视觉模型齐上阵

北京时间 [日期] 微软今日宣布推出新一代AI模型系列Phi-3.5,包含Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct和Phi-3.5-vision-instruct三个版本,分别针对轻量级推理、混合专家系统和多模态任务设计。

Phi-3.5系列模型采用MIT开源许可证,具有不同参数规模,支持128k上下文长度,优化了多语言处理和多轮对话能力。在基准测试中,Phi-3.5系列模型的性能表现超越了GPT-4o、Llama 3.1、Gemini Flash等同类模型。

Phi-3.5-mini-instruct:轻量级推理的利器

Phi-3.5-mini-instruct拥有约38.2亿参数,专为遵守指令而设计,支持快速推理任务。该模型支持128k token的上下文长度,适合处理长文本数据。在内存或计算资源受限的环境中,Phi-3.5-mini-instruct可以执行代码生成、数学问题求解和基于逻辑的推理等任务。

在多语言和多轮对话任务中,Phi-3.5-mini-instruct表现出色。在RepoQA基准测试中,该模型在“长上下文代码理解”方面的性能超越了其他类似大小的模型,如Llama-3.1-8B-instruct和Mistral-7B-instruct。

Phi-3.5-MoE-instruct:混合专家架构赋能多任务处理

Phi-3.5-MoE-instruct拥有约419亿参数,采用混合专家架构,将多个不同类型的模型组合成一个,每个模型专门处理不同任务。该模型同样支持128k token的上下文长度,适合处理复杂的多语言和多任务场景。

在代码、数学和多语言理解方面,Phi-3.5-MoE-instruct表现出色。在特定的基准测试中,该模型通常优于大型模型,包括在RepoQA基准测试中的优异表现。在5-shot MMLU(大规模多任务语言理解)基准测试中,Phi-3.5-MoE-instruct在STEM、人文学科、社会科学等多个学科的不同层次上超越了GPT-40 mini。

Phi-3.5-vision-instruct:文本和图像的完美融合

Phi-3.5-vision-instruct拥有约41.5亿参数,集成了文本和图像处理功能,使其能够处理多模态数据。该模型特别适用于一般图像理解、光学字符识别(OCR)、图表和表格理解以及视频摘要等任务。

Phi-3.5-vision-instruct同样支持128k token的上下文长度,允许模型管理复杂的多帧视觉任务。该模型使用合成数据集和筛选后的公开数据集进行训练,重点放在高质量、推理密集的数据上。

Phi-3.5的开源与应用

微软将Phi-3.5系列模型开源,并提供相应的代码库和模型权重。开发者可以利用Phi-3.5系列模型进行各种AI应用的开发,例如:

  • 自然语言处理:文本生成、翻译、问答、对话系统等。
  • 计算机视觉:图像识别、物体检测、图像生成等。
  • 代码生成:代码自动补全、代码生成、代码优化等。
  • 多模态任务:图像描述、视频理解、文本摘要等。

结语

Phi-3.5系列模型的发布,标志着微软在AI领域取得了新的突破。这些模型的轻量级、混合专家和视觉能力,将为开发者提供更多选择,推动AI技术在各个领域的应用和发展。

【source】https://ai-bot.cn/phi-3-5/

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注