上海宝山炮台湿地公园的蓝天白云上海宝山炮台湿地公园的蓝天白云

Meta开源新一代大语言模型 Llama 3:性能提升,安全增强,多语言支持

Meta 公司近日宣布开源其新一代大型语言模型 Llama 3,标志着开源人工智能领域的又一重大进步。 Llama 3 包含 8B 和 70B 两种参数规模的模型,继承了前代模型的强大功能,并通过一系列创新和改进,提供了更高效、更可靠的 AI 解决方案。

Llama 3 的主要改进包括:

  • 参数规模提升: Llama 3 提供了 8B 和 70B 两种参数规模的模型,相比 Llama 2,参数数量的增加使得模型能够捕捉和学习更复杂的语言模式。
  • 训练数据集扩大: Llama 3 的训练数据集比 Llama 2 大了 7 倍,包含了超过 15 万亿个 token,其中包括4 倍的代码数据,这使得 Llama 3 在理解和生成代码方面更加出色。
  • 模型架构优化: Llama 3 采用了更高效的分词器和分组查询注意力 (Grouped Query Attention, GQA) 技术,提高了模型的推理效率和处理长文本的能力。
  • 性能提升: 通过改进的预训练和后训练过程,Llama 3 在减少错误拒绝率、提升响应对齐和增加模型响应多样性方面取得了进步。
  • 安全性增强: Llama 3 引入了 Llama Guard 2 等新的信任和安全工具,以及 Code Shield 和 CyberSec Eval 2,增强了模型的安全性和可靠性。
  • 多语言支持: Llama 3 在预训练数据中加入了超过 30 种语言的高质量非英语数据,为未来的多语言能力打下了基础。

Llama 3 在推理、代码生成和指令跟随等方面展现了大幅提升的能力,使其在复杂任务处理上更加精准和高效。 根据 Meta 的官方博客,经指令微调后的 Llama 3 8B 模型在 MMLU、GPQA、HumanEval、GSM-8K、MATH 等数据集基准测试中都优于同等级参数规模的模型(Gemma 7B、Mistral 7B),而微调后的 Llama 3 70B 在 MLLU、HumanEval、GSM-8K 等基准测试中也都优于同等规模的 Gemini Pro 1.5 和 Claude 3 Sonnet 模型。

Meta 还表示,未来将推出 400B 参数规模的 Llama 3 模型,目前该模型仍在训练中。 Meta 还将发布一份详细的研究论文,介绍 Llama 3 的训练过程、性能评估以及未来发展方向。

Llama 3 的开源发布将为人工智能研究和应用带来新的机遇。 研究人员可以利用 Llama 3 进行更深入的语言模型研究,而开发者可以利用 Llama 3 构建更强大的 AI 应用,例如智能聊天机器人、代码生成工具、翻译软件等。

Llama3 的官方项目主页: https://llama.meta.com/llama3/

GitHub 模型权重和代码: https://github.com/meta-llama/llama3/

Hugging Face 模型: https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6

Llama 3 的开源发布,将进一步推动开源人工智能的发展,并为 AI 技术的应用带来更多可能性。

【source】https://ai-bot.cn/meta-llama-3/

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注