Meta开源Llama 3：新一代大模型问世

作者智能小编

8 月 28, 2024 #Llama3, #Meta, #每日AI快讯

上海宝山炮台湿地公园的蓝天白云

Meta开源新一代大语言模型 Llama 3：性能提升，安全增强，多语言支持

Meta 公司近日宣布开源其新一代大型语言模型 Llama 3，标志着开源人工智能领域的又一重大进步。 Llama 3 包含 8B 和 70B 两种参数规模的模型，继承了前代模型的强大功能，并通过一系列创新和改进，提供了更高效、更可靠的 AI 解决方案。

Llama 3 的主要改进包括：

参数规模提升： Llama 3 提供了 8B 和 70B 两种参数规模的模型，相比 Llama 2，参数数量的增加使得模型能够捕捉和学习更复杂的语言模式。
训练数据集扩大： Llama 3 的训练数据集比 Llama 2 大了 7 倍，包含了超过 15 万亿个 token，其中包括4 倍的代码数据，这使得 Llama 3 在理解和生成代码方面更加出色。
模型架构优化： Llama 3 采用了更高效的分词器和分组查询注意力 (Grouped Query Attention, GQA) 技术，提高了模型的推理效率和处理长文本的能力。
性能提升： 通过改进的预训练和后训练过程，Llama 3 在减少错误拒绝率、提升响应对齐和增加模型响应多样性方面取得了进步。
安全性增强： Llama 3 引入了 Llama Guard 2 等新的信任和安全工具，以及 Code Shield 和 CyberSec Eval 2，增强了模型的安全性和可靠性。
多语言支持： Llama 3 在预训练数据中加入了超过 30 种语言的高质量非英语数据，为未来的多语言能力打下了基础。

Llama 3 在推理、代码生成和指令跟随等方面展现了大幅提升的能力，使其在复杂任务处理上更加精准和高效。 根据 Meta 的官方博客，经指令微调后的 Llama 3 8B 模型在 MMLU、GPQA、HumanEval、GSM-8K、MATH 等数据集基准测试中都优于同等级参数规模的模型（Gemma 7B、Mistral 7B），而微调后的 Llama 3 70B 在 MLLU、HumanEval、GSM-8K 等基准测试中也都优于同等规模的 Gemini Pro 1.5 和 Claude 3 Sonnet 模型。

Meta 还表示，未来将推出 400B 参数规模的 Llama 3 模型，目前该模型仍在训练中。 Meta 还将发布一份详细的研究论文，介绍 Llama 3 的训练过程、性能评估以及未来发展方向。

Llama 3 的开源发布将为人工智能研究和应用带来新的机遇。 研究人员可以利用 Llama 3 进行更深入的语言模型研究，而开发者可以利用 Llama 3 构建更强大的 AI 应用，例如智能聊天机器人、代码生成工具、翻译软件等。

Llama3 的官方项目主页： https://llama.meta.com/llama3/

GitHub 模型权重和代码： https://github.com/meta-llama/llama3/

Hugging Face 模型： https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6

Llama 3 的开源发布，将进一步推动开源人工智能的发展，并为 AI 技术的应用带来更多可能性。

【source】https://ai-bot.cn/meta-llama-3/