AMD开源Instella：30亿参数语言模型亮相

旧金山 – AMD近日宣布开源其Instella系列30亿参数语言模型，标志着该公司在人工智能领域迈出了重要一步。这一举措旨在促进AI社区的合作与创新，为开发者和研究人员提供强大的工具，以探索和构建更智能的应用。

Instella模型完全从零开始在AMD Instinct™ MI300X GPU上训练而成，基于自回归Transformer架构，包含36个解码器层和32个注意力头，支持最长4096个标记的序列。该模型经过多阶段训练，包括大规模预训练、监督微调和偏好优化，从而在自然语言理解、指令跟随和对话能力方面表现出色。

技术细节与优势

Instella的技术核心在于其Transformer架构，这是一种在自然语言处理领域广泛应用的深度学习模型。通过FlashAttention-2、Torch Compile和bfloat16混合精度训练等高效训练技术，Instella在内存使用和计算效率方面得到了显著优化。

该模型的多阶段训练过程是其性能的关键。首先，使用4.065万亿标记进行大规模预训练，建立了基础的语言理解能力。随后，使用额外的575.75亿标记进行进一步训练，增强了特定任务能力。监督微调（SFT）和直接偏好优化（DPO）则分别提升了指令跟随能力和输出结果与人类价值观的对齐程度。

此外，Instella采用完全分片数据并行（FSDP）技术进行分布式训练，将模型参数、梯度和优化器状态在节点内分片，在节点间复制，从而实现了大规模集群训练。

性能表现与应用前景

AMD表示，Instella在多个基准测试中超越了现有的开源模型，并与最先进的开源权重模型具有竞争力。该模型在自然语言理解、指令跟随、多轮对话和问题解决等方面表现出色，并能适应多种领域，如学术、编程、数学和日常对话等。

Instella的应用场景广泛，包括：

智能客服： 自动回答问题，提供个性化服务，提升客户体验。
内容创作： 生成文案、故事等，辅助内容创作者提高效率。
教育辅导： 解答学术问题，提供学习建议，辅助学生学习。
编程辅助： 生成代码片段，提供编程建议，帮助开发者解决问题。
企业知识管理： 整合公司知识，提供内部咨询，提升协作效率。

开源与社区贡献

AMD完全开源了Instella的模型权重、训练配置、数据集和代码，这无疑将加速AI社区的创新步伐。开发者和研究人员可以利用这些资源，构建各种AI应用，并进一步改进和优化模型。

获取Instella

感兴趣的开发者和研究人员可以通过以下链接获取Instella：

项目官网： https://rocm.blogs.amd.com/artificial-intelligence/introducing-instella
GitHub仓库： https://github.com/AMD-AIG-AIMA/Instella
HuggingFace模型库： https://huggingface.co/collections/amd/instella

结论

AMD开源Instella系列语言模型是一项重要的举措，它不仅展示了AMD在AI领域的实力，也为AI社区带来了新的机遇。随着越来越多的开发者和研究人员加入Instella的开发和应用，我们有理由期待AI技术的未来发展将更加蓬勃。

参考文献

AMD ROCm Blog: Introducing Instella. https://rocm.blogs.amd.com/artificial-intelligence/introducing-instella
Instella GitHub Repository: https://github.com/AMD-AIG-AIMA/Instella
Instella HuggingFace Collection: https://huggingface.co/collections/amd/instella

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

AMD开源Instella：30亿参数语言模型亮相

作者智能小编

相关文章

腾讯AI“元宝”杀入微信，13亿用户社交版图重塑？

2025人工智能：颠覆与新生

北大团队突破！单目长视频实时重建高质量3D点云

发表回复取消回复

为您推荐