Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

上海宝山炮台湿地公园的蓝天白云上海宝山炮台湿地公园的蓝天白云
0

旧金山 – AMD近日宣布开源其Instella系列30亿参数语言模型,标志着该公司在人工智能领域迈出了重要一步。这一举措旨在促进AI社区的合作与创新,为开发者和研究人员提供强大的工具,以探索和构建更智能的应用。

Instella模型完全从零开始在AMD Instinct™ MI300X GPU上训练而成,基于自回归Transformer架构,包含36个解码器层和32个注意力头,支持最长4096个标记的序列。该模型经过多阶段训练,包括大规模预训练、监督微调和偏好优化,从而在自然语言理解、指令跟随和对话能力方面表现出色。

技术细节与优势

Instella的技术核心在于其Transformer架构,这是一种在自然语言处理领域广泛应用的深度学习模型。通过FlashAttention-2、Torch Compile和bfloat16混合精度训练等高效训练技术,Instella在内存使用和计算效率方面得到了显著优化。

该模型的多阶段训练过程是其性能的关键。首先,使用4.065万亿标记进行大规模预训练,建立了基础的语言理解能力。随后,使用额外的575.75亿标记进行进一步训练,增强了特定任务能力。监督微调(SFT)和直接偏好优化(DPO)则分别提升了指令跟随能力和输出结果与人类价值观的对齐程度。

此外,Instella采用完全分片数据并行(FSDP)技术进行分布式训练,将模型参数、梯度和优化器状态在节点内分片,在节点间复制,从而实现了大规模集群训练。

性能表现与应用前景

AMD表示,Instella在多个基准测试中超越了现有的开源模型,并与最先进的开源权重模型具有竞争力。该模型在自然语言理解、指令跟随、多轮对话和问题解决等方面表现出色,并能适应多种领域,如学术、编程、数学和日常对话等。

Instella的应用场景广泛,包括:

  • 智能客服: 自动回答问题,提供个性化服务,提升客户体验。
  • 内容创作: 生成文案、故事等,辅助内容创作者提高效率。
  • 教育辅导: 解答学术问题,提供学习建议,辅助学生学习。
  • 编程辅助: 生成代码片段,提供编程建议,帮助开发者解决问题。
  • 企业知识管理: 整合公司知识,提供内部咨询,提升协作效率。

开源与社区贡献

AMD完全开源了Instella的模型权重、训练配置、数据集和代码,这无疑将加速AI社区的创新步伐。开发者和研究人员可以利用这些资源,构建各种AI应用,并进一步改进和优化模型。

获取Instella

感兴趣的开发者和研究人员可以通过以下链接获取Instella:

结论

AMD开源Instella系列语言模型是一项重要的举措,它不仅展示了AMD在AI领域的实力,也为AI社区带来了新的机遇。随着越来越多的开发者和研究人员加入Instella的开发和应用,我们有理由期待AI技术的未来发展将更加蓬勃。

参考文献


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注