苹果公司携手研究团队发布开源小模型 DCLM-7B,性能超越同类模型
北京时间 [时间] -苹果公司与合作团队近日发布了名为 DCLM-7B 的开源小模型,该模型拥有 70 亿个参数,在性能上超越了 Mistral-7B,接近 Llama 3 和 Gemma。DCLM-7B 的发布,标志着苹果公司在人工智能领域迈出了重要一步,也为开源社区提供了新的高质量工具。
DCLM-7B 是 DataComp-LM(DCLM)项目的一部分,该项目由苹果公司与多家研究机构合作进行。DCLM-7B 基于 240 万亿个令牌的 Common Crawl 数据进行预训练,并采用标准化的 DCLM-POOL 和 OpenLM 框架,在 5-shot MMLU测试中取得了 64% 的准确率,训练效率显著。
DCLM-7B 的技术优势主要体现在以下几个方面:
- 大规模数据集: DCLM-7B 使用了从 Common Crawl 中提取的 240 万亿个令牌构成的标准化语料库,为模型提供了丰富的训练数据。
- 数据筛选: 通过模型基础的过滤方法,从大规模数据集中筛选出高质量的训练数据,是构建 DCLM-7B 的关键步骤。
- OpenLM 框架:基于 OpenLM 框架,DCLM-7B 采用了有效的预训练方案,提供了标准化的训练流程和超参数设置。
- 标准化评估: DCLM-7B 在 53 个下游任务上进行了标准化评估,有助于量化训练集的优势和局限性。
- 模型架构: DCLM-7B 采用的是 decoder-only 的 Transformer 模型架构,是一种常用于语言模型的深度学习架构。
- 训练优化: 在训练过程中,DCLM-7B 使用了特定的优化技术,如z-loss,以保持输出 logit 的数值稳定性。
- 多尺度训练: DCLM-7B 在不同的计算规模上进行了训练,从 412M 到 7B 参数的模型,有助于理解不同训练规模对模型性能的影响。
DCLM-7B 的开源包括权重、训练代码和数据集,推动了 LLM 开源社区的发展,并提供了高质量数据集 DCLM-BASELINE,为数据驱动的模型研究设立了新基准。
DCLM-7B 的适用人群包括:
*AI 研究人员:专注于自然语言处理和机器学习领域的科学家和学者。
* 软件开发者:集成高级语言处理能力到应用程序中的技术人员。
* 数据分析师:处理和分析大量文本数据以获取洞察力的专业人士。
* 教育技术专家:开发教育工具和交互式学习体验的教育工作者。
* 企业决策者:利用 AI 优化业务流程和增强客户服务的商业领袖。
DCLM-7B 的发布,不仅为开源社区提供了新的高质量工具,也表明苹果公司在人工智能领域持续投入,并积极推动技术发展。未来,DCLM-7B 有望在自然语言处理、机器学习等领域发挥重要作用,并为更多应用场景提供支持。
项目地址:
- 项目官网:https://huggingface.co/apple/DCLM-7B
- GitHub 仓库:https://github.com/mlfoundations/dclm
- arXiv 技术论文:https://arxiv.org/pdf/2406.11794
[新闻来源]
【source】https://ai-bot.cn/dclm-7b/
Views: 0