正文:
在人工智能领域,混合专家(Mixture-of-Experts, MoE)模型因其高效的性能和成本权衡而备受关注。然而,大多数MoE模型都是闭源的,限制了学者和开发人员对这一领域的研究和开发。近日,艾伦人工智能研究院和Contextual AI等机构的研究者推出了一种全新的、完全开源的MoE大模型——OLMoE,该模型在性能上达到了同类模型中的最高水平。
OLMoE模型拥有7B的参数,其推理成本仅为1B,这使得它在性能和成本之间实现了良好的平衡。研究团队不仅开源了模型的权重,还公开了训练代码、中间checkpoint、训练日志和训练数据,为开源社区提供了全面的研究资源。
MoE模型通过在每一层中使用多个专家,每次只激活其中的一个子集,从而提高了模型的效率。与传统的密集模型相比,MoE模型在处理每个输入时只激活部分参数,这大大减少了计算量和内存需求。目前,行业内的一些前沿模型,如Gemini-1.5和GPT-4,都已经采用了MoE架构。
OLMoE模型的独特之处在于其完全开源的特性,以及它在类似大小的模型中展现出的SOTA(State-of-the-Art)性能。研究者使用5.1万亿个token对OLMoE-1B-7B模型进行了预训练,该模型总共拥有69亿参数,但每个输入token只激活13亿参数。
实验结果显示,OLMoE-1B-7B在多个基准测试中优于其他开源1B模型,并且与推理成本和内存存储明显更高的密集模型相比表现出了竞争力。通过指令和偏好调优,研究团队还创建了OLMoE-1B-7B-INSTRUCT模型,它在MMLU、GSM8k、HumanEval等常见基准测试中超越了各种更大的指令模型。
论文作者Niklas Muennighoff表示,OLMoE是第一个100%开源的混合专家LLM(Large Language Model),其设计和实现为开源社区提供了新的研究方向和工具。研究者希望这个完全开源的MoE模型能够促进更多研究和分析,提高对这些模型的理解。
参考文献:
– 论文地址:OLMoE: Open Mixture-of-Experts Language Models
关于OLMoE的更多技术细节和实验结果,可以查阅上述论文。
Views: 0