正文:
近日,开源大模型社区掀起了一阵热议,焦点在于AI写作初创公司HyperWrite开发的新模型——Reflection 70B。这款模型基于Meta Llama 3.1 70B Instruct,采用原始的Llama chat格式,旨在保持与现有工具和pipeline的兼容性。Reflection 70B在多项基准测试中取得了令人瞩目的成绩,包括MMLU、MATH、IFEval、GSM8K,其表现甚至超过了GPT-4o和405B的Llama 3.1,被誉为开源大模型的新王。
Reflection 70B的开发效率也堪称惊人,由HyperWrite CEO Matt Shumer和Glaive AI创始人Sahil Chaudhary两位开发者仅用3周时间便完成。然而,近日AI模型独立分析机构Artificial Analysis对Reflection 70B进行了独立评估测试,结果却让人出乎意料。
Artificial Analysis指出,Reflection Llama 3.1 70B的MMLU得分仅与Llama 3 70B相同,且明显低于Llama 3.1 70B。此外,在科学推理与知识(GPQA)和定量推理(MATH)基准测试中,Reflection 70B的表现也不如Llama 3.1 70B。
Reddit上LocalLLaMA社区的一个帖子更是揭示了Reflection 70B的秘密:该模型似乎使用了经过LoRA调整的Llama 3,而非Llama 3.1。贴主还提供了模型权重比较结果的代码来源。
从这些信息来看,Reflection 70B在性能上的“翻车”似乎并非偶然。这款模型在开源大模型社区的崛起过程中,受到了广泛关注,但其在基准测试中的表现与预期存在较大差距。这一现象引发了对开源AI大模型未来发展的担忧。
总之,Reflection 70B的基模疑为Llama 3,这一事实令人震惊。在AI大模型领域,我们需要对技术进行更深入的研究,以确保其性能和可靠性。开源大模型的发展前景广阔,但同时也面临着诸多挑战。如何保证模型的性能和公正性,将是未来研究的重要课题。
Views: 1