Reflection 70B 翻车？基模疑似 Llama 3

作者智能小编

9 月 8, 2024 #基模, #机器之心, #质疑

在上海浦东滨江公园观赏外滩建筑群-20240824

正文：
近日，开源大模型社区掀起了一阵热议，焦点在于AI写作初创公司HyperWrite开发的新模型——Reflection 70B。这款模型基于Meta Llama 3.1 70B Instruct，采用原始的Llama chat格式，旨在保持与现有工具和pipeline的兼容性。Reflection 70B在多项基准测试中取得了令人瞩目的成绩，包括MMLU、MATH、IFEval、GSM8K，其表现甚至超过了GPT-4o和405B的Llama 3.1，被誉为开源大模型的新王。

Reflection 70B的开发效率也堪称惊人，由HyperWrite CEO Matt Shumer和Glaive AI创始人Sahil Chaudhary两位开发者仅用3周时间便完成。然而，近日AI模型独立分析机构Artificial Analysis对Reflection 70B进行了独立评估测试，结果却让人出乎意料。

Artificial Analysis指出，Reflection Llama 3.1 70B的MMLU得分仅与Llama 3 70B相同，且明显低于Llama 3.1 70B。此外，在科学推理与知识（GPQA）和定量推理（MATH）基准测试中，Reflection 70B的表现也不如Llama 3.1 70B。

Reddit上LocalLLaMA社区的一个帖子更是揭示了Reflection 70B的秘密：该模型似乎使用了经过LoRA调整的Llama 3，而非Llama 3.1。贴主还提供了模型权重比较结果的代码来源。

从这些信息来看，Reflection 70B在性能上的“翻车”似乎并非偶然。这款模型在开源大模型社区的崛起过程中，受到了广泛关注，但其在基准测试中的表现与预期存在较大差距。这一现象引发了对开源AI大模型未来发展的担忧。

总之，Reflection 70B的基模疑为Llama 3，这一事实令人震惊。在AI大模型领域，我们需要对技术进行更深入的研究，以确保其性能和可靠性。开源大模型的发展前景广阔，但同时也面临着诸多挑战。如何保证模型的性能和公正性，将是未来研究的重要课题。

>>> Read more <<<