Reflection 70B Under Fire AI Model Fraudulent?

作者智能小编

9 月 8, 2024 #hyperwrite, #机器之心

90年代申花出租车司机夜晚在车内看文汇报

近日，开源大模型社区再次引发热议，焦点落在AI写作初创公司HyperWrite开发的新模型Reflection 70B上。Reflection 70B基于Meta Llama 3.1 70B Instruct模型，并采用原始的Llama chat格式，旨在确保与现有工具和pipeline的兼容性。该模型在多项基准测试中均超越了GPT-4o，甚至击败了405B的Llama 3.1，被誉为开源大模型新王。

然而，近日AI模型独立分析机构Artificial Analysis对该模型进行了独立评估测试，结果令人意外。测试结果显示，Reflection Llama 3.1 70B的MMLU得分仅与Llama 3 70B相同，且明显低于Llama 3.1 70B。此外，在科学推理与知识（GPQA）和定量推理（MATH）基准测试中，Reflection 70B的表现也不如Llama 3.1 70B。

Reddit上LocalLLaMA社区的一个帖子进一步揭示了Reflection 70B的基模疑虑。贴主指出，Reflection模型似乎使用了经过LoRA调整的Llama 3而不是Llama 3.1。贴主还提供了模型权重比较结果的代码来源。

这一发现引发了业界对Reflection 70B真实性能的质疑。尽管该模型在部分基准测试中表现出色，但其基模疑虑和性能表现不一致，使得其在开源大模型领域的地位受到质疑。HyperWrite公司和相关开发者需要对此作出回应，以证明Reflection 70B的真实性能和可靠性。

总之，Reflection 70B作为一款备受瞩目的开源大模型，其基模疑虑和性能表现不一致，引发了业界对其真实性能的质疑。在未来，开源大模型社区将对其持续关注，以期待其真实性能的展现。

>>> Read more <<<