近日,开源大模型社区再次引发热议,焦点落在AI写作初创公司HyperWrite开发的新模型Reflection 70B上。Reflection 70B基于Meta Llama 3.1 70B Instruct模型,并采用原始的Llama chat格式,旨在确保与现有工具和pipeline的兼容性。该模型在多项基准测试中均超越了GPT-4o,甚至击败了405B的Llama 3.1,被誉为开源大模型新王。
然而,近日AI模型独立分析机构Artificial Analysis对该模型进行了独立评估测试,结果令人意外。测试结果显示,Reflection Llama 3.1 70B的MMLU得分仅与Llama 3 70B相同,且明显低于Llama 3.1 70B。此外,在科学推理与知识(GPQA)和定量推理(MATH)基准测试中,Reflection 70B的表现也不如Llama 3.1 70B。
Reddit上LocalLLaMA社区的一个帖子进一步揭示了Reflection 70B的基模疑虑。贴主指出,Reflection模型似乎使用了经过LoRA调整的Llama 3而不是Llama 3.1。贴主还提供了模型权重比较结果的代码来源。
这一发现引发了业界对Reflection 70B真实性能的质疑。尽管该模型在部分基准测试中表现出色,但其基模疑虑和性能表现不一致,使得其在开源大模型领域的地位受到质疑。HyperWrite公司和相关开发者需要对此作出回应,以证明Reflection 70B的真实性能和可靠性。
总之,Reflection 70B作为一款备受瞩目的开源大模型,其基模疑虑和性能表现不一致,引发了业界对其真实性能的质疑。在未来,开源大模型社区将对其持续关注,以期待其真实性能的展现。
Views: 0