Meta 最新发布的 Llama 4 大模型系列,在各大 AI 竞技场中斩获佳绩,然而用户实际体验却与其亮眼排名形成鲜明反差,引发业界对其基准测试方法的质疑。Llama 4 真的如官方宣称的那般强大吗?还是说,这又是一场精心策划的“考试作弊”?
Meta 近期发布了其最新的 AI 模型系列 Llama 4,包含 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth 三个版本。官方宣称,Llama 4 在大模型竞技场中表现出色,其中 Llama 4 Maverick 更是以总排名第二的成绩,成为第四个突破 1400 分的大模型,并在开放模型中排名第一,超越了 DeepSeek。在困难提示词、编程、数学、创意写作等任务中,Llama 4 也均名列前茅。
然而,令人始料未及的是,用户在实际使用中却发现 Llama 4 似乎并不像官方宣传的那样强大,尤其是在编程方面,表现令人失望。
理想与现实的巨大落差:Llama 4 的“翻车”现场
社交媒体上,用户对 Llama 4 的负面评价铺天盖地。一位名为 @deedydas 的用户发帖指出,Llama 4 Scout(109B)和 Maverick(402B)在 Kscores 基准测试中表现不佳,远不如 GPT-4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7 等模型。Kscores 基准测试专注于代码生成和代码补全等编程任务,是衡量 AI 模型编程能力的重要指标。
更有用户分享了 Llama 4 在具体编程任务中的“翻车”案例。例如,在一个小球在旋转六边形中跳跃的测试中,Llama 4 的表现远不如预期。
评论区中,用户纷纷表示,无论是 Scout 还是 Maverick,在实际编程中都难以胜任,即使提供详细的提示也无济于事。一位用户抱怨道:“我尝试用 Llama 4 编写一个简单的 Python 脚本,结果它生成的代码漏洞百出,根本无法运行。”
Novita AI 平台上的一项测试也印证了用户的担忧。测试结果显示,Llama 4 在处理复杂问题时显得力不从心,虽然响应速度很快,但给出的答案往往不够准确和完整。
“它很好,但我不认为它在打败 DeepSeek R1 和 V3…也许 Llama 4 Behemoth 会更强大。”一位用户评论道。
官方排名与用户体验的悖论:Llama 4 究竟是如何“作弊”的?
官方宣称的卓越性能与用户实际体验的巨大落差,引发了人们对 Llama 4 基准测试的质疑。Google Deepmind 工程师 Susan Zhang 在 X 平台上公开质疑,Llama 4 在 lmsys 上怎么得分这么高?“是不是为 lmsys 定制了一个模型?”
科技媒体 TechCrunch 的报道进一步揭示了 Meta 新 AI 模型基准测试可能存在的误导性。报道指出,尽管 Maverick 在 LM Arena 测试中排名第二,但不少研究人员发现,公开可下载的 Maverick 与托管在 LM Arena 上的模型在行为上存在显著差异。LM Arena 上的版本似乎使用了大量表情符号,并给出了极为冗长的回答。
一位名为 Nathan Lambert 的用户分享了一张图片,展示了 Llama 4 和另一个模型回答同一个问题的对比。问题是:“Nathan Lambert 是谁?”图片显示,Llama 4 的回答非常冗长,啰啰嗦嗦讲了一大堆,而且充满了表情符号和感叹号。相比之下,另一个模型的回答则简洁明了,直击要点。
Meta 在公告中提到,LM Arena 上的 Maverick 是“实验性聊天版本”,与此同时官方 Llama 网站上的图表也透露,该测试使用了“针对对话优化的Llama 4 Maverick”。
这意味着,Meta 可能针对 LM Arena 进行了专门的优化,使得 Llama 4 在该平台上的表现优于其他模型。然而,这种优化并没有反映在公开可下载的版本中,导致用户在使用时无法获得与官方排名相符的体验。
基准测试的争议:AI 模型的“选美大赛”还是“能力评估”?
LM Arena 作为衡量 AI 模型性能的指标一直存在争议。该平台通过让用户对不同模型生成的答案进行投票,从而得出模型的排名。然而,这种方法存在诸多缺陷。
首先,用户的投票结果可能受到主观因素的影响。例如,用户可能更喜欢那些回答更长、更富有个性化的模型,即使这些模型在其他方面表现不佳。
其次,LM Arena 的测试任务可能不够全面,无法充分反映模型的真实能力。例如,该平台可能更侧重于对话能力,而忽略了编程、数学等其他重要能力。
尽管如此,AI 公司通常不会为了提高 LM Arena 分数而定制模型,至少没有公开承认过。将模型针对基准测试进行优化、保留优化版本,然后发布一个“普通”版本的问题在于,这使得开发者难以准确预测模型在特定场景下的表现,存在误导性。
理想情况下,尽管基准测试存在不足,但它们至少可以提供一个模型在多种任务上的优缺点的概况。然而,如果 AI 公司为了追求排名而对模型进行过度优化,那么基准测试的意义将大打折扣。
Llama 4 事件的反思:AI 模型的评估标准应该是什么?
Llama 4 事件引发了人们对 AI 模型评估标准的深刻反思。我们应该如何衡量一个 AI 模型的优劣?仅仅依靠基准测试的排名是否足够?
显然,答案是否定的。基准测试只是评估 AI 模型的一种手段,而不是唯一的手段。我们还需要考虑模型的实际应用场景、用户体验、安全性、可靠性等因素。
更重要的是,我们需要建立一套更加科学、客观、全面的 AI 模型评估体系。这套体系应该能够充分反映模型的真实能力,避免出现“考试作弊”的情况。
具体来说,我们可以从以下几个方面入手:
- 增加基准测试的多样性。 现有的基准测试往往侧重于某些特定任务,而忽略了其他重要任务。我们需要增加基准测试的多样性,覆盖更多的应用场景,从而更全面地评估模型的性能。
- 引入更加客观的评估指标。 现有的评估指标往往带有主观性,容易受到人为因素的影响。我们需要引入更加客观的评估指标,例如准确率、召回率、F1 值等,从而更准确地评估模型的性能。
- 加强对模型的实际应用测试。 基准测试只能模拟模型的某些应用场景,无法完全反映模型的真实表现。我们需要加强对模型的实际应用测试,让模型在真实环境中接受考验,从而更真实地评估模型的性能。
- 建立透明的评估流程。 AI 模型的评估流程应该公开透明,接受公众的监督。这样可以避免 AI 公司为了追求排名而对模型进行过度优化,从而保证评估结果的公正性。
结语:AI 模型的未来发展需要更加务实和理性
Llama 4 事件给 AI 行业敲响了警钟。AI 模型的未来发展需要更加务实和理性,不能只追求排名和噱头,而应该更加注重模型的实际应用价值和用户体验。
AI 公司应该把更多的精力放在提升模型的真实能力上,而不是放在如何“作弊”上。只有这样,AI 技术才能真正为人类带来福祉。
同时,用户也应该保持理性,不要盲目相信官方宣传和基准测试排名,而应该根据自己的实际需求选择合适的 AI 模型。
AI 技术的未来发展需要 AI 公司、用户、研究人员、监管机构等多方共同努力,共同营造一个更加健康、可持续的 AI 生态。
参考文献:
- TechCrunch. (2025, April 6). Meta’s benchmarks for its new AI models are a bit misleading. https://techcrunch.com/2025/04/06/metas-benchmarks-for-its-new-ai-models-are-a-bit-misleading/
- @deedydas. (2025, April 6). Llama 4 Scout (109B) and Maverick (402B) perform poorly on Kscores benchmark. https://x.com/deedydas/status/1908749257084944847
- @techdevnotes. (2025, April 6). Comparison of Llama 4 and another model answering the question Who is Nathan Lambert?. https://x.com/techdevnotes/status/1908851730386657431
- @ai_for_success. (2025, April 6). Novita AI platform test results for Llama 4. https://x.com/ai_for_success/status/1908915996707913989
未来展望:
Llama 4 事件暴露了当前 AI 模型评估体系的不足,也为未来的 AI 模型发展方向提供了启示。未来,我们期待看到更加透明、客观、全面的 AI 模型评估体系的建立,以及 AI 公司更加注重模型的实际应用价值和用户体验,从而推动 AI 技术的健康、可持续发展。
Views: 0