Meta Llama 4：竞技场高分，实战却翻车？

Meta 最新发布的 Llama 4 大模型系列，在各大 AI 竞技场中斩获佳绩，然而用户实际体验却与其亮眼排名形成鲜明反差，引发业界对其基准测试方法的质疑。Llama 4 真的如官方宣称的那般强大吗？还是说，这又是一场精心策划的“考试作弊”？

Meta 近期发布了其最新的 AI 模型系列 Llama 4，包含 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth 三个版本。官方宣称，Llama 4 在大模型竞技场中表现出色，其中 Llama 4 Maverick 更是以总排名第二的成绩，成为第四个突破 1400 分的大模型，并在开放模型中排名第一，超越了 DeepSeek。在困难提示词、编程、数学、创意写作等任务中，Llama 4 也均名列前茅。

然而，令人始料未及的是，用户在实际使用中却发现 Llama 4 似乎并不像官方宣传的那样强大，尤其是在编程方面，表现令人失望。

理想与现实的巨大落差：Llama 4 的“翻车”现场

社交媒体上，用户对 Llama 4 的负面评价铺天盖地。一位名为 @deedydas 的用户发帖指出，Llama 4 Scout（109B）和 Maverick（402B）在 Kscores 基准测试中表现不佳，远不如 GPT-4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7 等模型。Kscores 基准测试专注于代码生成和代码补全等编程任务，是衡量 AI 模型编程能力的重要指标。

更有用户分享了 Llama 4 在具体编程任务中的“翻车”案例。例如，在一个小球在旋转六边形中跳跃的测试中，Llama 4 的表现远不如预期。

评论区中，用户纷纷表示，无论是 Scout 还是 Maverick，在实际编程中都难以胜任，即使提供详细的提示也无济于事。一位用户抱怨道：“我尝试用 Llama 4 编写一个简单的 Python 脚本，结果它生成的代码漏洞百出，根本无法运行。”

Novita AI 平台上的一项测试也印证了用户的担忧。测试结果显示，Llama 4 在处理复杂问题时显得力不从心，虽然响应速度很快，但给出的答案往往不够准确和完整。

“它很好，但我不认为它在打败 DeepSeek R1 和 V3…也许 Llama 4 Behemoth 会更强大。”一位用户评论道。

官方排名与用户体验的悖论：Llama 4 究竟是如何“作弊”的？

官方宣称的卓越性能与用户实际体验的巨大落差，引发了人们对 Llama 4 基准测试的质疑。Google Deepmind 工程师 Susan Zhang 在 X 平台上公开质疑，Llama 4 在 lmsys 上怎么得分这么高？“是不是为 lmsys 定制了一个模型？”

科技媒体 TechCrunch 的报道进一步揭示了 Meta 新 AI 模型基准测试可能存在的误导性。报道指出，尽管 Maverick 在 LM Arena 测试中排名第二，但不少研究人员发现，公开可下载的 Maverick 与托管在 LM Arena 上的模型在行为上存在显著差异。LM Arena 上的版本似乎使用了大量表情符号，并给出了极为冗长的回答。

一位名为 Nathan Lambert 的用户分享了一张图片，展示了 Llama 4 和另一个模型回答同一个问题的对比。问题是：“Nathan Lambert 是谁？”图片显示，Llama 4 的回答非常冗长，啰啰嗦嗦讲了一大堆，而且充满了表情符号和感叹号。相比之下，另一个模型的回答则简洁明了，直击要点。

Meta 在公告中提到，LM Arena 上的 Maverick 是“实验性聊天版本”，与此同时官方 Llama 网站上的图表也透露，该测试使用了“针对对话优化的Llama 4 Maverick”。

这意味着，Meta 可能针对 LM Arena 进行了专门的优化，使得 Llama 4 在该平台上的表现优于其他模型。然而，这种优化并没有反映在公开可下载的版本中，导致用户在使用时无法获得与官方排名相符的体验。

基准测试的争议：AI 模型的“选美大赛”还是“能力评估”？

LM Arena 作为衡量 AI 模型性能的指标一直存在争议。该平台通过让用户对不同模型生成的答案进行投票，从而得出模型的排名。然而，这种方法存在诸多缺陷。

首先，用户的投票结果可能受到主观因素的影响。例如，用户可能更喜欢那些回答更长、更富有个性化的模型，即使这些模型在其他方面表现不佳。

其次，LM Arena 的测试任务可能不够全面，无法充分反映模型的真实能力。例如，该平台可能更侧重于对话能力，而忽略了编程、数学等其他重要能力。

尽管如此，AI 公司通常不会为了提高 LM Arena 分数而定制模型，至少没有公开承认过。将模型针对基准测试进行优化、保留优化版本，然后发布一个“普通”版本的问题在于，这使得开发者难以准确预测模型在特定场景下的表现，存在误导性。

理想情况下，尽管基准测试存在不足，但它们至少可以提供一个模型在多种任务上的优缺点的概况。然而，如果 AI 公司为了追求排名而对模型进行过度优化，那么基准测试的意义将大打折扣。

Llama 4 事件的反思：AI 模型的评估标准应该是什么？

Llama 4 事件引发了人们对 AI 模型评估标准的深刻反思。我们应该如何衡量一个 AI 模型的优劣？仅仅依靠基准测试的排名是否足够？

显然，答案是否定的。基准测试只是评估 AI 模型的一种手段，而不是唯一的手段。我们还需要考虑模型的实际应用场景、用户体验、安全性、可靠性等因素。

更重要的是，我们需要建立一套更加科学、客观、全面的 AI 模型评估体系。这套体系应该能够充分反映模型的真实能力，避免出现“考试作弊”的情况。

具体来说，我们可以从以下几个方面入手：

增加基准测试的多样性。 现有的基准测试往往侧重于某些特定任务，而忽略了其他重要任务。我们需要增加基准测试的多样性，覆盖更多的应用场景，从而更全面地评估模型的性能。
引入更加客观的评估指标。 现有的评估指标往往带有主观性，容易受到人为因素的影响。我们需要引入更加客观的评估指标，例如准确率、召回率、F1 值等，从而更准确地评估模型的性能。
加强对模型的实际应用测试。 基准测试只能模拟模型的某些应用场景，无法完全反映模型的真实表现。我们需要加强对模型的实际应用测试，让模型在真实环境中接受考验，从而更真实地评估模型的性能。
建立透明的评估流程。 AI 模型的评估流程应该公开透明，接受公众的监督。这样可以避免 AI 公司为了追求排名而对模型进行过度优化，从而保证评估结果的公正性。

结语：AI 模型的未来发展需要更加务实和理性

Llama 4 事件给 AI 行业敲响了警钟。AI 模型的未来发展需要更加务实和理性，不能只追求排名和噱头，而应该更加注重模型的实际应用价值和用户体验。

AI 公司应该把更多的精力放在提升模型的真实能力上，而不是放在如何“作弊”上。只有这样，AI 技术才能真正为人类带来福祉。

同时，用户也应该保持理性，不要盲目相信官方宣传和基准测试排名，而应该根据自己的实际需求选择合适的 AI 模型。

AI 技术的未来发展需要 AI 公司、用户、研究人员、监管机构等多方共同努力，共同营造一个更加健康、可持续的 AI 生态。

参考文献：

TechCrunch. (2025, April 6). Meta’s benchmarks for its new AI models are a bit misleading. https://techcrunch.com/2025/04/06/metas-benchmarks-for-its-new-ai-models-are-a-bit-misleading/
@deedydas. (2025, April 6). Llama 4 Scout (109B) and Maverick (402B) perform poorly on Kscores benchmark. https://x.com/deedydas/status/1908749257084944847
@techdevnotes. (2025, April 6). Comparison of Llama 4 and another model answering the question Who is Nathan Lambert?. https://x.com/techdevnotes/status/1908851730386657431
@ai_for_success. (2025, April 6). Novita AI platform test results for Llama 4. https://x.com/ai_for_success/status/1908915996707913989

未来展望：

Llama 4 事件暴露了当前 AI 模型评估体系的不足，也为未来的 AI 模型发展方向提供了启示。未来，我们期待看到更加透明、客观、全面的 AI 模型评估体系的建立，以及 AI 公司更加注重模型的实际应用价值和用户体验，从而推动 AI 技术的健康、可持续发展。

>>> Read more <<<

Meta Llama 4：竞技场高分，实战却翻车？

作者智能小编

理想与现实的巨大落差：Llama 4 的“翻车”现场

官方排名与用户体验的悖论：Llama 4 究竟是如何“作弊”的？

基准测试的争议：AI 模型的“选美大赛”还是“能力评估”？

Llama 4 事件的反思：AI 模型的评估标准应该是什么？

结语：AI 模型的未来发展需要更加务实和理性

相关文章

Here are a few options playing with different angles Long-Chain Thinking Massive Review Unlocks AI’s Reasoning Futu

AI老兵两年实战：经验之谈

AI研发工具大比拼：2025谁执牛耳？

发表回复取消回复

为您推荐

Here are a few options playing with different angles Long-Chain Thinking Massive Review Unlocks AI’s Reasoning Futu

AI老兵两年实战：经验之谈

AI研发工具大比拼：2025谁执牛耳？

Unlock the Power of Transformers From Theory to Hands-On Code

2025 年 4 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

作者智能小编

理想与现实的巨大落差：Llama 4 的“翻车”现场

官方排名与用户体验的悖论：Llama 4 究竟是如何“作弊”的？

基准测试的争议：AI 模型的“选美大赛”还是“能力评估”？

Llama 4 事件的反思：AI 模型的评估标准应该是什么？

结语：AI 模型的未来发展需要更加务实和理性

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复