Llama 4“翻车”？Meta紧急澄清难掩失望

摘要： Meta 最新发布的 Llama 4 大模型，因其在基准测试中表现优异，但在实际应用中却差强人意，引发了开源社区的广泛质疑。针对“在测试集上训练”的指控，Meta 官方和内部员工纷纷出面澄清，但围绕 Llama 4 性能的争议仍在持续发酵。

北京时间 2025年4月8日 – 近日，Meta 公司发布了其最新一代大型语言模型 Llama 4，并宣称其在智商和效率方面都达到了前所未有的高度。然而，这款备受期待的模型在实际应用中的表现却与官方宣传大相径庭，引发了开源社区的强烈质疑，甚至有声音指责 Meta 为了提升基准测试分数，存在“作弊”行为。

Llama 4：从“买家秀”到“卖家秀”的反转

根据 Meta 官方发布的信息，Llama 4 分为 Scout、Maverick 和 Behemoth 等多个版本。其中，Llama 4 Maverick 在大模型竞技场（Arena）中排名第二，成为第四个突破 1400 分的大模型，并在开放模型中排名第一，超越了 DeepSeek。此外，该模型在困难提示词、编程、数学、创意写作等任务中均表现出色，大幅超越了自家 Llama 3 405B。

然而，当用户真正开始使用 Llama 4 时，却发现其性能远不如预期。网友反馈称，Llama 4 Scout（109B）和 Maverick（402B）在 Kscores 基准测试中表现不佳，甚至不如 GPT-4o、Gemini Flash 等模型。Kscores 基准测试专注于编程任务，例如代码生成和代码补全。此外，Llama 4 在 OCR、前端开发、抽象推理、创意写作等方面的表现也令人失望。

“测试集训练”疑云：内部爆料与官方否认

在关于 Llama 4 表现反差的猜测中，“把测试集混入训练数据”是最受关注的一个方向。一位自称 Meta 离职员工在留学论坛“一亩三分地”上发帖称，由于 Llama 4 模型始终未达预期，“公司领导层建议将各个 benchmark 的测试集混合在 post-training 过程中”，ta 因无法接受这种做法而辞职。

尽管该爆料的真实性尚未得到证实，但 Meta 内部员工和官方已经开始出面澄清。Meta Gen AI 团队负责人发表声明称，关于 Llama 4 在测试集上进行训练的说法“根本不是事实，我们永远不会这样做”。Meta AI 研究科学家主管 Licheng Yu 也在评论区反驳了楼主的说法，称“为了刷点而 overfit 测试集我们从来没有做过”。

LMArena 的回应与 Meta 的“对话优化”

权威的大模型基准平台 LMArena 也发布了一些 Llama 4 的对话结果，试图解答人们的疑惑。LMArena 的数据显示，在很多同问题的回答上，Llama 4 的效果都优于其他大模型。

然而，普林斯顿大学博士生黄凯旋指出，Llama 4 Scout 在 MATH-Perturb 上的得分“独树一帜”，Original 和 MATH-P-Simple 数据集上的表现差距非常大，这可能表明该模型为了标准测试做了“过度”优化。

此外，Meta 官方也承认，他们针对对话做了优化。Meta 在公告中提到，大模型竞技场上的 Maverick 是“实验性聊天版本”，并使用了“针对对话优化的 Llama 4 Maverick”。对此，大模型竞技场官方账号回应称，Meta 的做法是对平台政策的误读，应该更清楚地说明他们的模型是定制模型。

Llama 4 性能争议：部署策略还是“作弊”？

目前，Llama 4 的性能争议仍在持续发酵。Meta 官方将性能不佳归咎于部署策略，并表示正在努力修复错误并吸引合作伙伴。然而，许多用户仍然怀疑 Meta 为了提升基准测试分数，存在“作弊”行为。

Llama 4 事件再次引发了人们对大模型评估标准的讨论。如何确保基准测试的公平性和代表性，以及如何避免模型开发者为了追求高分而进行“过度”优化，仍然是行业面临的重要挑战。

参考文献：

机器之心. Llama 4在测试集上训练？内部员工、官方下场澄清，LeCun转发. https://www.jiqizhixin.com/articles/2025-04-08-5
Hugging Face. Llama-4-Maverick-03-26-Experimentalbattles. https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimentalbattles

（本文仅代表作者观点，不代表本媒体立场）

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Llama 4“翻车”？Meta紧急澄清难掩失望

作者智能小编

相关文章

Text Vector Length Bias Impacting Search Results

文本向量长度偏差：搜索结果背后的隐形推手

OpenAI Scientist’s “Second Half” Reveals AI Apocalypse and Insights

发表回复取消回复

为您推荐