摘要: Meta 最新发布的 Llama 4 大模型,因其在基准测试中表现优异,但在实际应用中却差强人意,引发了开源社区的广泛质疑。针对“在测试集上训练”的指控,Meta 官方和内部员工纷纷出面澄清,但围绕 Llama 4 性能的争议仍在持续发酵。
北京时间 2025年4月8日 – 近日,Meta 公司发布了其最新一代大型语言模型 Llama 4,并宣称其在智商和效率方面都达到了前所未有的高度。然而,这款备受期待的模型在实际应用中的表现却与官方宣传大相径庭,引发了开源社区的强烈质疑,甚至有声音指责 Meta 为了提升基准测试分数,存在“作弊”行为。
Llama 4:从“买家秀”到“卖家秀”的反转
根据 Meta 官方发布的信息,Llama 4 分为 Scout、Maverick 和 Behemoth 等多个版本。其中,Llama 4 Maverick 在大模型竞技场(Arena)中排名第二,成为第四个突破 1400 分的大模型,并在开放模型中排名第一,超越了 DeepSeek。此外,该模型在困难提示词、编程、数学、创意写作等任务中均表现出色,大幅超越了自家 Llama 3 405B。
然而,当用户真正开始使用 Llama 4 时,却发现其性能远不如预期。网友反馈称,Llama 4 Scout(109B)和 Maverick(402B)在 Kscores 基准测试中表现不佳,甚至不如 GPT-4o、Gemini Flash 等模型。Kscores 基准测试专注于编程任务,例如代码生成和代码补全。此外,Llama 4 在 OCR、前端开发、抽象推理、创意写作等方面的表现也令人失望。
“测试集训练”疑云:内部爆料与官方否认
在关于 Llama 4 表现反差的猜测中,“把测试集混入训练数据”是最受关注的一个方向。一位自称 Meta 离职员工在留学论坛“一亩三分地”上发帖称,由于 Llama 4 模型始终未达预期,“公司领导层建议将各个 benchmark 的测试集混合在 post-training 过程中”,ta 因无法接受这种做法而辞职。
尽管该爆料的真实性尚未得到证实,但 Meta 内部员工和官方已经开始出面澄清。Meta Gen AI 团队负责人发表声明称,关于 Llama 4 在测试集上进行训练的说法“根本不是事实,我们永远不会这样做”。Meta AI 研究科学家主管 Licheng Yu 也在评论区反驳了楼主的说法,称“为了刷点而 overfit 测试集我们从来没有做过”。
LMArena 的回应与 Meta 的“对话优化”
权威的大模型基准平台 LMArena 也发布了一些 Llama 4 的对话结果,试图解答人们的疑惑。LMArena 的数据显示,在很多同问题的回答上,Llama 4 的效果都优于其他大模型。
然而,普林斯顿大学博士生黄凯旋指出,Llama 4 Scout 在 MATH-Perturb 上的得分“独树一帜”,Original 和 MATH-P-Simple 数据集上的表现差距非常大,这可能表明该模型为了标准测试做了“过度”优化。
此外,Meta 官方也承认,他们针对对话做了优化。Meta 在公告中提到,大模型竞技场上的 Maverick 是“实验性聊天版本”,并使用了“针对对话优化的 Llama 4 Maverick”。对此,大模型竞技场官方账号回应称,Meta 的做法是对平台政策的误读,应该更清楚地说明他们的模型是定制模型。
Llama 4 性能争议:部署策略还是“作弊”?
目前,Llama 4 的性能争议仍在持续发酵。Meta 官方将性能不佳归咎于部署策略,并表示正在努力修复错误并吸引合作伙伴。然而,许多用户仍然怀疑 Meta 为了提升基准测试分数,存在“作弊”行为。
Llama 4 事件再次引发了人们对大模型评估标准的讨论。如何确保基准测试的公平性和代表性,以及如何避免模型开发者为了追求高分而进行“过度”优化,仍然是行业面临的重要挑战。
参考文献:
- 机器之心. Llama 4在测试集上训练?内部员工、官方下场澄清,LeCun转发. https://www.jiqizhixin.com/articles/2025-04-08-5
- Hugging Face. Llama-4-Maverick-03-26-Experimentalbattles. https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimentalbattles
(本文仅代表作者观点,不代表本媒体立场)
Views: 0