Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

NEWS 新闻NEWS 新闻
0

摘要: Meta 最新发布的 Llama 4 大模型,因其在基准测试中表现优异,但在实际应用中却差强人意,引发了开源社区的广泛质疑。针对“在测试集上训练”的指控,Meta 官方和内部员工纷纷出面澄清,但围绕 Llama 4 性能的争议仍在持续发酵。

北京时间 2025年4月8日 – 近日,Meta 公司发布了其最新一代大型语言模型 Llama 4,并宣称其在智商和效率方面都达到了前所未有的高度。然而,这款备受期待的模型在实际应用中的表现却与官方宣传大相径庭,引发了开源社区的强烈质疑,甚至有声音指责 Meta 为了提升基准测试分数,存在“作弊”行为。

Llama 4:从“买家秀”到“卖家秀”的反转

根据 Meta 官方发布的信息,Llama 4 分为 Scout、Maverick 和 Behemoth 等多个版本。其中,Llama 4 Maverick 在大模型竞技场(Arena)中排名第二,成为第四个突破 1400 分的大模型,并在开放模型中排名第一,超越了 DeepSeek。此外,该模型在困难提示词、编程、数学、创意写作等任务中均表现出色,大幅超越了自家 Llama 3 405B。

然而,当用户真正开始使用 Llama 4 时,却发现其性能远不如预期。网友反馈称,Llama 4 Scout(109B)和 Maverick(402B)在 Kscores 基准测试中表现不佳,甚至不如 GPT-4o、Gemini Flash 等模型。Kscores 基准测试专注于编程任务,例如代码生成和代码补全。此外,Llama 4 在 OCR、前端开发、抽象推理、创意写作等方面的表现也令人失望。

“测试集训练”疑云:内部爆料与官方否认

在关于 Llama 4 表现反差的猜测中,“把测试集混入训练数据”是最受关注的一个方向。一位自称 Meta 离职员工在留学论坛“一亩三分地”上发帖称,由于 Llama 4 模型始终未达预期,“公司领导层建议将各个 benchmark 的测试集混合在 post-training 过程中”,ta 因无法接受这种做法而辞职。

尽管该爆料的真实性尚未得到证实,但 Meta 内部员工和官方已经开始出面澄清。Meta Gen AI 团队负责人发表声明称,关于 Llama 4 在测试集上进行训练的说法“根本不是事实,我们永远不会这样做”。Meta AI 研究科学家主管 Licheng Yu 也在评论区反驳了楼主的说法,称“为了刷点而 overfit 测试集我们从来没有做过”。

LMArena 的回应与 Meta 的“对话优化”

权威的大模型基准平台 LMArena 也发布了一些 Llama 4 的对话结果,试图解答人们的疑惑。LMArena 的数据显示,在很多同问题的回答上,Llama 4 的效果都优于其他大模型。

然而,普林斯顿大学博士生黄凯旋指出,Llama 4 Scout 在 MATH-Perturb 上的得分“独树一帜”,Original 和 MATH-P-Simple 数据集上的表现差距非常大,这可能表明该模型为了标准测试做了“过度”优化。

此外,Meta 官方也承认,他们针对对话做了优化。Meta 在公告中提到,大模型竞技场上的 Maverick 是“实验性聊天版本”,并使用了“针对对话优化的 Llama 4 Maverick”。对此,大模型竞技场官方账号回应称,Meta 的做法是对平台政策的误读,应该更清楚地说明他们的模型是定制模型。

Llama 4 性能争议:部署策略还是“作弊”?

目前,Llama 4 的性能争议仍在持续发酵。Meta 官方将性能不佳归咎于部署策略,并表示正在努力修复错误并吸引合作伙伴。然而,许多用户仍然怀疑 Meta 为了提升基准测试分数,存在“作弊”行为。

Llama 4 事件再次引发了人们对大模型评估标准的讨论。如何确保基准测试的公平性和代表性,以及如何避免模型开发者为了追求高分而进行“过度”优化,仍然是行业面临的重要挑战。

参考文献:

(本文仅代表作者观点,不代表本媒体立场)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注