Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

川普在美国宾州巴特勒的一次演讲中遇刺_20240714川普在美国宾州巴特勒的一次演讲中遇刺_20240714
0

Meta 最新发布的 Llama 4 大模型系列,在各大 AI 竞技场中斩获佳绩,然而用户实际体验却与其亮眼排名形成鲜明反差,引发业界对其基准测试方法的质疑。Llama 4 真的如官方宣称的那般强大吗?还是说,这又是一场精心策划的“考试作弊”?

Meta 近期发布了其最新的 AI 模型系列 Llama 4,包含 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth 三个版本。官方宣称,Llama 4 在大模型竞技场中表现出色,其中 Llama 4 Maverick 更是以总排名第二的成绩,成为第四个突破 1400 分的大模型,并在开放模型中排名第一,超越了 DeepSeek。在困难提示词、编程、数学、创意写作等任务中,Llama 4 也均名列前茅。

然而,令人始料未及的是,用户在实际使用中却发现 Llama 4 似乎并不像官方宣传的那样强大,尤其是在编程方面,表现令人失望。

理想与现实的巨大落差:Llama 4 的“翻车”现场

社交媒体上,用户对 Llama 4 的负面评价铺天盖地。一位名为 @deedydas 的用户发帖指出,Llama 4 Scout(109B)和 Maverick(402B)在 Kscores 基准测试中表现不佳,远不如 GPT-4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7 等模型。Kscores 基准测试专注于代码生成和代码补全等编程任务,是衡量 AI 模型编程能力的重要指标。

更有用户分享了 Llama 4 在具体编程任务中的“翻车”案例。例如,在一个小球在旋转六边形中跳跃的测试中,Llama 4 的表现远不如预期。

评论区中,用户纷纷表示,无论是 Scout 还是 Maverick,在实际编程中都难以胜任,即使提供详细的提示也无济于事。一位用户抱怨道:“我尝试用 Llama 4 编写一个简单的 Python 脚本,结果它生成的代码漏洞百出,根本无法运行。”

Novita AI 平台上的一项测试也印证了用户的担忧。测试结果显示,Llama 4 在处理复杂问题时显得力不从心,虽然响应速度很快,但给出的答案往往不够准确和完整。

“它很好,但我不认为它在打败 DeepSeek R1 和 V3…也许 Llama 4 Behemoth 会更强大。”一位用户评论道。

官方排名与用户体验的悖论:Llama 4 究竟是如何“作弊”的?

官方宣称的卓越性能与用户实际体验的巨大落差,引发了人们对 Llama 4 基准测试的质疑。Google Deepmind 工程师 Susan Zhang 在 X 平台上公开质疑,Llama 4 在 lmsys 上怎么得分这么高?“是不是为 lmsys 定制了一个模型?”

科技媒体 TechCrunch 的报道进一步揭示了 Meta 新 AI 模型基准测试可能存在的误导性。报道指出,尽管 Maverick 在 LM Arena 测试中排名第二,但不少研究人员发现,公开可下载的 Maverick 与托管在 LM Arena 上的模型在行为上存在显著差异。LM Arena 上的版本似乎使用了大量表情符号,并给出了极为冗长的回答。

一位名为 Nathan Lambert 的用户分享了一张图片,展示了 Llama 4 和另一个模型回答同一个问题的对比。问题是:“Nathan Lambert 是谁?”图片显示,Llama 4 的回答非常冗长,啰啰嗦嗦讲了一大堆,而且充满了表情符号和感叹号。相比之下,另一个模型的回答则简洁明了,直击要点。

Meta 在公告中提到,LM Arena 上的 Maverick 是“实验性聊天版本”,与此同时官方 Llama 网站上的图表也透露,该测试使用了“针对对话优化的Llama 4 Maverick”。

这意味着,Meta 可能针对 LM Arena 进行了专门的优化,使得 Llama 4 在该平台上的表现优于其他模型。然而,这种优化并没有反映在公开可下载的版本中,导致用户在使用时无法获得与官方排名相符的体验。

基准测试的争议:AI 模型的“选美大赛”还是“能力评估”?

LM Arena 作为衡量 AI 模型性能的指标一直存在争议。该平台通过让用户对不同模型生成的答案进行投票,从而得出模型的排名。然而,这种方法存在诸多缺陷。

首先,用户的投票结果可能受到主观因素的影响。例如,用户可能更喜欢那些回答更长、更富有个性化的模型,即使这些模型在其他方面表现不佳。

其次,LM Arena 的测试任务可能不够全面,无法充分反映模型的真实能力。例如,该平台可能更侧重于对话能力,而忽略了编程、数学等其他重要能力。

尽管如此,AI 公司通常不会为了提高 LM Arena 分数而定制模型,至少没有公开承认过。将模型针对基准测试进行优化、保留优化版本,然后发布一个“普通”版本的问题在于,这使得开发者难以准确预测模型在特定场景下的表现,存在误导性。

理想情况下,尽管基准测试存在不足,但它们至少可以提供一个模型在多种任务上的优缺点的概况。然而,如果 AI 公司为了追求排名而对模型进行过度优化,那么基准测试的意义将大打折扣。

Llama 4 事件的反思:AI 模型的评估标准应该是什么?

Llama 4 事件引发了人们对 AI 模型评估标准的深刻反思。我们应该如何衡量一个 AI 模型的优劣?仅仅依靠基准测试的排名是否足够?

显然,答案是否定的。基准测试只是评估 AI 模型的一种手段,而不是唯一的手段。我们还需要考虑模型的实际应用场景、用户体验、安全性、可靠性等因素。

更重要的是,我们需要建立一套更加科学、客观、全面的 AI 模型评估体系。这套体系应该能够充分反映模型的真实能力,避免出现“考试作弊”的情况。

具体来说,我们可以从以下几个方面入手:

  1. 增加基准测试的多样性。 现有的基准测试往往侧重于某些特定任务,而忽略了其他重要任务。我们需要增加基准测试的多样性,覆盖更多的应用场景,从而更全面地评估模型的性能。
  2. 引入更加客观的评估指标。 现有的评估指标往往带有主观性,容易受到人为因素的影响。我们需要引入更加客观的评估指标,例如准确率、召回率、F1 值等,从而更准确地评估模型的性能。
  3. 加强对模型的实际应用测试。 基准测试只能模拟模型的某些应用场景,无法完全反映模型的真实表现。我们需要加强对模型的实际应用测试,让模型在真实环境中接受考验,从而更真实地评估模型的性能。
  4. 建立透明的评估流程。 AI 模型的评估流程应该公开透明,接受公众的监督。这样可以避免 AI 公司为了追求排名而对模型进行过度优化,从而保证评估结果的公正性。

结语:AI 模型的未来发展需要更加务实和理性

Llama 4 事件给 AI 行业敲响了警钟。AI 模型的未来发展需要更加务实和理性,不能只追求排名和噱头,而应该更加注重模型的实际应用价值和用户体验。

AI 公司应该把更多的精力放在提升模型的真实能力上,而不是放在如何“作弊”上。只有这样,AI 技术才能真正为人类带来福祉。

同时,用户也应该保持理性,不要盲目相信官方宣传和基准测试排名,而应该根据自己的实际需求选择合适的 AI 模型。

AI 技术的未来发展需要 AI 公司、用户、研究人员、监管机构等多方共同努力,共同营造一个更加健康、可持续的 AI 生态。

参考文献:

未来展望:

Llama 4 事件暴露了当前 AI 模型评估体系的不足,也为未来的 AI 模型发展方向提供了启示。未来,我们期待看到更加透明、客观、全面的 AI 模型评估体系的建立,以及 AI 公司更加注重模型的实际应用价值和用户体验,从而推动 AI 技术的健康、可持续发展。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注