Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

摘要: 谷歌最新发布的Gemini 2.5 Pro Experimental号称“最智能模型”,在多项基准测试中表现亮眼。然而,在实际测试中,面对几道看似简单的小学数学题,Gemini 2.5却未能展现出其宣称的强大推理能力,甚至与其他模型一同“翻车”,引发了人们对AI模型智能水平的重新审视。

正文:

在人工智能领域,谷歌与OpenAI的竞争日趋白热化。就在OpenAI推出GPT-4o之际,谷歌也毫不示弱,祭出了号称“最智能的模型”——Gemini 2.5 Pro Experimental。据谷歌首席科学家Jeff Dean介绍,该模型集成了“思考能力”,尤其擅长高级推理和编码,并在@lmarena_ai排行榜上名列前茅。

为了验证Gemini 2.5的实际性能,有媒体将其与o3-mini、GPT-4.5、Claude3.7 Sonnet、Grok3、DeepSeek R1等模型进行了一场“大乱斗”。测试题目并非复杂的算法难题,而是几道看似简单的小学数学题,旨在考察模型在实际场景中的推理和判断能力。

然而,测试结果却令人大跌眼镜。

“竹竿进城门”难题:集体“翻车”

第一道题目是:“一根10米长的竹竿能通过高4.5米、宽3.8米的城门吗?”

这道题目的关键在于,打破思维定势,意识到竹竿可以倾斜或平行于地面通过城门。然而,包括Gemini 2.5在内的所有模型,都陷入了勾股定理的计算中,忽略了现实的三维空间,最终给出了错误的答案。

“鸡蛋还剩几个”难题:Gemini 2.5勉强过关

第二道题目是:“我有6个鸡蛋,碎了2个,煎了2个,吃了2个,最多还剩几个?”

这道题目的关键在于理解题目中“最多”的含义,即碎掉的鸡蛋可能被煎了或吃了。Gemini 2.5和DeepSeek R1抓住了问题的关键,给出了正确答案。而其他模型则未能完全理解题意,给出了错误的答案。其中,马斯克旗下的Grok3虽然答案正确,但解题思路却十分清奇,令人啼笑皆非。

“两人过河”难题:再次暴露思维局限

第三道题目是:“两个人同时来到了河边,都想过河,但只有一条小船,而且小船只能载一个人。请问:他们能否都过河?”

这道题目的关键在于意识到,两人可能不在河的同一边。Gemini 2.5和Claude3.7 Sonnet思路清晰,给出了正确答案。而其他模型则再次陷入思维定势,给出了牵强的解释或错误的答案。

结论:AI的“智能”仍需打磨

尽管Gemini 2.5在基准测试中表现出色,但在面对实际问题时,却暴露出其在逻辑推理和常识理解方面的不足。这反映出,当前AI模型的“智能”仍然依赖于大量数据的训练和复杂的算法,在面对需要灵活思考和常识判断的问题时,往往显得力不从心。

此次测试结果也提醒我们,在追逐AI技术突破的同时,更应关注其在实际应用中的表现,并不断改进算法,提升模型的推理和判断能力。未来,AI模型需要更加注重对人类思维方式的模拟,才能真正实现“智能”,并更好地服务于人类社会。

参考文献:


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注