摘要: 谷歌最新发布的Gemini 2.5 Pro Experimental号称“最智能模型”,在多项基准测试中表现亮眼。然而,在实际测试中,面对几道看似简单的小学数学题,Gemini 2.5却未能展现出其宣称的强大推理能力,甚至与其他模型一同“翻车”,引发了人们对AI模型智能水平的重新审视。
正文:
在人工智能领域,谷歌与OpenAI的竞争日趋白热化。就在OpenAI推出GPT-4o之际,谷歌也毫不示弱,祭出了号称“最智能的模型”——Gemini 2.5 Pro Experimental。据谷歌首席科学家Jeff Dean介绍,该模型集成了“思考能力”,尤其擅长高级推理和编码,并在@lmarena_ai排行榜上名列前茅。
为了验证Gemini 2.5的实际性能,有媒体将其与o3-mini、GPT-4.5、Claude3.7 Sonnet、Grok3、DeepSeek R1等模型进行了一场“大乱斗”。测试题目并非复杂的算法难题,而是几道看似简单的小学数学题,旨在考察模型在实际场景中的推理和判断能力。
然而,测试结果却令人大跌眼镜。
“竹竿进城门”难题:集体“翻车”
第一道题目是:“一根10米长的竹竿能通过高4.5米、宽3.8米的城门吗?”
这道题目的关键在于,打破思维定势,意识到竹竿可以倾斜或平行于地面通过城门。然而,包括Gemini 2.5在内的所有模型,都陷入了勾股定理的计算中,忽略了现实的三维空间,最终给出了错误的答案。
“鸡蛋还剩几个”难题:Gemini 2.5勉强过关
第二道题目是:“我有6个鸡蛋,碎了2个,煎了2个,吃了2个,最多还剩几个?”
这道题目的关键在于理解题目中“最多”的含义,即碎掉的鸡蛋可能被煎了或吃了。Gemini 2.5和DeepSeek R1抓住了问题的关键,给出了正确答案。而其他模型则未能完全理解题意,给出了错误的答案。其中,马斯克旗下的Grok3虽然答案正确,但解题思路却十分清奇,令人啼笑皆非。
“两人过河”难题:再次暴露思维局限
第三道题目是:“两个人同时来到了河边,都想过河,但只有一条小船,而且小船只能载一个人。请问:他们能否都过河?”
这道题目的关键在于意识到,两人可能不在河的同一边。Gemini 2.5和Claude3.7 Sonnet思路清晰,给出了正确答案。而其他模型则再次陷入思维定势,给出了牵强的解释或错误的答案。
结论:AI的“智能”仍需打磨
尽管Gemini 2.5在基准测试中表现出色,但在面对实际问题时,却暴露出其在逻辑推理和常识理解方面的不足。这反映出,当前AI模型的“智能”仍然依赖于大量数据的训练和复杂的算法,在面对需要灵活思考和常识判断的问题时,往往显得力不从心。
此次测试结果也提醒我们,在追逐AI技术突破的同时,更应关注其在实际应用中的表现,并不断改进算法,提升模型的推理和判断能力。未来,AI模型需要更加注重对人类思维方式的模拟,才能真正实现“智能”,并更好地服务于人类社会。
参考文献:
- 机器之心. (2024). 以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上. https://www.jiqizhixin.com/articles/2024-03-26-12
Views: 0