谷歌Gemini 2.5折戟小学数学，AI也怕算术？

摘要： 谷歌最新发布的Gemini 2.5 Pro Experimental号称“最智能模型”，在多项基准测试中表现亮眼。然而，在实际测试中，面对几道看似简单的小学数学题，Gemini 2.5却未能展现出其宣称的强大推理能力，甚至与其他模型一同“翻车”，引发了人们对AI模型智能水平的重新审视。

正文：

在人工智能领域，谷歌与OpenAI的竞争日趋白热化。就在OpenAI推出GPT-4o之际，谷歌也毫不示弱，祭出了号称“最智能的模型”——Gemini 2.5 Pro Experimental。据谷歌首席科学家Jeff Dean介绍，该模型集成了“思考能力”，尤其擅长高级推理和编码，并在@lmarena_ai排行榜上名列前茅。

为了验证Gemini 2.5的实际性能，有媒体将其与o3-mini、GPT-4.5、Claude3.7 Sonnet、Grok3、DeepSeek R1等模型进行了一场“大乱斗”。测试题目并非复杂的算法难题，而是几道看似简单的小学数学题，旨在考察模型在实际场景中的推理和判断能力。

然而，测试结果却令人大跌眼镜。

“竹竿进城门”难题：集体“翻车”

第一道题目是：“一根10米长的竹竿能通过高4.5米、宽3.8米的城门吗？”

这道题目的关键在于，打破思维定势，意识到竹竿可以倾斜或平行于地面通过城门。然而，包括Gemini 2.5在内的所有模型，都陷入了勾股定理的计算中，忽略了现实的三维空间，最终给出了错误的答案。

“鸡蛋还剩几个”难题：Gemini 2.5勉强过关

第二道题目是：“我有6个鸡蛋，碎了2个，煎了2个，吃了2个，最多还剩几个？”

这道题目的关键在于理解题目中“最多”的含义，即碎掉的鸡蛋可能被煎了或吃了。Gemini 2.5和DeepSeek R1抓住了问题的关键，给出了正确答案。而其他模型则未能完全理解题意，给出了错误的答案。其中，马斯克旗下的Grok3虽然答案正确，但解题思路却十分清奇，令人啼笑皆非。

“两人过河”难题：再次暴露思维局限

第三道题目是：“两个人同时来到了河边，都想过河，但只有一条小船，而且小船只能载一个人。请问：他们能否都过河？”

这道题目的关键在于意识到，两人可能不在河的同一边。Gemini 2.5和Claude3.7 Sonnet思路清晰，给出了正确答案。而其他模型则再次陷入思维定势，给出了牵强的解释或错误的答案。

结论：AI的“智能”仍需打磨

尽管Gemini 2.5在基准测试中表现出色，但在面对实际问题时，却暴露出其在逻辑推理和常识理解方面的不足。这反映出，当前AI模型的“智能”仍然依赖于大量数据的训练和复杂的算法，在面对需要灵活思考和常识判断的问题时，往往显得力不从心。

此次测试结果也提醒我们，在追逐AI技术突破的同时，更应关注其在实际应用中的表现，并不断改进算法，提升模型的推理和判断能力。未来，AI模型需要更加注重对人类思维方式的模拟，才能真正实现“智能”，并更好地服务于人类社会。

参考文献：

机器之心. (2024). 以一敌五、屠榜登顶的谷歌Gemini 2.5，居然栽在小学数学题上. https://www.jiqizhixin.com/articles/2024-03-26-12

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

谷歌Gemini 2.5折戟小学数学，AI也怕算术？

作者智能小编

相关文章

Day.ai：HubSpot CPO再战AI CRM，红杉押注！

D1技术突破：全球数据一致性复制成真

US Tariff Stick How Much Pain for European and American Automakers?

发表回复取消回复

为您推荐