AI决战考研数学，谁能率先“上岸”？

好的，这是一篇基于你提供的信息，并按照你提出的要求撰写的新闻报道：

标题：国产推理大模型决战考研数学，谁能率先“上岸”？

引言：

2025年研究生考试的硝烟刚刚散去，考研数学的真题便成为了人工智能领域的新战场。各大科技巨头纷纷祭出自家的大语言模型，尤其是深度推理模型，试图在这场“数学能力摸底考”中一较高下。长期以来，大语言模型在文字处理方面的卓越表现令人瞩目，但在数学推理方面却显得力不从心。去年，一个简单的“9.9与9.11”大小比较问题就让包括GPT-4o在内的众多模型“翻车”。然而，随着深度推理模型的崛起，这一局面正在被改写。

正文：

深度推理模型：大模型进阶的关键

OpenAI的o1模型在处理复杂数理问题时展现出的惊人能力，让人们看到了深度推理的巨大潜力。这种模型在经过一段时间的“思考”后，其回答问题的准确性显著提升，这被业界称为“推理侧Scaling Law”。英伟达CEO黄仁勋在CES 2025的演讲中，也将测试时的推理能力视为大模型发展的关键曲线之一。

继o1之后，国内大模型厂商也纷纷推出了自己的深度推理模型，并取得了令人瞩目的进展。时间轴如下：

2024年11月21日，深度求索团队发布DeepSeek-r1模型。
2024年11月28日，阿里通义团队发布QwQ模型。
2024年12月16日，月之暗面团队发布Kimi-k1模型。
2024年12月31日，智谱GLM团队发布GLM-Zero模型。
2025年1月6日，昆仑万维发布Skywork-o1模型。

这些深度推理模型的能力究竟如何？谁又能在这场“考研数学”的较量中脱颖而出？

清华SuperBench测评：一场公平的“摸底考”

为了全面评估这些模型在数学推理方面的能力，清华SuperBench大模型测评团队（以下简称测评团队）以2025年考研数学（一、二、三）真题为基础，对上述各家深度推理模型进行了严格的评测。为了保证评测的全面性，测评还纳入了各家的旗舰基础模型。此次参与评测的共有13个模型。

测评团队发现，并非所有模型都提供API支持，且部分提供API服务的模型在输出内容长度超出一定限制时，会出现内容截断的情况。为了确保评测的公正性与准确性，测评团队统一采用各模型厂商的网页端进行测试操作。每道题目都在独立的对话窗口中进行，以消除上下文信息对测试结果可能产生的干扰。考虑到部分模型输出存在不稳定性，测评团队设定，当同一模型在三次测试中有两次及以上回答正确时，方将其记录为正确答案。

测评结果：GPT-o1领跑，国产模型紧随其后

测评结果显示，OpenAI的GPT-o1模型以平均分计位列第一，这并不令人意外。紧随其后的是智谱的GLM-Zero-Preview，它以三门数学平均138.70的成绩成为国产大模型第一，与第一名仅差不到3分。第三名则是来自通义的QwQ。

从总分来看，GPT-o1是唯一一个达到140分以上的模型，相较于排名末位的GPT-4，分数优势高达70分。GLM-zero-preview和QwQ则位于第二梯队（130分以上）。DeepSeek-r1-lite、Kimi-k1、Tiangong-o1-preview、DeepSeek-v3则处于第三梯队（120分以上）。这表明，深度思考模型普遍能够达到120+的水平，彰显了其在解决数学问题方面的强大能力。值得注意的是，2023年位居榜首的基础模型GPT-4，在本次测试中仅获70.7分，位列末席。这表明，在过去一年中，语言模型在数学推理领域的进步显著。

单科分析：难点与共性

测评团队还对每张试卷的错题分布情况进行了深入分析。

数学一：GPT-o1、GLM-zero-preview、QwQ、DeepSeek-r1-lite四款模型得分相同，但所有模型均在第20题（曲面积分求解）以及第21题第二问（特征向量求解）上出现错误。
数学二：各模型分数分布较为分散，第3题、第5题、第7题成为所有模型犯错的集中区域。
数学三：模型出错的重灾区主要集中在第14题、第15题、第16题、第19题。

综合来看，GPT-o1在总计66道题目中仅答错3.5道题，且其答错的题目其他模型亦普遍存在错误，这显示了GPT-o1目前依然是深度推理模型的天花板。

基础模型与深度思考模型：并非界限分明

值得注意的是，在缺乏深度思考能力辅助的情况下，仅凭逻辑推理能力，DeepSeek-v3作为基础模型，已经能够跻身第三梯队，这说明基础模型和深度思考模型之间的能力并非界限分明。

结论：

这场“考研数学”的较量，不仅是对各大模型数学能力的检验，更是对人工智能深度推理能力的一次集中展示。GPT-o1的领先地位再次证明了OpenAI在人工智能领域的强大实力，而国产大模型的快速崛起也让我们看到了中国AI的巨大潜力。深度推理模型的出现，无疑为大语言模型的进一步发展打开了新的大门。未来，随着技术的不断进步，我们有理由相信，人工智能将在更多领域展现出更加强大的能力。

参考文献：