港中深AI评测集：数学大模型‘高考’新标准

近日，来自香港中文大学（深圳）的一支科研团队，成功研发出一款名为 Mamo 的新型 AI 评测集。这一评测集通过引入求解器，为数学大模型的检验提供了新的重要基准，有望推动运筹大模型的发展。

项目背景与初衷

研究人员在探讨 AI 在数学领域的应用，特别是大模型在数学建模中的角色时，发现了一个关键问题：如何准确评估大模型的数学能力？传统的评估方法往往只关注最终结果，而忽略了中间的解题过程。这就像在数学考试中，只看最终答案是否正确，而忽略了解题步骤的重要性。

为了解决这一问题，研究团队深入探讨了使用大模型进行定理证明的任务。他们发现，现有的形式化定理证明工具可以自动验证证明过程的正确性，从而判断大模型的证明是否正确。这激发了他们的思考：是否有一种工具，可以像定理证明工具一样，用于判断其他数学任务的正确性？

在这样的背景下，Mamo 评测集应运而生。该评测集通过引入求解器，将大模型回答的数学模型交给求解器解决。通过比对求解器的答案，可以准确判断数学模型的正确性。这就像为考生提供了一款高级计算器，只需输入方程，就能得出准确答案。

Mamo 评测集能够结合不同的求解器，评测大模型相应的建模能力。未来，这一评测集有望成为数学大模型检验的重要基准，用于测试新训练大模型的建模能力。

传统的评估方法往往只关注最终结果，而忽略了中间过程。Mamo 评测集的出现，让评测中间过程成为可能。这不仅有助于更全面地评估大模型的数学能力，也有望带动运筹大模型的发展。

研究人员表示，他们希望通过这个评价体系，不再只是关注最终答案，而是关注中间的解题过程。这样的评价方式，有助于更深入地理解大模型在数学建模中的表现，也为未来的研究提供了新的方向。

日前，相关研究成果以《Mamo: 一个带有求解器的数学建模基准》为题，发表在 arXiv 上。下一步，研究团队计划扩充数据集，探索更多能够适配 Mamo 的求解器种类，并构建相应的评测集。

这一研究不仅为数学大模型的检验提供了新的方法，也为未来的研究奠定了基础。随着 Mamo 评测集的不断完善和推广，我们有理由相信，大模型在数学建模领域的应用将更加广泛，也将为人类社会带来更多创新和变革。

论文作者黄旭函

图 | 论文作者黄旭函（来源：黄旭函）