港中深团队打造AI数学考试题库

9 月 4, 2024 #AI, #麻省理工科技评论

近日，香港中文大学（深圳）的一支科研团队成功开发出一款名为 Mamo 的 AI 评测集，该评测集有望成为数学大模型检验的重要基准，为评估大模型的建模能力提供了一种全新的方法。

项目背景与初衷

研究人员在探讨 AI 在数学领域的应用时，特别是大模型在数学建模方面的表现，发现了一个关键问题：如何准确判断大模型的数学建模能力。他们意识到，现有的形式化定理证明工具可以自动验证证明过程的正确性，这启发了他们寻找一种类似工具，以简单方式判断大模型的答案正确性。

基于此，团队想到了求解器。求解器能够在给定目标后，运行出对应问题/对应方程的解。通过对不同解答的比对，可以判断数学模型的正确性，从而评估大模型的建模能力。

Mamo 评测集的核心在于引入了求解器。这一创新思路相当于为参加数学考试的考生提供了高级计算器，只需输入方程，即可得出准确答案。这样一来，就可以通过比对求解器的答案，判断大模型所给出的数学模型是否正确。

传统的数学模型检验往往只关注最终结果，而忽略了中间的解题过程。港中深团队的这一研究，旨在改变这一现状。他们希望把评价体系拆开，不再只是关注最终答案，而是关注中间的解题过程。这就像在数学考试中，不仅考虑最后的答案正不正确，还要关注解题过程是否合理。

Mamo 评测集的出现，有望带动运筹大模型的发展。它不仅提供了一个检验大模型建模能力的新方法，还让评测中间过程成为可能。这意味着，未来在数学建模领域，人们可以更加全面地评估大模型的表现。

此外，Mamo 评测集还有望成为数学大模型检验的重要基准。随着数据量的扩充和不同求解器种类的探索，这一评测集将不断完善，为科研人员提供更加可靠的评估工具。

港中深团队开发的 Mamo 评测集，不仅为数学大模型的检验提供了新方法，也为运筹大模型的发展注入了新动力。这一创新成果，有望推动我国在数学建模领域的研究与应用，为 AI 的发展贡献新的力量。

参考资料：
1. https://arxiv.org/pdf/2405.13144

论文作者黄旭函