近日,来自香港中文大学(深圳)的一支科研团队,通过引入求解器,成功打造了一款名为 Mamo 的 AI 评测集。该评测集有望成为数学大模型检验的重要基准,为评估新训练大模型的建模能力提供有力工具。
背景介绍
长期以来,人们在评估大模型的数学能力时,往往只关注最终结果,即一道题目的最终答案,而忽略了中间的解题过程。然而,在数学问题解答中,中间过程与答案同样重要。为了解决这一问题,港中深团队展开了本次研究。
评测集原理
该团队通过引入求解器,将大模型回答的数学模型交给求解器解决。然后,通过比对求解器的答案,成功判断数学模型的正确性。这一过程相当于为参加考试的考生提供了高级计算器,只需输入方程就能得出准确答案,从而判断学生所写的方程是否正确。
Mamo 评测集
基于这一原理,港中深团队构建了 Mamo 评测集。该评测集能够结合不同的求解器,评测大模型相应的建模能力。未来,这一评测集可能会成为数学大模型检验的重要基准。
评测中间过程的意义
本次评测集的出现,让评测中间过程成为可能,有望带动运筹大模型的发展。一直以来,人们对于大模型的数学能力的比较,缺乏对于中间过程的关注。港中深团队希望通过这个评价体系,不再只是关注最终答案,而是关注中间的解题过程。
研究初衷
谈及本次课题的初衷,研究人员表示,在讨论 AI for math、特别是讨论大模型 for math 时,他们重点讨论了使用大模型做定理证明的任务。通过采用现有的形式化定理证明工具,可以自动地验证证明过程的正确性,从而确定大模型的证明是否正确。这一发现激发了他们对于其他任务中是否存在类似工具的思考。
未来计划
下一步,港中深团队将扩充数据,同时探索能够适配 Mamo 的不同求解器种类,以及构建相应的评测集。这将有助于更全面地评估大模型的数学建模能力。
总结
港中深团队研发的 Mamo 评测集,为数学大模型的检验提供了新的思路和方法。通过关注解题过程中的中间步骤,这一评测集有望推动大模型在数学领域的发展,为我国人工智能研究贡献力量。
参考资料:
- https://arxiv.org/pdf/2405.13144
Views: 0