Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

近日,来自香港中文大学(深圳)的一支科研团队,通过引入求解器,成功打造了一款名为 Mamo 的 AI 评测集。该评测集有望成为数学大模型检验的重要基准,为评估新训练大模型的建模能力提供有力工具。

背景介绍

长期以来,人们在评估大模型的数学能力时,往往只关注最终结果,即一道题目的最终答案,而忽略了中间的解题过程。然而,在数学问题解答中,中间过程与答案同样重要。为了解决这一问题,港中深团队展开了本次研究。

评测集原理

该团队通过引入求解器,将大模型回答的数学模型交给求解器解决。然后,通过比对求解器的答案,成功判断数学模型的正确性。这一过程相当于为参加考试的考生提供了高级计算器,只需输入方程就能得出准确答案,从而判断学生所写的方程是否正确。

Mamo 评测集

基于这一原理,港中深团队构建了 Mamo 评测集。该评测集能够结合不同的求解器,评测大模型相应的建模能力。未来,这一评测集可能会成为数学大模型检验的重要基准。

评测中间过程的意义

本次评测集的出现,让评测中间过程成为可能,有望带动运筹大模型的发展。一直以来,人们对于大模型的数学能力的比较,缺乏对于中间过程的关注。港中深团队希望通过这个评价体系,不再只是关注最终答案,而是关注中间的解题过程。

研究初衷

谈及本次课题的初衷,研究人员表示,在讨论 AI for math、特别是讨论大模型 for math 时,他们重点讨论了使用大模型做定理证明的任务。通过采用现有的形式化定理证明工具,可以自动地验证证明过程的正确性,从而确定大模型的证明是否正确。这一发现激发了他们对于其他任务中是否存在类似工具的思考。

未来计划

下一步,港中深团队将扩充数据,同时探索能够适配 Mamo 的不同求解器种类,以及构建相应的评测集。这将有助于更全面地评估大模型的数学建模能力。

总结

港中深团队研发的 Mamo 评测集,为数学大模型的检验提供了新的思路和方法。通过关注解题过程中的中间步骤,这一评测集有望推动大模型在数学领域的发展,为我国人工智能研究贡献力量。

参考资料:

  1. https://arxiv.org/pdf/2405.13144

论文作者黄旭函

相关论文


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注