Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

AI数学能力进化实测:进步显著,但仍需跨越现实鸿沟

引言: “生活会欺骗你,但数学不会,数学不会就是不会。” 这句网络流行语,曾精准地描述了早期大型语言模型(LLM)在数学推理上的窘境。然而,短短几个月,AI在数学领域的“偏科”现象似乎正在改善。我们对六款主流大模型进行了实测,结果显示:进步显著,但面对与现实生活紧密结合的题目,它们依然“歇菜”。

主体:

一、 卷起数学推理:大模型的“军备竞赛”

近来,各大科技公司纷纷投入资源,提升自家大模型的数学推理能力。OpenAI的o1-mini和o1-preview长期以来被视为基准,但国内厂商也迅速跟进。Kimi推出了专门的数学模型k0-math,宣称在多个数学基准测试中超越了o1系列。昆仑万维和阿里巴巴也分别推出了各自的o1模型,并强调在数学指标上的显著提升。夸克的“灵知”学习大模型以及学而思的九章大模型也加入了这场“军备竞赛”,目标直指提升在考研等高难度数学考试中的表现。

二、 实测六款大模型:小学到高中的“试炼场”

为了客观评估这些大模型的数学能力,我们设计了涵盖小学、初中和高中不同难度的题目,并特别加入了需要结合生活实际进行推理的题目。测试对象包括:OpenAI的o1-mini、o1-preview;Kimi的k0-math;学而思的九章大模型;阿里的QwQ-32B-preview;以及夸克的“灵知”大模型(通过其AI搜题功能调用)。

(以下为测试结果,由于篇幅限制,仅展示部分题目及结果概要,完整测试数据可参考原文链接[此处应插入原文链接])

1. 小学数学题: 例如,“小明120元买了一只鸡,130元卖出去,150元再买回来,160元又卖出去,问一共赚了多少钱?” 这类看似简单的题目,却能有效暴露大模型在多步骤计算和逻辑推理上的弱点。结果显示,部分模型在计算过程中出现错误,未能给出正确答案。

2. 初中数学题: 我们选择了需要列方程解题的应用题,例如关于工程进度计算的题目。结果显示,部分模型能够正确列出方程,但求解过程或最终答案出现错误。

3. 高中数学题: 我们选取了一道需要运用函数知识和分析能力的高中数学题。由于部分模型无法处理复杂的数学符号输入,我们使用了LaTeX格式进行输入。结果显示,即使是经过优化的数学模型,也并非都能准确解答这类题目。

4. 生活实际应用题: 例如,“一段长100米的铁路,用10米长的铁轨铺,要多少根铁轨?” 这道题需要考虑实际情况(铁轨有两条),结果显示,所有测试模型均未能给出正确答案。

三、 结果分析:进步与不足并存

从测试结果来看,国产大模型在数学能力上确实取得了显著进步。在常规数学题上,o1-mini和o1-preview的表现不如国产模型稳定。然而,面对需要结合生活实际进行推理的题目,所有模型都表现出明显的不足,这表明大模型在将数学知识应用于实际问题方面仍存在较大差距。此外,不同模型的解题思路和过程也各有差异,例如Kimi的k0-math和阿里QwQ-32B-preview更倾向于反复验证答案,而学而思九章大模型则注重解题过程的展示和知识点归纳。夸克的“灵知”大模型则充分利用了其题库资源,提供多种解题思路。

结论:

此次实测表明,大模型在数学推理能力方面取得了长足进步,尤其是在解决常规数学问题上。然而,将数学知识与现实生活场景有效结合仍然是AI面临的一大挑战。未来,提升大模型的常识推理能力、增强其对复杂语境和实际问题的理解能力,将是进一步提升其数学能力的关键。这需要更强大的模型架构、更丰富的训练数据,以及更有效的训练方法。 只有克服这些挑战,AI才能真正成为人类学习和解决问题的强大助手。

(此处应添加参考文献,列出所有引用的资料,并使用统一的引用格式,例如APA)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注