Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

数字的陷阱:大模型的算术能力为何如此脆弱?

引言: 9.11 \u003e 9.9?看似简单的比较,却让许多先进的大语言模型(LLMs)栽了跟头。 这并非个例,它揭示了当前LLMs一个令人不安的弱点:尽管它们在复杂推理方面展现出惊人的能力,但在基本的数字处理方面却异常脆弱。 这篇文章将深入探讨大模型的数字处理能力(Number Understanding and Processing, NUPA)的局限性,以及如何通过新的基准测试和研究来弥补这一缺陷。

主体:

1. LLMs的“事实幻觉”:数字处理能力的短板

近年来,LLMs在诸如数学推理等领域取得了显著进展,甚至能够解决一些复杂的数学问题。然而,其数字处理能力却远未达到预期。 “9.11 \u003e 9.9” 这一例子并非偶然,它体现了LLMs普遍存在的“事实幻觉”问题,即模型能够生成看似合理的答案,但却在基础的数字运算和比较中出错。这种能力的不足严重限制了LLMs在实际应用中的潜力,尤其是在金融、科学计算等对数字精度要求极高的领域。

2. 现有研究的局限性:简化数字与忽视NUPA

以往的研究大多关注LLMs的数学推理能力,例如通过GSM8K等数据集评估其解决复杂数学题的能力。这些研究往往简化了数字处理的难度,主要集中在简单的整数和小数运算上,忽略了更复杂的数字形式,如较长的整数、小数、分数和科学计数法。 这导致现有基准测试无法全面评估LLMs的NUPA,也无法揭示其在处理现实世界复杂数字问题时的不足。

3. 北京大学张牧涵团队的突破:NUPA基准测试集

为了更全面地评估LLMs的数字处理能力,北京大学张牧涵团队构建了一个名为NUPA的基准测试集,该数据集涵盖了四种数字表示形式(整数、浮点数、分数、科学计数法)和四个能力范畴下的17个任务类型,共计41个任务。 这些任务基于中小学数学知识,涵盖了日常生活中常用的数学运算、比较、单位转换和位操作等,是支撑通用人工智能(AGI)的必要能力。 (论文地址:https://arxiv.org/abs/2411.03766)

4. NUPA测试结果:能力差距与挑战

研究团队对包括GPT-4o、Llama-3.1、Qwen-2、Llama-2和Mixtral在内的多种LLMs进行了测试。结果显示,在简单的整数加法和短数字长度的情况下,大多数模型表现良好,准确率超过90%。然而,当涉及到更复杂的运算(如乘除、取模)、更复杂的数字形式(如分数和科学计数法)以及更长的数字时,模型的准确率急剧下降,甚至低于20%。 这表明,当前LLMs的数字处理能力远未达到人类水平,尤其在处理现实世界中复杂多变的数字信息时存在显著不足。

5. NUPA基准测试的意义与未来展望

NUPA基准测试的意义在于,它为评估和改进LLMs的数字处理能力提供了一个更全面和严格的标准。 通过识别LLMs在NUPA方面的弱点,研究人员可以开发出更有效的训练方法和模型架构,从而提升LLMs在实际应用中的可靠性和实用性。 未来,需要更多研究关注如何改进LLMs的NUPA,例如,探索更有效的训练数据、算法和模型架构,以提高其在处理各种数字形式和复杂运算时的准确性和鲁棒性。 只有解决了这一基础性问题,才能真正推动LLMs向AGI迈进。

结论:

LLMs的数字处理能力的脆弱性,并非仅仅是技术上的一个小问题,而是关系到其能否真正成为通用人工智能的关键瓶颈。 NUPA基准测试的出现为解决这一问题提供了重要的工具和方向。 未来,我们需要更多关注NUPA的研究,以期构建出能够真正理解和处理数字,从而更好地服务于人类的强大AI系统。 这不仅仅是提升模型准确性的问题,更是关乎AI未来发展方向的根本性挑战。

参考文献:

  • Zhang, M. et al. (2024). Number Cookbook: Number Understanding of Language Models and How to Improve It. arXiv preprint arXiv:2411.03766.


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注