Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

新闻报道新闻报道
0

引言:

自OpenAI发布o1模型以来,其强大的逻辑推理和问题解决能力便引发了广泛关注。然而,一项由腾讯AI Lab与上海交通大学联合开展的最新研究揭示,这类模型在展现卓越性能的同时,也存在一个潜在的“过度思考”问题。这不仅引发了人们对人工智能效率的重新思考,也为未来AI模型的优化方向提供了新的视角。

主体:

在人工智能领域,我们常常惊叹于AI模型解决复杂问题的能力,但鲜少关注它们在处理简单问题时的“内心活动”。腾讯AI Lab的专家研究员涂兆鹏和上海交通大学副教授王瑞带领的团队,通过深入研究,首次揭示了o1类长思维链模型中存在的“过度思考”现象。这项研究成果以论文《Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs》的形式发表,引起了学术界的广泛关注。

  • 过度思考的定义与现象:

    研究团队首先对“过度思考”进行了明确的定义。他们将模型在回复中给出的每一个完整答案(无论对错)定义为一个“独立解答”(Solution)。通过对Qwen-QwQ-32B-Preview和Deepseek-R1-Preview等类o1模型在不同难度数据集上的表现进行分析,研究人员发现,这些模型在解决问题时,往往会生成多个独立解答,其中绝大多数样本包含2-4个解答。

    例如,对于简单的“2+3=?”问题,传统模型通常只需极少的token即可给出答案,而o1模型及其同类模型却会生成长达数百甚至上千token的推理链。以QwQ-32B-Preview模型为例,它在解决这个简单问题时,会尝试多种解题策略,包括直接数学计算、数轴移动模拟以及类比数苹果等,经过多轮推理才最终确定答案。

    这种“深度思考”机制虽然在解决复杂问题时能够不断优化答案质量,但在处理简单问题时,却显得过于冗余,造成了计算资源的浪费。

  • 首次尝试即正确:

    更令人惊讶的是,研究发现,这些模型在超过90%的情况下,在第一次尝试中就能够输出正确答案。这意味着,后续多轮思考对答案正确率的提升几乎没有实质性贡献。这进一步验证了模型存在过度思考的现象:多轮反思可能只是在反复验证已有的答案,而并非在探索新的解决方案。

  • 对多样性探索的重新审视:

    然而,对于模型的多样性探索,研究人员也提出了不同的观点。一些学者认为,o1类模型的核心特性在于其能够自主探索问题的不同解法。从这个角度来看,如果模型在推理过程中使用了多种不同的思路来解决问题,那么这种多样化的探索不仅有助于加深模型对问题的理解,还体现了模型的自主探索能力,不应简单地视为“过度思考”。

    为了更深入地剖析这一问题,研究团队利用GPT-4o对模型的回答进行了分类,具体包括:

    • 推理策略分类: 对每一个解答进行推理策略的标注,将采用相同推理方式的回答归为同一类。例如,对于 “2+3=?” 这样的问题,可能涉及的推理策略包括数学运算模拟、数轴移动和实物类比等。
    • 多样性分析: 在归类的基础上,研究团队统计了模型在解决问题时所采用的推理策略种类,以此来衡量模型探索的广度。

    通过这种分析方法,研究人员希望能够更全面地评估模型的多样性探索行为,从而为模型优化提供更精准的指导。

  • 研究的意义与启示:

    这项研究不仅揭示了o1类模型中存在的“过度思考”问题,也引发了人们对人工智能效率的重新思考。在追求模型性能的同时,如何平衡计算资源和推理效率,是未来AI模型发展需要重点关注的问题。

    研究人员指出,未来的研究方向包括:

    • 开发更智能的推理策略,使模型能够在必要时进行深度思考,而在简单问题上则能够快速给出答案。
    • 探索新的模型训练方法,以减少不必要的计算资源浪费。
    • 深入研究模型在不同场景下的推理行为,以更好地理解和控制模型的思考过程。

结论:

腾讯AI Lab与上海交通大学的这项研究,为我们揭开了AI模型“过度思考”的神秘面纱。它不仅让我们重新审视了人工智能的效率问题,也为未来的AI模型优化指明了方向。这项研究的意义不仅在于学术层面,更在于推动人工智能技术在实际应用中更加高效、智能和可持续发展。

参考文献:

  • [1] Qwen Team. Qwen-32B-Preview. [Online]. Available: https://huggingface.co/Qwen/Qwen-32B-Preview
  • [2] Deepseek. Deepseek-R1-Preview. [Online]. Available: https://huggingface.co/deepseek-ai/deepseek-llm-7b-base
  • [3] Miao, S., et al. ASDiv: A diverse dataset for evaluating and improving machine reading comprehension for mathematical problems. arXiv preprint arXiv:2009.08243 (2020).
  • [4] Cobbe, K., et al. Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168 (2021).
  • [5] Hendrycks, D., et al. Measuring mathematical problem solving with the math dataset. Advances in Neural Information Processing Systems 34 (2021): 16733-16743.
  • 论文地址:https://arxiv.org/pdf/2412.21187

(注:以上参考文献格式遵循APA规范)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注