OpenAI新模型o3：烧钱解题，微翻车仍惊艳

引言

人工智能领域再次迎来重大突破。OpenAI 近期发布的全新推理系列模型 o3 和 o3-mini，在被誉为 AGI（通用人工智能）试金石的 ARC-AGI 基准测试中取得了惊人的成绩。然而，如同任何技术进步一样，o3 的成功并非完美无瑕。尽管其在大多数任务中表现出色，甚至接近人类水平，但在某些特定难题面前，o3 依然显得力不从心。本文将深入剖析 o3 的性能表现，揭示其在 ARC-AGI 基准测试中的突破与局限，并探讨其对未来人工智能发展的影响。

OpenAI 的推理 Scaling Law 与 o3 的诞生

OpenAI 自 o1 模型以来，一直致力于探索推理能力的 Scaling Law（规模法则）。这一理论认为，随着模型规模和计算资源的增加，人工智能的推理能力会显著提升。o3 和 o3-mini 的发布，正是这一理论的最新实践成果。相较于之前的模型，o3 在推理能力上实现了质的飞跃，尤其是在 ARC-AGI 基准测试中，其表现令人瞩目。

ARC-AGI：通往 AGI 的试金石

ARC-AGI（Abstraction and Reasoning Corpus for General Intelligence）是由 Keras 之父 François Chollet 发起的基准测试，旨在评估人工智能的抽象和推理能力。该基准要求 AI 根据配对的“输入-输出”示例寻找规律，并基于新的输入预测输出。ARC-AGI 的难度在于，它不仅考验 AI 的模式识别能力，更考验其对抽象概念的理解和推理能力，这被认为是实现 AGI 的关键能力之一。

ARC-AGI 的发起者 François Chollet 在测试报告中指出，尽管成本高昂，但 o3 的性能确实随着计算量的增加而提高。这表明，OpenAI 的推理 Scaling Law 正在发挥作用，为实现 AGI 提供了新的希望。

o3 的突破：性能大幅提升

o3 在 ARC-AGI 基准测试中取得了显著的突破。其最低性能可达 75.7%，如果使用更多计算资源并延长思考时间，甚至可以达到 87.5% 的水平。相比之下，之前的 o1 模型在该基准测试中的准确率仅为 25% 到 32% 之间。这一巨大的提升表明，o3 在理解和解决复杂推理问题方面取得了重大进展。

然而，值得注意的是，o3 的性能提升并非毫无代价。在低计算量模式下，o3 每个任务需要 17-20 美元的计算成本；而在高计算量模式下，每个任务的成本更是高达数千美元。这突显了当前人工智能发展面临的一个重要挑战：如何以更低的成本实现更高的性能。

o3 的局限：12.5% 的难题

尽管 o3 在 ARC-AGI 基准测试中表现出色，但它并非完美无缺。在 400 个任务中，仍有 34 个任务（约占 12.5%）是 o3 无法解决的，即使经过长达 16 小时的思考，也无法给出正确答案。这些难题暴露了 o3 在推理能力上的局限性，也引发了人们对 AGI 本质的更深层次思考。

这些难题并非简单的计算错误，而是涉及到更复杂的认知能力，例如空间推理、抽象理解和模式泛化。以下是一些典型的 o3 无法解决的难题，以及对这些难题的分析：

任务一：网格生成错误

在某些任务中，o3 无法正确生成网格，会在某些列上添加错误的额外方块。这表明 o3 在处理二维空间信息时存在局限性，尤其是在需要精确控制网格结构的任务中。
任务二：照搬输入

对于一些看似简单的任务，o3 的第一次尝试竟然是完全照搬输入，没有进行任何修改。这反映出 o3 在理解任务目标和进行有效推理方面存在不足。尤其是当任务需要对二维物体进行理解和操作时，o3 的一维推理能力显得捉襟见肘。
任务三：空间推理难题

一些任务主要考验空间思维能力，例如旋转、翻转或镜像等操作。尽管 o3 在其他任务中表现出色，但在这些任务中却频频出错。这表明 o3 在空间推理方面仍有很大的提升空间。
任务四：重复性任务错误

在一些需要重复生成相同行或列的任务中，o3 经常会漏掉一些行或列。这表明 o3 在记忆和执行重复性任务方面存在困难。
任务五：俄罗斯方块难题

o3 在处理俄罗斯方块类型的任务时完全束手无策。这进一步证实了 o3 在处理空间推理和模式识别方面的局限性。
任务六：直接放弃尝试

在某些情况下，o3 甚至会直接放弃尝试，交出空白答案。这表明 o3 在面对无法解决的难题时，可能会触发某种预设的机制，从而停止尝试。

o3 的局限性：并非真正的 AGI

François Chollet 认为，尽管 o3 在 ARC-AGI 基准测试中取得了突破，但它并非真正的 AGI。他指出，o3 在一些非常简单的任务上仍然失败，这表明其与人类智能存在根本差异。o3 的局限性主要体现在以下几个方面：

抽象能力不足： o3 在处理抽象概念和进行高层次推理方面仍有不足。它更擅长模式识别和数据处理，而不是理解概念的本质。
空间推理能力有限： o3 在处理二维和三维空间信息时存在局限性，尤其是在需要进行空间操作和推理的任务中。
泛化能力不足： o3 在面对从未见过的任务时，可能会表现出明显的性能下降。这表明其泛化能力仍有待提高。
缺乏常识和理解： o3 缺乏人类的常识和理解能力，这使得它在处理一些需要常识判断的任务时表现不佳。

o3 的意义：通往 AGI 的重要一步

尽管 o3 存在局限性，但它的发布仍然具有重要的意义。它表明，通过不断增加模型规模和计算资源，人工智能的推理能力可以显著提升。o3 的成功，为我们探索 AGI 的道路提供了新的方向。

o3 的突破也引发了人们对人工智能发展方向的更深层次思考。我们应该如何克服当前人工智能的局限性，实现真正的 AGI？这需要我们不仅在技术上进行创新，还需要在理论上进行探索。

未来展望

OpenAI 的 o3 模型代表了人工智能适应新任务的能力的重大飞跃。它不仅是渐进式的改进，而是真正的突破，标志着与 LLM 之前的局限性相比，人工智能能力发生了质的转变。虽然 o3 并非完美，但它为我们展示了 AGI 的可能性，并为未来的研究指明了方向。

未来的研究可以从以下几个方面着手：

改进模型架构： 探索更有效的模型架构，以提高人工智能的抽象、推理和泛化能力。
增强空间推理能力： 研发专门用于处理空间信息的模型，以提高人工智能在空间推理方面的性能。
融入常识和理解： 将常识和理解能力融入人工智能模型，使其能够更好地理解人类语言和行为。
探索新的训练方法： 开发更有效的训练方法，以提高人工智能的学习效率和泛化能力。

结论

OpenAI 的 o3 模型在 ARC-AGI 基准测试中取得了令人瞩目的成就，标志着人工智能在推理能力方面取得了重大进展。然而，o3 并非完美无缺，它在某些特定难题面前仍然显得力不从心。这些难题暴露了当前人工智能的局限性，也为未来的研究指明了方向。

尽管 o3 并非真正的 AGI，但它为我们展示了 AGI 的可能性，并为我们探索 AGI 的道路提供了新的希望。我们有理由相信，在未来的研究中，人工智能将不断进步，最终实现真正的 AGI。

参考文献

机器之心. (2024, June 29). 一道题烧几千美元，OpenAI新模型o3：这34道题我真不会翻车，但微翻，翻了 12.5% 吧. https://www.jiqizhixin.com/articles/2024-06-29-11
mikb0b. (2024, June 19). [Twitter post]. https://x.com/mikb0b/status/1870622741029941545
Anokas. (2024, June 20). O3 and ARC-AGI: The Unsolved Tasks. https://anokas.substack.com/p/o3-and-arc-agi-the-unsolved-tasks

>>> Read more <<<

OpenAI新模型o3：烧钱解题，微翻车仍惊艳

作者智能小编

相关文章

DeepSeek Manus & AI Agents State of the Art + 51-Page PPT

Git Mastery Conquer 8 Common Scenarios with This 25000-Word Guide!

Git操作实用指南：8场景问题全解析

发表回复取消回复

为您推荐