OpenAI压轴：o3模型天价登场

OpenAI 发布o3 模型：AI 推理能力迎来重大突破，高计算模式单任务成本高达数千美元

旧金山 — 在为期 12 天的密集发布活动尾声，OpenAI 终于揭开了其最新推理系列模型 o3 和 o3-mini 的神秘面纱。正如业界所预期的，o3 作为 o1 系列的继任者，标志着人工智能在推理能力上的又一次重大飞跃。然而，与以往不同的是，这次发布并非直接面向公众，而是先进行严格的安全测试，并计划在一月底左右逐步推出。

命名之谜：为何跳过 o2？

值得注意的是，OpenAI 在命名上跳过了 o2。据《The Information》报道，此举是为了规避潜在的版权问题，因为英国一家名为 O2的电信公司可能引发混淆。OpenAI 首席执行官 Sam Altman 在今日的直播中证实了这一说法，揭开了命名背后的谜团。

o3 的核心优势：更长时间的“思考”

o3 系列模型的核心特点在于其更强大的推理能力。与以往模型不同，o3 在回答问题前会花费更多时间进行“思考”，从而显著提高回答的准确率。这一改进不仅体现在理论层面，更在实际测试中得到了验证。

突破性成果：首个攻克 ARC-AGI 基准的 AI 模型

在发布会上，非营利组织 ARC Prize Foundation 的总裁 Greg Kamradt 宣布，o3 已经成功突破了该组织提出的 ARC-AGI 基准。该基准旨在衡量人工智能的通用智能水平，自提出以来，一直被视为难以攻克的难题。

根据测试结果，o3 在 ARC-AGI 基准上的最低性能可达 75.7%，而通过增加计算资源和思考时间，其性能甚至可以达到惊人的 87.5%。这一突破性进展标志着人工智能在适应新任务能力上的质的飞跃。

高昂的代价：单任务成本高达数千美元

然而，这一突破的代价也是巨大的。据测试报告显示，o3 在低计算量模式下，每个任务的成本约为 17-20 美元，而在高计算量模式下，每个任务的成本则高达数千美元。尽管如此，ARC-AGI 发起者、Keras 之父 François Chollet 强调，这些结果并非简单的暴力计算，而是人工智能适应新任务能力的真正体现。

o3 的局限性：并非真正的 AGI

尽管 o3 在 ARC-AGI 基准上取得了突破性进展，但 François Chollet 认为，这并不意味着 o3 已经达到了通用人工智能（AGI）的水平。他指出，o3 在一些非常简单的任务上仍然会失败，这表明其与人类智能之间仍存在根本差异。

技术解析：LLM的“记忆、检索、应用”模式

Chollet 在报告中分析了 o3 性能提升的原因。他认为，大型语言模型（LLM）就像一个向量程序的存储库，当被提示时，它们会检索与提示词对应的程序，并在当前输入上执行。这种“记忆、检索、应用”的模式虽然强大，但无法适应新情况或即时学习新技能。而 o3 的突破，则在于它在一定程度上克服了这一局限性。

未来展望：ARC-AGI-2 的挑战

ARC Prize Foundation 总裁 Greg Kamradt 表示，明年将与 OpenAI 合作开发下一代基准 ARC-AGI-2。从早期数据来看，即使在高计算量下，o3 在 ARC-AGI-2 上的得分也可能会大幅下降，这表明人工智能的未来发展仍然充满挑战。

结语：人工智能的又一次飞跃

OpenAI 的 o3 模型无疑是人工智能发展史上的又一次重要飞跃。它不仅在推理能力上取得了突破性进展，也引发了人们对人工智能未来发展方向的深入思考。尽管 o3 并非完美，但它无疑为我们揭示了人工智能的巨大潜力，以及未来可能面临的挑战。

参考文献

机器之心. (2024, December 21). 刚刚，OpenAI放出最后大惊喜o3，高计算模式每任务花费数千美元. https://www.jiqizhixin.com/articles/2024-12-21-10
The Information. (n.d.).
GitHub. (n.d.). https://github.com/arcprizeorg/model_baseline

（注：由于The Information的报道未提供具体链接，故此处未列出具体链接。请在后续补充完整。）

（注：本文遵循了APA引用格式，并使用了markdown格式进行排版。）

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

OpenAI压轴：o3模型天价登场

作者智能小编

相关文章

腾讯AI“元宝”杀入微信，13亿用户社交版图重塑？

2025人工智能：颠覆与新生

北大团队突破！单目长视频实时重建高质量3D点云

发表回复取消回复

为您推荐