Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

shanghaishanghai
0

OpenAI 发布o3 模型:AI 推理能力迎来重大突破,高计算模式单任务成本高达数千美元

旧金山 — 在为期 12 天的密集发布活动尾声,OpenAI 终于揭开了其最新推理系列模型 o3 和 o3-mini 的神秘面纱。正如业界所预期的,o3 作为 o1 系列的继任者,标志着人工智能在推理能力上的又一次重大飞跃。然而,与以往不同的是,这次发布并非直接面向公众,而是先进行严格的安全测试,并计划在一月底左右逐步推出。

命名之谜:为何跳过 o2?

值得注意的是,OpenAI 在命名上跳过了 o2。据《The Information》报道,此举是为了规避潜在的版权问题,因为英国一家名为 O2的电信公司可能引发混淆。OpenAI 首席执行官 Sam Altman 在今日的直播中证实了这一说法,揭开了命名背后的谜团。

o3 的核心优势:更长时间的“思考”

o3 系列模型的核心特点在于其更强大的推理能力。与以往模型不同,o3 在回答问题前会花费更多时间进行“思考”,从而显著提高回答的准确率。这一改进不仅体现在理论层面,更在实际测试中得到了验证。

突破性成果:首个攻克 ARC-AGI 基准的 AI 模型

在发布会上,非营利组织 ARC Prize Foundation 的总裁 Greg Kamradt 宣布,o3 已经成功突破了该组织提出的 ARC-AGI 基准。该基准旨在衡量人工智能的通用智能水平,自提出以来,一直被视为难以攻克的难题。

根据测试结果,o3 在 ARC-AGI 基准上的最低性能可达 75.7%,而通过增加计算资源和思考时间,其性能甚至可以达到惊人的 87.5%。这一突破性进展标志着人工智能在适应新任务能力上的质的飞跃。

高昂的代价:单任务成本高达数千美元

然而,这一突破的代价也是巨大的。据测试报告显示,o3 在低计算量模式下,每个任务的成本约为 17-20 美元,而在高计算量模式下,每个任务的成本则高达数千美元。尽管如此,ARC-AGI 发起者、Keras 之父 François Chollet 强调,这些结果并非简单的暴力计算,而是人工智能适应新任务能力的真正体现。

o3 的局限性:并非真正的 AGI

尽管 o3 在 ARC-AGI 基准上取得了突破性进展,但 François Chollet 认为,这并不意味着 o3 已经达到了通用人工智能(AGI)的水平。他指出,o3 在一些非常简单的任务上仍然会失败,这表明其与人类智能之间仍存在根本差异。

技术解析:LLM的“记忆、检索、应用”模式

Chollet 在报告中分析了 o3 性能提升的原因。他认为,大型语言模型(LLM)就像一个向量程序的存储库,当被提示时,它们会检索与提示词对应的程序,并在当前输入上执行。这种“记忆、检索、应用”的模式虽然强大,但无法适应新情况或即时学习新技能。而 o3 的突破,则在于它在一定程度上克服了这一局限性。

未来展望:ARC-AGI-2 的挑战

ARC Prize Foundation 总裁 Greg Kamradt 表示,明年将与 OpenAI 合作开发下一代基准 ARC-AGI-2。从早期数据来看,即使在高计算量下,o3 在 ARC-AGI-2 上的得分也可能会大幅下降,这表明人工智能的未来发展仍然充满挑战。

结语:人工智能的又一次飞跃

OpenAI 的 o3 模型无疑是人工智能发展史上的又一次重要飞跃。它不仅在推理能力上取得了突破性进展,也引发了人们对人工智能未来发展方向的深入思考。尽管 o3 并非完美,但它无疑为我们揭示了人工智能的巨大潜力,以及未来可能面临的挑战。

参考文献

(注:由于The Information的报道未提供具体链接,故此处未列出具体链接。请在后续补充完整。)

(注:本文遵循了APA引用格式,并使用了markdown格式进行排版。)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注