OpenAI o1 登顶 lmsys，数学能力超群！

作者智能小编

9 月 20, 2024 #IT资讯, #OpenAI

90年代申花出租车司机夜晚在车内看文汇报

OpenAI最新发布的o1模型在lmsys排行榜上取得了显著成绩，全方位超越了SOTA（最先进技术水平）标准。这一模型在数学能力上尤为突出，超越了Claude和谷歌的Gemini模型，而其小型版本o1-mini则与最新版的GPT-4o并列第一。

o1模型发布仅一周便在lmsys排行榜上取得显著成绩，其中o1-preview版本在多个领域均取得了领先，包括数学、困难提示和编码。尽管名为“mini”，o1-mini在综合排名上也与GPT-4o并列第二，并在困难提示、编码、数学等领域与o1-preview同样位居第一。这一成绩证明了o1模型在通用推理领域的强大能力。

lmsys社区官方对OpenAI的进展表示赞赏，称其为“令人难以置信的里程碑”。此外，为了进一步验证模型的实力，lmsys还统计了总榜上前25名模型的1v1胜率，结果显示o1-preview对所有模型的胜率都超过了50%，其中与04-09版GPT-4-Turbo的对战胜率高达88%。o1-mini在与o1-preview的对战中胜率为46%，与09-03版GPT-4o的胜率为48%，显示出两者在能力上的接近。

在细分领域的排行榜上，特别是在数学/推理领域，o1-preview和o1-mini的表现更是惊艳，远远领先于其他模型。尽管Grok-2-mini和Claude 3.5 Sonnet排名靠后，但o1-preview对这两个模型的胜率并不高，分别只有58%和57%，低于排名第四的Gemini 1.5 Pro的69%。

OpenAI推理团队的领导者之一William Fedus对这一成绩表示满意，认为这一图表“很好地用视觉表达了范式转换”。o1模型在STEM学科和通用推理方面的表现，无疑回应了关于“AI遇冷”和“OpenAI碰壁”的质疑。

此外，OpenAI还公开了o1模型在测评时提交的所有代码，以展示其编码能力。在模拟的Codeforces编程竞赛中，o1-preview打败了62%的人类选手，而正式版o1则超越了89%的对手。专门微调过的o1-ioi模型表现更是优于93%的竞争对手。OpenAI核心贡献者Alexander Wei对o1模型的惊艳表现感到惊讶，并表示期待有一天能够实现模型达到人类顶级表现的目标。

总的来说，OpenAI的o1模型在人工智能领域取得了显著进展，不仅在数学和推理方面表现出色，而且在编程竞赛中也展现出了惊人的能力。随着技术的不断进步，我们有理由相信，未来OpenAI将带来更多令人惊喜的成果。

>>> Read more <<<