OpenAI最新发布的o1模型在lmsys排行榜上取得了显著成绩,全方位超越了SOTA(最先进技术水平)标准。这一模型在数学能力上尤为突出,超越了Claude和谷歌的Gemini模型,而其小型版本o1-mini则与最新版的GPT-4o并列第一。
o1模型发布仅一周便在lmsys排行榜上取得显著成绩,其中o1-preview版本在多个领域均取得了领先,包括数学、困难提示和编码。尽管名为“mini”,o1-mini在综合排名上也与GPT-4o并列第二,并在困难提示、编码、数学等领域与o1-preview同样位居第一。这一成绩证明了o1模型在通用推理领域的强大能力。
lmsys社区官方对OpenAI的进展表示赞赏,称其为“令人难以置信的里程碑”。此外,为了进一步验证模型的实力,lmsys还统计了总榜上前25名模型的1v1胜率,结果显示o1-preview对所有模型的胜率都超过了50%,其中与04-09版GPT-4-Turbo的对战胜率高达88%。o1-mini在与o1-preview的对战中胜率为46%,与09-03版GPT-4o的胜率为48%,显示出两者在能力上的接近。
在细分领域的排行榜上,特别是在数学/推理领域,o1-preview和o1-mini的表现更是惊艳,远远领先于其他模型。尽管Grok-2-mini和Claude 3.5 Sonnet排名靠后,但o1-preview对这两个模型的胜率并不高,分别只有58%和57%,低于排名第四的Gemini 1.5 Pro的69%。
OpenAI推理团队的领导者之一William Fedus对这一成绩表示满意,认为这一图表“很好地用视觉表达了范式转换”。o1模型在STEM学科和通用推理方面的表现,无疑回应了关于“AI遇冷”和“OpenAI碰壁”的质疑。
此外,OpenAI还公开了o1模型在测评时提交的所有代码,以展示其编码能力。在模拟的Codeforces编程竞赛中,o1-preview打败了62%的人类选手,而正式版o1则超越了89%的对手。专门微调过的o1-ioi模型表现更是优于93%的竞争对手。OpenAI核心贡献者Alexander Wei对o1模型的惊艳表现感到惊讶,并表示期待有一天能够实现模型达到人类顶级表现的目标。
总的来说,OpenAI的o1模型在人工智能领域取得了显著进展,不仅在数学和推理方面表现出色,而且在编程竞赛中也展现出了惊人的能力。随着技术的不断进步,我们有理由相信,未来OpenAI将带来更多令人惊喜的成果。
Views: 0