Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

摘要: 中国 AI 公司 DeepSeek 推出的 R1 模型,凭借开源和低成本优势迅速崛起,成为行业标配。近日,在 ARC Prize 新推出的 SnakeBench 基准测试中,DeepSeek-R1 表现亮眼,超越 OpenAI 的 o1-mini 模型,并逼近 o3-mini,引发了关于 AI 模型在策略游戏和空间推理能力方面的新一轮讨论。

北京 – 人工智能领域竞争日趋激烈,各类模型层出不穷。DeepSeek 公司推出的 R1 模型,以其开源和低成本的优势,迅速在国内 AI 和云服务市场占据一席之地。这款模型不仅被广泛集成到各种应用和服务中,甚至一些原本与 AI 无直接关联的应用也开始以接入 DeepSeek 为卖点进行宣传。

然而,DeepSeek-R1 的实际性能究竟如何?此前,ARC Prize 发布的报告显示,R1 在 ARC-AGI-1 基准测试中的表现并不突出,甚至不如 OpenAI 的 o1 系列模型。但 DeepSeek-R1 的优势在于其低廉的成本。

近日,ARC Prize 又推出了一个新的基准测试——SnakeBench,这是一个 1v1 的对抗性基准,其核心思想是让两个 LLM(大型语言模型)进行贪吃蛇比赛。在这个新的基准测试中,DeepSeek-R1 表现出色,不仅超过了 o1-mini,与 o3-mini 的差距也微乎其微,拿下了 1801 分。

SnakeBench:策略与推理的试炼场

SnakeBench 的设计灵感来源于 AI 研究科学家 Andrej Karpathy 的一条推文,该推文提出了利用 AI 智能体在游戏中进行对抗以进行评估的思路。ARC Prize 认为,使用游戏作为评估环境可以检验 LLM 的多种能力,包括:

  • 实时决策
  • 多重目标
  • 空间推理
  • 动态环境模型的表现

在 SnakeBench 中,系统首先以文本格式提供两个 LLM 角逐的棋盘,并通过提示词明确说明所用的 XY 坐标系。需要注意的是,这里提供的并非真正的 2D 表示,这种信息转译可能会丢失某些空间推理信息。在游戏进行时,系统会随机初始化每条蛇,然后要求两条蛇(LLM)同时选择下一步动作。当一条蛇撞到墙、撞到自己或撞到另一条蛇时,游戏结束。之后,根据游戏结果计算每条蛇的 Elo 评分。

测试结果与关键发现

ARC Prize 目前已经使用 50 个 LLM 进行了总共 2800 场比赛,并对这些模型的“贪吃蛇实时策略和空间推理”能力进行了排名。整体而言,Big Llama、o1、o3、Sonnet 3.5 和 DeepSeek 的表现最好,而其它 LLM 经常会撞墙。

ARC Prize 总裁 Greg Kamradt 总结了以下几点关键发现:

  • 推理模型占据主导: o3-mini 和 DeepSeek 赢得了 78% 的比赛。
  • LLM 经常误解以文本格式提供的棋盘布局: 这会导致模型错误地定位蛇头的位置,或者导致蛇撞到自己的尾巴。
  • 较低档的模型表现不佳: 只有 GPT-4、Gemini 2.0 和 o3-mini 表现出足够的策略游戏推理能力,这说明基本的空间推理仍然是 LLM 面临的巨大挑战。
  • 大多数模型都无法跟踪自己的位置,并且会犯明显的错误。
  • 上下文很关键: 为了让 LLM 做出正确选择,需要让其加载大量信息,包括棋盘位置、苹果位置、其它蛇的位置等。

有趣的案例分析

Dry Merge CTO Sam Brashears 注意到了一个非常有趣的回合。当时,o3-mini 和 DeepSeek 同时与一个苹果相邻,而它们竟然同时认为对方不会冒险吃这个苹果,于是决定自己去吃,结果导致双双毙命。这反映出 LLM 在风险评估和决策方面的复杂性。

结论

DeepSeek-R1 在 SnakeBench 基准测试中的出色表现,再次证明了中国 AI 模型的实力。尽管在某些方面仍有提升空间,但 DeepSeek-R1 的低成本和开源优势使其在市场上具有强大的竞争力。SnakeBench 作为一个新的评估基准,也为我们提供了一个新的视角来审视 AI 模型在策略游戏和空间推理方面的能力。未来,我们期待看到更多 AI 模型在类似基准测试中取得突破,推动人工智能技术的进一步发展。

参考文献


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注