摘要: 中国 AI 公司 DeepSeek 推出的 R1 模型,凭借开源和低成本优势迅速崛起,成为行业标配。近日,在 ARC Prize 新推出的 SnakeBench 基准测试中,DeepSeek-R1 表现亮眼,超越 OpenAI 的 o1-mini 模型,并逼近 o3-mini,引发了关于 AI 模型在策略游戏和空间推理能力方面的新一轮讨论。
北京 – 人工智能领域竞争日趋激烈,各类模型层出不穷。DeepSeek 公司推出的 R1 模型,以其开源和低成本的优势,迅速在国内 AI 和云服务市场占据一席之地。这款模型不仅被广泛集成到各种应用和服务中,甚至一些原本与 AI 无直接关联的应用也开始以接入 DeepSeek 为卖点进行宣传。
然而,DeepSeek-R1 的实际性能究竟如何?此前,ARC Prize 发布的报告显示,R1 在 ARC-AGI-1 基准测试中的表现并不突出,甚至不如 OpenAI 的 o1 系列模型。但 DeepSeek-R1 的优势在于其低廉的成本。
近日,ARC Prize 又推出了一个新的基准测试——SnakeBench,这是一个 1v1 的对抗性基准,其核心思想是让两个 LLM(大型语言模型)进行贪吃蛇比赛。在这个新的基准测试中,DeepSeek-R1 表现出色,不仅超过了 o1-mini,与 o3-mini 的差距也微乎其微,拿下了 1801 分。
SnakeBench:策略与推理的试炼场
SnakeBench 的设计灵感来源于 AI 研究科学家 Andrej Karpathy 的一条推文,该推文提出了利用 AI 智能体在游戏中进行对抗以进行评估的思路。ARC Prize 认为,使用游戏作为评估环境可以检验 LLM 的多种能力,包括:
- 实时决策
- 多重目标
- 空间推理
- 动态环境模型的表现
在 SnakeBench 中,系统首先以文本格式提供两个 LLM 角逐的棋盘,并通过提示词明确说明所用的 XY 坐标系。需要注意的是,这里提供的并非真正的 2D 表示,这种信息转译可能会丢失某些空间推理信息。在游戏进行时,系统会随机初始化每条蛇,然后要求两条蛇(LLM)同时选择下一步动作。当一条蛇撞到墙、撞到自己或撞到另一条蛇时,游戏结束。之后,根据游戏结果计算每条蛇的 Elo 评分。
测试结果与关键发现
ARC Prize 目前已经使用 50 个 LLM 进行了总共 2800 场比赛,并对这些模型的“贪吃蛇实时策略和空间推理”能力进行了排名。整体而言,Big Llama、o1、o3、Sonnet 3.5 和 DeepSeek 的表现最好,而其它 LLM 经常会撞墙。
ARC Prize 总裁 Greg Kamradt 总结了以下几点关键发现:
- 推理模型占据主导: o3-mini 和 DeepSeek 赢得了 78% 的比赛。
- LLM 经常误解以文本格式提供的棋盘布局: 这会导致模型错误地定位蛇头的位置,或者导致蛇撞到自己的尾巴。
- 较低档的模型表现不佳: 只有 GPT-4、Gemini 2.0 和 o3-mini 表现出足够的策略游戏推理能力,这说明基本的空间推理仍然是 LLM 面临的巨大挑战。
- 大多数模型都无法跟踪自己的位置,并且会犯明显的错误。
- 上下文很关键: 为了让 LLM 做出正确选择,需要让其加载大量信息,包括棋盘位置、苹果位置、其它蛇的位置等。
有趣的案例分析
Dry Merge CTO Sam Brashears 注意到了一个非常有趣的回合。当时,o3-mini 和 DeepSeek 同时与一个苹果相邻,而它们竟然同时认为对方不会冒险吃这个苹果,于是决定自己去吃,结果导致双双毙命。这反映出 LLM 在风险评估和决策方面的复杂性。
结论
DeepSeek-R1 在 SnakeBench 基准测试中的出色表现,再次证明了中国 AI 模型的实力。尽管在某些方面仍有提升空间,但 DeepSeek-R1 的低成本和开源优势使其在市场上具有强大的竞争力。SnakeBench 作为一个新的评估基准,也为我们提供了一个新的视角来审视 AI 模型在策略游戏和空间推理方面的能力。未来,我们期待看到更多 AI 模型在类似基准测试中取得突破,推动人工智能技术的进一步发展。
参考文献
- ARC Prize Blog: https://arcprize.org/blog/r1-zero-r1-results-analysis
- SnakeBench Official Website: https://snakebench.com
- SnakeBench Project Address: https://github.com/gkamradt/SnakeBench
- 机器之心报道《刚刚,OpenAI 放出最后大惊喜 o3,高计算模式每任务花费数千美元》
- TextArena: https://www.textarena.ai
Views: 0