DeepSeek-R1挑战OpenAI，ARC-AGI迎来新突破

摘要： 中国 AI 公司 DeepSeek 推出的 R1 模型，凭借开源和低成本优势迅速崛起，成为行业标配。近日，在 ARC Prize 新推出的 SnakeBench 基准测试中，DeepSeek-R1 表现亮眼，超越 OpenAI 的 o1-mini 模型，并逼近 o3-mini，引发了关于 AI 模型在策略游戏和空间推理能力方面的新一轮讨论。

北京 – 人工智能领域竞争日趋激烈，各类模型层出不穷。DeepSeek 公司推出的 R1 模型，以其开源和低成本的优势，迅速在国内 AI 和云服务市场占据一席之地。这款模型不仅被广泛集成到各种应用和服务中，甚至一些原本与 AI 无直接关联的应用也开始以接入 DeepSeek 为卖点进行宣传。

然而，DeepSeek-R1 的实际性能究竟如何？此前，ARC Prize 发布的报告显示，R1 在 ARC-AGI-1 基准测试中的表现并不突出，甚至不如 OpenAI 的 o1 系列模型。但 DeepSeek-R1 的优势在于其低廉的成本。

近日，ARC Prize 又推出了一个新的基准测试——SnakeBench，这是一个 1v1 的对抗性基准，其核心思想是让两个 LLM（大型语言模型）进行贪吃蛇比赛。在这个新的基准测试中，DeepSeek-R1 表现出色，不仅超过了 o1-mini，与 o3-mini 的差距也微乎其微，拿下了 1801 分。

SnakeBench：策略与推理的试炼场

SnakeBench 的设计灵感来源于 AI 研究科学家 Andrej Karpathy 的一条推文，该推文提出了利用 AI 智能体在游戏中进行对抗以进行评估的思路。ARC Prize 认为，使用游戏作为评估环境可以检验 LLM 的多种能力，包括：

实时决策
多重目标
空间推理
动态环境模型的表现

在 SnakeBench 中，系统首先以文本格式提供两个 LLM 角逐的棋盘，并通过提示词明确说明所用的 XY 坐标系。需要注意的是，这里提供的并非真正的 2D 表示，这种信息转译可能会丢失某些空间推理信息。在游戏进行时，系统会随机初始化每条蛇，然后要求两条蛇（LLM）同时选择下一步动作。当一条蛇撞到墙、撞到自己或撞到另一条蛇时，游戏结束。之后，根据游戏结果计算每条蛇的 Elo 评分。

测试结果与关键发现

ARC Prize 目前已经使用 50 个 LLM 进行了总共 2800 场比赛，并对这些模型的“贪吃蛇实时策略和空间推理”能力进行了排名。整体而言，Big Llama、o1、o3、Sonnet 3.5 和 DeepSeek 的表现最好，而其它 LLM 经常会撞墙。

ARC Prize 总裁 Greg Kamradt 总结了以下几点关键发现：

推理模型占据主导： o3-mini 和 DeepSeek 赢得了 78% 的比赛。
LLM 经常误解以文本格式提供的棋盘布局： 这会导致模型错误地定位蛇头的位置，或者导致蛇撞到自己的尾巴。
较低档的模型表现不佳： 只有 GPT-4、Gemini 2.0 和 o3-mini 表现出足够的策略游戏推理能力，这说明基本的空间推理仍然是 LLM 面临的巨大挑战。
大多数模型都无法跟踪自己的位置，并且会犯明显的错误。
上下文很关键： 为了让 LLM 做出正确选择，需要让其加载大量信息，包括棋盘位置、苹果位置、其它蛇的位置等。

有趣的案例分析

Dry Merge CTO Sam Brashears 注意到了一个非常有趣的回合。当时，o3-mini 和 DeepSeek 同时与一个苹果相邻，而它们竟然同时认为对方不会冒险吃这个苹果，于是决定自己去吃，结果导致双双毙命。这反映出 LLM 在风险评估和决策方面的复杂性。

结论

DeepSeek-R1 在 SnakeBench 基准测试中的出色表现，再次证明了中国 AI 模型的实力。尽管在某些方面仍有提升空间，但 DeepSeek-R1 的低成本和开源优势使其在市场上具有强大的竞争力。SnakeBench 作为一个新的评估基准，也为我们提供了一个新的视角来审视 AI 模型在策略游戏和空间推理方面的能力。未来，我们期待看到更多 AI 模型在类似基准测试中取得突破，推动人工智能技术的进一步发展。

参考文献

ARC Prize Blog: https://arcprize.org/blog/r1-zero-r1-results-analysis
SnakeBench Official Website: https://snakebench.com
SnakeBench Project Address: https://github.com/gkamradt/SnakeBench
机器之心报道《刚刚，OpenAI 放出最后大惊喜 o3，高计算模式每任务花费数千美元》
TextArena: https://www.textarena.ai

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

DeepSeek-R1挑战OpenAI，ARC-AGI迎来新突破

作者智能小编

相关文章

Day.ai：HubSpot CPO再战AI CRM，红杉押注！

D1技术突破：全球数据一致性复制成真

US Tariff Stick How Much Pain for European and American Automakers?

发表回复取消回复

为您推荐