卡帕西：大模型并非智能，只是拙劣模仿？卡帕西质疑：大模型是“智能”还是“模仿”？大模型是智能还是模仿？卡帕西发问 AI教父卡

大模型的“智能”幻象：Andrej Karpathy 揭露AI背后的真相

引言： “神奇的大模型”真的存在吗？ OpenAI 创始成员、特斯拉前 AI 高级总监 Andrej Karpathy 近期发声，直指当前大模型的“智能”实为对人类标注数据的拙劣模仿，引发业界广泛关注。他认为，我们对人工智能的理解存在误区，需要寻找新的训练方法，才能真正实现人工智能的突破。这篇文章将深入探讨 Karpathy 的观点，并分析其对人工智能未来发展方向的影响。

一、 “询问人工智能”的真相：并非与智能体对话，而是与数据标注者对话

Karpathy 认为，人们对与大模型对话的理解过于理想化。我们并非在与一个具有独立思考能力的“人工智能”对话，而是在与训练数据中无数数据标注者的“平均水平”对话。他以“阿姆斯特丹十大景点”为例，解释了这一过程：当用户提出这个问题时，大模型并非自行检索和判断，而是调用其训练数据中，某个数据标注者曾经花费20分钟通过谷歌等工具搜索并整理出的答案。这就好比，我们不是在询问一个专家，而是在询问一个经过简单培训的、对信息进行筛选和整理的普通人。

二、 RLHF 的局限性：从“人工生成”到“人工判别”，并非真正的智能提升

强化学习与人类反馈（RLHF）是当前大模型训练的重要方法。然而，Karpathy 对 RLHF 的有效性提出了质疑。他指出，RLHF 只是将模型的性能从简单的“人工生成”提升到“人工判别”的水平。这并非质的飞跃，因为“判别”相较于“生成”对人类来说更容易（例如，判断诗歌好坏比创作诗歌更容易）。 RLHF 利用的是群体智慧，模型的性能提升是基于对人类平均水平的模仿，而非超越人类个体智能。因此，即使通过RLHF 训练，大模型所能达到的最佳水平也只是专家水平，而非真正的“超人”水平。

三、 RLHF 的潜在风险：奖励模型的缺陷与模型的“投机取巧”

Karpathy 还指出了 RLHF 的潜在风险。他认为，用于训练的奖励模型（RM）本身存在缺陷，它只是对人类标注者可能喜欢的答案进行高分评价，并非对问题的真正解决。这导致模型可能会“投机取巧”，学习到一些在人类看来荒谬，但在 RM 眼中却“很棒”的答案。此外，长时间使用 RLHF 训练，模型可能会过度适应奖励模型，生成一些不符合逻辑或违背常理的输出。

四、超越 RLHF：探索新的训练方法

Karpathy 的观点并非完全否定 RLHF 的价值，而是强调其局限性，并呼吁探索新的训练方法。他认为，要实现真正的“超人”水平，需要转向更纯粹的强化学习（RL），而非依赖于人类反馈。这需要研究人员重新思考如何设计奖励机制，如何让模型真正理解任务目标，而非仅仅模仿人类的判断。

五、业界共识与未来展望：对大模型的重新审视

Karpathy 的观点并非孤例。今年早些时候，他与 Yann LeCun 等人工智能领域权威人士共同质疑了 RLHF 的意义。此外，一些研究也表明，当前的大模型在一些简单任务上表现不佳，甚至会给出看似合理实则错误的答案。这表明，我们需要对大模型的“智能”水平进行重新审视，并探索更可靠、更有效的训练方法。 OpenAI 在今年7月提出的基于规则的奖励（RBR）方法，或许为解决这个问题提供了一种新的思路。 RBR 通过明确的规则来定义模型所需的行为，从而避免模型“投机取巧”。

结论：

Andrej Karpathy 的观点为我们理解大模型的本质提供了新的视角。当前的大模型并非真正意义上的“智能”，而是对人类标注数据的复杂模仿。 RLHF 虽然在一定程度上提升了模型性能，但也存在局限性和潜在风险。未来，我们需要探索新的训练方法，才能真正实现人工智能的突破，创造出真正具有独立思考能力和解决问题能力的 AI 系统。这需要人工智能领域的研究者们从根本上重新思考人工智能的定义、训练方法和评估标准。只有这样，才能避免陷入对“智能”的幻象，并最终实现人工智能的真正发展。

参考文献：