AI智能过人？大型语言模型图灵测试引争议

在人工智能领域，图灵测试一直被视为检验机器智能的经典实验。然而，随着大型语言模型（LLM）如GPT的快速发展，人们开始质疑：用图灵测试检验AI尤其是大语言模型，真的科学吗？

图灵测试的局限

图灵测试由艾伦·图灵在1950年提出，旨在通过观察计算机与人类进行打字对话的能力，判断其是否具有智能。然而，在近两年的发展中，大型语言模型似乎能够通过一些公开的图灵测试，这让人们对计算机智力水平的判断产生了疑问。

2023年，加州大学圣迭戈分校（UCSD）的研究人员进行了一次图灵测试，比较最新的LLM与20世纪60年代开发的聊天机器人Eliza的表现。结果显示，GPT-4在41%的游戏中表现与人类无异，而其前身GPT-3.5仅为14%，低于Eliza的27%。然而，人类在63%的游戏中通过（被判定为人类）。

负责这项实验的UCSD认知科学博士生Cameron Jones表示，人类得分低的原因在于玩家更容易认为人类只是一个听起来像人类的模型。这表明，图灵测试在评估机器智能时可能存在一定的局限。

面对图灵测试的局限，一些学者提出了新的测试方法。普林斯顿大学心理学家Philip Johnson-Laird和德国开姆尼茨工业大学预测分析学教授Marco Ragni在2023年发表的一篇论文中，提出了将模型作为心理实验的参与者，观察其是否能理解自己的推理过程。

他们建议向模型提出一些问题，如：“如果Ann很聪明，那么她是聪明还是富有，或者两者都是？”如果模型能拒绝不符合常理的推断，并给出与人类相似的理由，那么它可能模拟了人类智能。

此外，谷歌的软件工程师和人工智能专家Francois Chollet提出了抽象与推理语料库（ARC）测试。ARC测试通过基本的积木，如形状或大小等简单概念来创建任务，测试对象需要根据三个示例完成任务。Chollet认为，这种测试能更好地评估AI的智力水平。

然而，智力的定义仍然是一个争论的焦点。是模式识别能力、创新能力，还是创造音乐或喜剧等创意的能力？如果没有就人工智能中的“智能”达成共识，那么如何建立通用人工智能（AGI）？

Chollet认为，智力是一种有效获得新技能的能力，这些技能是训练过程中没有准备好的，目的是完成与系统之前所见过的任务差异足够大的任务。而目前，机器的学习效率远远落后于人脑，大约比人脑低1万倍。

图灵测试作为检验AI智力的方法，在某种程度上已经显现出其局限。随着人工智能技术的不断发展，新的测试方法不断涌现，人们对智力的定义也在不断深化。未来，如何科学地评估AI的智力水平，仍将是人工智能领域面临的重要课题。