普林斯顿新基准揭AI科学家真实力：最强模型仅21%准

9 月 26, 2024 #36氪, #AI

川普在美国宾州巴特勒的一次演讲中遇刺_20240714

AI科学家太多，谁靠谱一试便知？普林斯顿新基准CORE-Bench：最强模型仅有21%准确率

近年来，人工智能领域发展迅猛，涌现出大量AI科学家。然而，面对众多AI模型，如何判断其真实能力，成为一个亟待解决的难题。

近日，普林斯顿大学的研究人员发布了一个名为CORE-Bench的新基准，旨在评估AI模型的推理能力。 该基准包含一系列精心设计的测试，涵盖了逻辑推理、常识推理和因果推理等多个方面。研究人员发现，即使是最强大的AI模型，在CORE-Bench上的准确率也只有21%，远低于预期。

这一结果引发了业界对AI模型真实能力的质疑。 许多人认为，现有的AI模型虽然在某些特定任务上表现出色，但在更复杂、更具挑战性的任务上，其能力仍然有限。

CORE-Bench的出现，为评估AI模型能力提供了一个新的标准。 它可以帮助研究人员更好地了解AI模型的优缺点，并推动AI技术的进一步发展。

然而，CORE-Bench也面临一些挑战。 首先，它只测试了AI模型的推理能力，而没有涵盖其他重要的能力，例如语言理解、图像识别等。其次，它只包含了一小部分测试用例，无法全面评估AI模型的真实能力。

未来，研究人员需要开发更加全面、更具挑战性的基准，来评估AI模型的真实能力。 同时，也需要加强对AI模型的伦理和安全研究，确保AI技术能够安全、可靠地应用于各个领域。

以下是一些关于CORE-Bench的补充信息：

总结来说，CORE-Bench的出现，为评估AI模型能力提供了一个新的标准，也为AI技术的发展提供了新的方向。 然而，我们也需要认识到，CORE-Bench只是一个开始，未来还需要开发更加全面、更具挑战性的基准，来评估AI模型的真实能力。