苹果论文引爆大模型战火！

作者智能小编

10 月 17, 2024 #InfoQ, #苹果, #论文

苹果论文掀起大模型风暴：推理能力遭质疑，神经符号AI成新希望？

引言： 苹果公司近日发表的一篇关于大型语言模型（LLM）推理能力的论文，在人工智能社区引发了轩然大波。这篇论文指出，LLM 并非真正进行逻辑推理，而是依赖于模式匹配，因此容易受到无关信息的影响，导致结果偏差。这一结论引发了对 LLM 推理能力的质疑，并引发了关于未来人工智能发展方向的讨论。

研究发现： 苹果研究人员对一系列领先的 LLM，包括来自 OpenAI、Meta 和其他知名厂商的模型进行了测试，结果发现，这些模型在处理数学推理任务时，表现出明显的脆弱性。即使是微小的措辞变化，也会导致模型性能出现显著差异。论文以一个简单的数学题为例，当引入与问题结果无关的细节时，LLM 会错误地调整最终总数，证明了它们依赖于模式匹配而非真正的逻辑推理。

争议焦点： 这篇论文的结论引发了广泛的争议。一些人质疑论文的逻辑性和目的，认为它只是为了推销苹果公司自己开发的新的基准测试。还有人指出，论文中对 o1模型的测试结果与结论相矛盾，削弱了论文的论点。

专家观点： 著名认知科学家 Gary Marcus 也对这篇论文发表了看法，他指出，LLM 无法进行足够抽象的形式推理的现象早已被发现。早在 2017 年，斯坦福大学的研究人员就发现，LLM 的答案容易受到无关信息的影响。

未来展望： 苹果研究人员建议，人工智能可能需要将神经网络与传统的基于符号的推理相结合，以获得更准确的决策和解决问题的能力。这一观点也得到了其他研究人员的支持，他们认为，神经符号人工智能是未来人工智能发展的重要方向。

结论： 苹果这篇论文引发了对 LLM 推理能力的质疑，并引发了关于未来人工智能发展方向的讨论。虽然 LLM 在一些任务上表现出色，但它们在逻辑推理方面的缺陷仍然存在。未来，人工智能需要探索新的方法，例如神经符号人工智能，以克服这些缺陷，实现更强大的推理能力。

参考文献：