OpenAI o1 刷屏,但规划能力仍待突破:大模型System 2 能力还有待开发
机器之心报道
近日,OpenAI发布的 o1 模型在多个基准测试中展现出超强实力,被誉为拥有真正的通用推理能力,甚至在博士级别的科学问答环节上超越人类专家。然而,来自亚利桑那州立大学(ASU)的研究团队对 o1 模型的规划能力进行了评估,结果显示,尽管 o1 在基准测试上性能超过了竞争对手,但它还远未达到饱和状态,LLM 的规划能力仍有待突破。
规划行动方案以实现所需状态的能力一直被认为是智能体的核心能力。随着大型语言模型(LLM)的出现,人们对 LLM 是否具有这种规划能力产生了极大的兴趣。PlanBench 基准的出现为评估 LLM 的规划能力提供了标准。
研究团队在 PlanBench 上测试了 o1 模型,结果显示,o1 在简单的 Blocksworld 测试中表现出色,准确率高达 97.8%。然而,在更复杂的 Mystery Blocksworld 测试中,o1 的表现则明显下降,准确率仅为 52.8%。此外,当问题规模扩大时,o1 的性能也迅速下降。
研究团队还发现,o1 在识别无法解决的实例方面表现不佳,只有不到 30% 的无法解决的实例被正确识别。这表明,o1 仍然无法可靠地判断问题是否可解,以及如何制定有效的规划方案。
该研究结果表明,尽管 o1 模型在其他领域表现出色,但其规划能力仍有待提高。 研究团队认为,o1 模型的规划能力不足可能是由于其缺乏类似 System 2 的近似推理能力。
System 2 能力是指人类在进行复杂推理和决策时所使用的能力,它需要更深入的思考和分析。 而目前的 LLM 主要依赖于 System 1 能力,即通过近似检索来生成输出。
该研究结果也为 LLM 的未来发展提供了启示。 研究团队认为,为了提高 LLM 的规划能力,需要开发新的方法来增强其 System 2 能力。
以下是一些可能的解决方案:
- 将 LLM 与外部验证器配对: 将 LLM 与能够验证其规划结果的外部系统结合,例如基于逻辑推理的规划器。
- 改进 LLM 的推理机制: 开发新的方法来增强 LLM 的推理能力,例如引入符号推理或基于图的推理。
- 开发新的训练数据: 使用更多包含规划任务的训练数据来训练 LLM。
总而言之,OpenAI o1 模型的出现标志着 LLM 能力的显著提升,但其规划能力仍然有待突破。 未来,研究人员需要继续探索新的方法来增强 LLM 的 System 2 能力,以实现更强大的规划能力。
Views: 0