一文看懂LLM推理:OpenAI ο1 的“深度思考”

OpenAI 最近发布的 ο1 系列模型堪称迈向强人工智能的一次飞跃,其强大的推理能力为我们描绘出了下一代人工智能模型的未来图景。 伦敦大学学院(UCL)人工智能中心汪军教授近日撰写了一份「LLM 推理教程」,深入详细地介绍了 OpenAI ο1 模型背后的相关方法。他将在 10月 12 号本周星期六早上于香港科技大学(广州)RLChina 2024 大会上作相关内容的主题报告,并发布其团队开发的 LLM 推理开源框架以推动 ο1 相关模型的发展。

ο1 的关键创新在于其“深度思考”能力,即通过显式地嵌入一个原生「思维链」(NCoT)过程,在生成响应之前可通过一步步地推理实现“深度思考”。 这与传统的自回归 LLM 直接基于给定问题生成答案形成鲜明对比。

从 OpenAI 发布的数据看,相比于之前的 ChatGPT 4o,ο1 在数学和编程任务上的表现要强 5 倍。 它在竞争性编程中排名第 89 位,在美国著名的数学奥林匹克资格赛中名列前 500 名,并在物理、生物和化学基准测试中超越了人类博士级的准确度。

图 1:推理时间计算

[图片描述:图 1 展示了自回归 LLM 和思维链推理的对比。自回归 LLM 直接基于给定问题生成答案,而思维链推理则涉及到在得到最终答案之前,整合中间推理步骤。]

图 2:人类认知和 LLM 的类比

[图片描述:图 2 展示了人类认知中两种不同的认知处理模式:系统 1 思维和系统 2 思维,以及它们与 LLM 的类比。系统 1 思维快速、自动且直观,而系统 2 思维是深思熟虑的、费力的和有意识的。]

ο1 的诞生非常激动人心,因为大语言模型(LLM)现在不仅能使用学习到的模式进行快速响应,而且还能通过思维链或其它形式的搜索等机制模拟复杂的推理过程。 这就类似于人类的更深度的、步步执行的思考方式。也正因如此,OpenAI ο1 在科学、编程和数学领域都取得了相当卓越的表现。

此外,ο1 在 AI 安全和对齐方面也取得了进展。 该模型的思维链推理为整合人类价值观和原则提供了新的机会,从而可提高安全评估和越狱测试的性能。

汪军教授表示,我们目前尚不清楚 OpenAI 的 ο1 创新是否植根于模型本身,还是依然依赖于外部提示系统。 如果它确实涉及在架构中明确嵌入分步推理,那么这将是一个重大突破。

在大幅提高性能的基础上,OpenAI ο1 还表明,传统上在训练期间应用的扩展原则现在也与推理阶段相关了。 这样一来,就需要考虑给推理阶段多分配一些算力了。如果能让 LLM 通过增加测试时间计算来提升输出,那便是朝着自我改进式智能体(self-improving agent)迈出的重要一步。

这个研究方向被汪军教授暂且称为 LLM 原生思维链(LLM-Native Chain-of-Thought/NativeCoT),其应当能够固有地反映人类系统 2 思维所具有的深思熟虑的分析过程。

汪军教授在本文中全面回顾了可能的相关文献,并探讨了这一突破背后可能的核心技术和方法。 此外,他还提出了基于近期研究成果实现相应开源版本的方法,以加速该领域的研究。

以下是 LLM 推理领域面临的两个主要挑战:

  1. 世界模型的缺失:LLM 缺乏对现实世界的理解,无法进行有效的推理。
  2. 思维链的局限性: 现有的思维链方法大多依赖于外部提示,无法内化到模型本身。

汪军教授认为,ο1 的出现为解决这些挑战提供了新的思路。他将继续研究 LLM 原生思维链,并探索如何将其应用于更广泛的领域,例如科学发现、医疗诊断和金融预测。

参考文献:

本文旨在为读者提供对 LLM 推理领域最新进展的概述,并探讨其未来发展方向。随着技术的不断进步,我们有理由相信,LLM 将在未来扮演越来越重要的角色,为人类社会带来更多益处。


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注