Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

shanghaishanghai
0

分步思维”策略的具体实践。实际上,人工智能社区在这个领域已探索了数年,这一策略首次在 2022 年 5 月发布的论文《大语言模型是零样本推理器》(Large Language Models are Zero-Shot Reasoners)中提出。OpenAI 发布的《与大语言模型共学推理》(Learning to Reason with LLMs)一文详细阐述了新模型的训练方法,揭示了其能力提升背后的秘密。

文中指出:“我们的大规模强化学习算法精心设计了训练流程,使模型在高效利用数据的同时,能够熟练运用思维链进行深度思考。我们发现,随着强化学习训练时间的增加以及模型在测试时分配更多思考时间,o1 的性能持续显著提升。值得注意的是,这种扩展方法的限制与大语言模型预训练中的挑战有很大不同,我们正继续深入探索这些新界限。”

通过强化学习的训练,o1 不仅学会了优化其思维链的使用,还掌握了自我提升的关键技能。o1 能够识别并纠正错误,将复杂难题拆解为一系列更易处理的子任务。当现有方法失效时,它会尝试不同的方法直至找到最佳解法。这一过程极大提升了模型的推理能力。实际上,这标志着模型在处理复杂提示方面实现了质的飞跃。面对那些需要回溯与深入“思考”的任务时,模型能够展现出更加出色的表现,而不再仅仅依赖于下一个 Token 预测。

威利森指出,虽然他对“推理”一词在大语言模型中的定义有保留,但鉴于 OpenAI 已明确采用此术语,并成功表达了新模型致力于解决的核心问题,他认为这种表达在此情境下是恰当且有效的。

  1. 来自 API 文档的底层细节

关于新模型及其设计权衡,OpenAI 在 API 文档中提供了许多有趣的细节:对于依赖图像输入、函数调用或追求即时响应速度的应用场景,GPT-4o 及其精简版 GPT-4o mini 仍是理想选择。然而,如果你的项目需要深度推理能力,且能够适应较长的响应时间,那么 o1 模型无疑是更优的选择。

威利森从 OpenAI 的文档中摘录了几个关键点:

  • API 访问权限:目前,o1-preview 与 o1-mini 的访问仅限于五级账户用户,且 API 积分累计需达到至少 1,000 美元方可解锁。
  • 系统提示限制:模型集成了现有的聊天完成 API,但仅支持用户与助手之间的消息交互,不支持系统提示功能。
  • 其他功能限制:当前模型不提供流处理支持、工具集成、批处理调用或图像输入。
  • 响应时间:鉴于模型解决问题所需推理量的不同,处理请求的时间可能介于几秒至几分钟不等。

尤为引人注目的是“推理 Token”的引入。这些 Token 在 API 响应中不可见,却扮演着至关重要的角色,是驱动新模型能力的核心,且作为输出 Token 计费并计数。鉴于推理 Token 的重要性,OpenAI 建议为充分利用新模型的提示预留约 25,000 个推理 Token 的预算。为此,输出 Token 的配额显著提升:o1-preview 的配额增至 32,768 个,而 o1-mini 则高达 65,536 个。相比于 GPT-4o 及其 mini 版(两者的配额均为 16,384 个),这一增加为用户提供了更多资源。

API 文档还提供了一个新颖且关键的提示,旨在优化检索增强生成(RAG):在整合附加上下文或文档时,应严格筛选,保留最相关的信息,以避免模型生成过于复杂的响应。这与 RAG 的传统做法截然不同,后者倾向于将大量潜在相关文档纳入提示。

  1. 隐藏的推理 Token

令人遗憾的是,推理 Token 在 API 调用中处于隐藏状态。用户需要为这些 Token 支付费用,却无法得知其具体内容。OpenAI 对此政策的解释如下:“隐藏思维链的初衷在于确保模型‘思维’过程的独立性和表达自由,避免外界干预或操控其推理逻辑。展示模型的完整思维链可能暴露不一致性,并影响用户体验。”这项决策基于多重考量:一方面是为了确保安全与策略的遵从性,另一方面则是为了保持技术上的竞争优势,避免竞争对手利用推理成果进行训练。

作为对大语言模型发展持保留意见的一方,威利森对此决定并不满意。他认为,在追求技术创新的同时,保持可解释性与透明度至关重要。关键细节的隐藏,意味着对透明度的一种削弱,感觉像是一个倒退的举措。

  1. 示例解读

OpenAI 在“思维链”部分提供了许多示例,包括 Bash 脚本生成、填字游戏解答和化学溶液 pH 值计算等,初步展示了这些模型在 ChatGPT 用户界面下的思维链能力。但它并未展示原始的推理 Token,而是通过一种优化机制,将复杂的


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注