MultiOn推出AI智能体Agent Q：自我学习进化

MultiOn公司推出AI智能体Agent Q：自我学习进化，突破AI决策能力瓶颈

北京时间2023年10月26日 – 近日，MultiOn公司联合斯坦福大学推出了全新的AI智能体Agent Q，该智能体具备自我学习进化能力，在网页导航和多步任务执行中展现出卓越性能。Agent Q的出现标志着AI在自主性和复杂决策能力上的重大突破，有望在多个领域带来革新。

Agent Q融合了引导式蒙特卡洛树搜索（MCTS）、AI自我批评和直接偏好优化（DPO）等技术，使其能够通过迭代微调和基于人类反馈的强化学习进行自我改进。在OpenTable真实预订任务中，Agent Q将成功率从18.6%提升至95.4%，展现出其在复杂任务处理方面的强大能力。

Agent Q的主要功能:

引导式搜索: Agent Q利用MCTS算法来指导其在复杂环境中的探索和决策。通过模拟可能的行动路径，算法能够评估和选择最优的行动，平衡探索新信息和利用已知信息。
自我批评: AgentQ具备自我评估的能力，在每一步提供反馈，帮助细化决策过程。它使用基础的大型语言模型（LLM）对行动进行自我评估，提供中间反馈作为中间奖励来指导搜索步骤。
迭代微调: 通过直接偏好优化（DPO）算法，Agent Q能够从成功和不成功的轨迹中学习，不断优化其策略。DPO算法通过直接优化偏好对来微调模型，不依赖于传统的奖励信号。
多步推理任务: Agent Q能处理需要多步推理和决策的复杂任务，如在线预订和电子商务平台操作。
零样本学习: 即使在没有接受过特定任务训练的情况下，Agent Q也能展现出高成功率的零样本性能。

Agent Q的技术原理:

Agent Q的技术原理基于引导式蒙特卡洛树搜索（MCTS）、AI自我批评和直接偏好优化（DPO）三种核心技术。

引导式蒙特卡洛树搜索（MCTS）: Agent Q使用MCTS算法来指导代理在网页环境中的探索。通过模拟可能的行动路径，算法能够评估和选择最优的行动，从而平衡探索新信息和用已知信息。
AI自我批评: Agent Q在每个节点上生成可能的行动，并用基础的大型语言模型（LLM）对这些行动进行自我评估，提供中间的反馈作为中间奖励来指导搜索步骤。
直接偏好优化（DPO）: 一种离线强化学习方法，用于优化策略，使Agent Q能从成功的和不成功的轨迹中学习。DPO算法通过直接优化偏好对来微调模型，不依赖于传统的奖励信号。
策略迭代优化: Agent Q通过迭代微调，结合MCTS生成的数据和AI自我批评的反馈，构建偏好对，从而优化模型性能。

Agent Q的应用场景:

Agent Q的应用场景十分广泛，包括：

未来展望:

Agent Q的出现标志着AI在自主性和复杂决策能力上的重大突破，为AI应用打开了新的可能性。未来，Agent Q有望在更多领域发挥作用，为人类社会带来更多便利和效率。

相关链接:

免责声明: 本文内容仅供参考，不构成任何投资建议。

【source】https://ai-bot.cn/agent-q/