Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

上海的陆家嘴
0

卷起来!让智能体评估智能体,Meta 发布 Agent-as-a-Judge

人工智能数字化转型 | 汽车科技 | 交叉前沿

2024 年 10 月 18 日 – 如果说去年大厂的竞争焦点是 LLM,那么今年,各大科技公司纷纷推出了各自的智能体应用。微软发布了 Copilot,Apple 将 Apple Intelligence 接入了 OpenAI 以增强 Siri。多智能体也是 OpenAI 未来重要的研究方向之一,这家公司的最新成果 ——Swarm,一个实验性质的多智能体编排框架在开源后引起了热烈讨论,有网友表示这能帮助简化许多潜在多智能体用例的工作流程。扎克伯格更是断言:「AI 智能体的数量可能会达到数十亿,最终甚至超过人类。」在 Meta Connect 2024 大会上,Meta 推出了接入 Llama 3.2 的智能眼镜 Orion 和升级版 Quest 3S,显示出智能体正在迅速渗透进 Meta 的各个应用领域。

近日,Meta 提出了 Agent-as-a-Judge 的概念,被视为智能体优化方面的又一重要成果。传统的智能体评估方式往往只关注最终结果,忽略了执行过程中的关键细节,或依赖大量人力进行评估。为了解决这一痛点,Meta 推出了用智能体评估智能体的新方法,使评估过程更加灵活且自动化。该框架在 LLM-as-a-Judge 的基础上进行了升级,增加了中间反馈功能,确保任务的每个环节都能得到精准评估与优化,同时还能有效模拟并接近人类反馈。

论文标题:Agent-as-a-Judge: Evaluate Agents with Agents

论文地址:https://arxiv.org/pdf/2410.10934

项目地址:https://github.com/metauto-ai/agent-as-a-judge

Agent-as-a-Judge:智能体评估智能体

Agent-as-a-Judge 框架最大的亮点在于其与人类评估者的高度一致性。在实验中,该框架的评估结果与人类专家的对齐率高达 90.44%,远超 LLM-as-a-Judge 的 70.76%。这一结果表明,智能体在处理复杂任务时,能够像人类一样精确地判断并修复问题,极大地减少了对人工评估的依赖,同时显著提高了效率。

显著的效率提升。 实验表明,Agent-as-a-Judge 在效率上也具有明显优势。与人类评估者耗费 86.5 小时相比,Agent-as-a-Judge 仅需 118.43 分钟就能完成相同任务,大幅节省了时间和成本。评估 55 个任务的总成本仅为 30.58 美元,平均每个任务的评估费用仅为 0.55 美元,显示了极高的性价比和工作效率。

填补评估中的反馈空白。 当前,智能体评估方法普遍缺乏中间反馈机制,只关注最终结果,忽视了任务执行中的关键步骤。智能体在解决复杂问题时,通常像人类一样,逐步思考并解决问题。因此,评估不仅应该关注结果,还需考察每个步骤的思维过程和行为轨迹。Agent-as-a-Judge 通过提供中间反馈,填补了这一空白,标志着智能体评估进入了一个新的阶段。

数据集挑战与系统表现。 实验还揭示,即使是表现较好的智能体系统(如 GPT-Pilot 和 OpenHands)也仅能满足 DevAI 数据集中约 29% 的任务需求,任务完成率有限,凸显了该数据集的挑战性。在与人类专家评估的对比中,Agent-as-a-Judge 表现出色,达到了 90% 的对齐率,而 LLM-as-a-Judge 仅为 70%。更值得注意的是,Agent-as-a-Judge 的表现甚至优于单个专家评估者,意味着在某些情况下,该框架不仅能够替代人类评估,还可能更加有效。

高性价比与潜力。 通过节省 97.72% 的时间和 97.64% 的成本,Agent-as-a-Judge 展示了其在智能体评估领域巨大的潜力。该框架不仅能够提高评估效率,还能提供更精准的评估结果,为智能体的发展提供更可靠的反馈机制。

未来展望

Agent-as-a-Judge 的出现标志着智能体评估领域迈入了一个新的阶段。随着技术的不断发展,该框架有望在以下方面取得突破:

  • 更复杂的评估任务: 未来,Agent-as-a-Judge 将能够评估更复杂的任务,例如多智能体协作、开放环境中的决策等。
  • 更精准的评估结果: 通过引入更先进的算法和模型,Agent-as-a-Judge 将能够提供更精准的评估结果,更有效地指导智能体的发展。
  • 更广泛的应用场景: Agent-as-a-Judge 有望应用于更多领域,例如自动驾驶、医疗诊断、金融投资等,推动人工智能技术的快速发展。

结论

Agent-as-a-Judge 的出现为智能体评估领域带来了新的思路和方法。该框架不仅能够提高评估效率,还能提供更精准的评估结果,为智能体的发展提供更可靠的反馈机制。相信随着技术的不断发展,Agent-as-a-Judge 将在未来发挥更大的作用,推动人工智能技术的快速发展。

参考文献

作者:机器之心

编辑:机器之心

联系方式:liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注