Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

上海的陆家嘴
0

通用工具智能体的“试金石”:GTA基准测试横空出世

引言:

人工智能(AI)正以前所未有的速度改变着世界,而通用工具智能体(General Tool Agents)被认为是AI发展的重要方向之一。这类智能体能够理解人类指令,并调用各种工具来完成复杂的任务,例如搜索信息、生成文本、操控物理设备等。然而,如何评估这些智能体的能力一直是AI领域面临的挑战。近日,上海交通大学和上海AI实验室联合推出的GTA基准测试,为通用工具智能体的评估提供了一个全新的标准。

GTA:评估通用工具智能体的基准测试

GTA(a benchmark for General Tool Agents)是一个全面、细粒度的评估框架,旨在评估大型语言模型(LLMs)在真实世界场景中调用工具的能力。它包含229个人类设计的问题,涵盖感知、操作、逻辑和创造力等多个类别,要求模型推理合适的工具,规划操作步骤,最终解决现实世界中的复杂任务。

GTA的主要特点:

  • 真实用户查询: GTA包含229个人类编写的问题,问题具有简单的现实世界目标,但解决步骤和所需工具是隐含的,要求LLM基于推理选择合适的工具、规划操作步骤。
  • 真实部署的工具: GTA提供一个评估平台,部署涵盖感知、操作、逻辑和创造力四大类别的14种工具,评估代理的实际任务执行性能。
  • 多模态输入输出: GTA引入空间场景、网页截图、表格、代码片段、手写/打印材料等多模态输入,要求模型处理丰富的上下文信息,给出文本或图像输出。
  • 细粒度评估: GTA设计细粒度的评估指标,包括指令遵循准确率(InstAcc)、工具选择准确率(ToolAcc)、参数预测准确率(ArgAcc)和答案总结准确率(SummAcc),及最终答案准确率(AnsAcc)。
  • 模型评测: GTA在逐步模式(step-by-step mode)和端到端模式(end-to-end mode)下评估语言模型,提供对模型工具使用能力的全面评估。

GTA的技术原理:

GTA的构建基于以下技术原理:

  • 数据集构建: 问题由专家设计样例和标注文档,由标注人员基于样例设计更多的问题。工具链由标注人员手动调用部署好的工具构建,确保每个问题都能用提供的工具解决。
  • 工具调用: GTA用ReAct风格的提示模板,让LLM用特定的格式调用工具,处理工具返回的结果。模板支持LLM进行推理和规划,决定何时及如何调用工具。
  • 多模态处理: GTA要求LLM处理和理解多模态输入,包括图像、文本等,要求模型具备跨模态的理解和推理能力。
  • 细粒度评估指标: GTA设计的评估指标覆盖工具调用的整个过程,从LLM的工具调用过程到执行结果,提供对模型性能的全面评估。
  • 模型比较: 基于比较不同模型在GTA上的表现,揭示现有模型在处理真实世界问题时面临的工具使用瓶颈,为未来的通用工具智能体提供改进方向。

GTA的应用场景:

GTA的推出将为通用工具智能体的研究和应用带来重大影响,其应用场景包括:

  • 智能助理开发: GTA评估和训练智能助理,让其更好地理解和执行复杂的用户请求,涉及多步骤和多种工具的调用。
  • 多模态交互:在需要处理图像、文本和其他多媒体内容的场景中,GTA帮助模型学习如何结合多种输入类型解决问题。
  • 自动化客户服务: GTA用在开发自动解决客户问题的系统,系统需要调用不同的工具和资源提供准确的答案和解决方案。
  • 教育和培训: GTA作为教育工具,帮助学生理解如何设计和实现复杂的任务,任务需要多步骤推理和工具使用。
  • 研究和开发: 研究人员用GTA测试和比较不同的LLMs,探索工具使用能力的新方法,推动AI技术的发展。

结论:

GTA基准测试的出现,为通用工具智能体的评估提供了新的标准,将推动该领域的研究和发展。未来,随着AI技术的不断进步,GTA将不断完善和扩展,为构建更加智能、高效的通用工具智能体提供更强大的支持。

参考文献:


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注