上海AI Lab联合交大推出通用工具智能体评估基准

通用工具智能体的新纪元：GTA 基准测试的诞生

引言

人工智能正以前所未有的速度发展，大型语言模型（LLMs）在文本生成、翻译、问答等领域展现出惊人的能力。然而，如何评估LLMs在真实世界场景中调用工具的能力，一直是研究者面临的挑战。近期，上海交通大学和上海AI实验室联合推出的 GTA（a benchmark for General Tool Agents） 基准测试，为解决这一问题提供了新的思路。

深入研究

GTA 基准测试旨在评估LLMs在真实世界场景中调用工具的能力，其核心在于构建一个全面、细粒度的评估框架，有效衡量LLMs在复杂场景下的工具使用能力。

GTA 的主要特点：

真实用户查询： GTA 包含 229 个人类编写的问题，这些问题具有简单的现实世界目标，但解决步骤和所需工具是隐含的，要求LLM基于推理选择合适的工具、规划操作步骤。
真实部署的工具： GTA 提供一个评估平台，部署涵盖感知、操作、逻辑和创造力四大类别的 14 种工具，评估代理的实际任务执行性能。
多模态输入输出： GTA 引入空间场景、网页截图、表格、代码片段、手写/打印材料等多模态输入，要求模型处理丰富的上下文信息，给出文本或图像输出。
细粒度评估： GTA 设计细粒度的评估指标，包括指令遵循准确率（InstAcc）、工具选择准确率（ToolAcc）、参数预测准确率（ArgAcc）和答案总结准确率（SummAcc），及最终答案准确率（AnsAcc）。
模型评测： GTA 在逐步模式（step-by-step mode）和端到端模式（end-to-end mode）下评估语言模型，提供对模型工具使用能力的全面评估。

GTA 的技术原理：

数据集构建： GTA 的数据集构建包括问题构建和工具链构建两个步骤。问题由专家设计样例和标注文档，由标注人员基于样例设计更多的问题。工具链由标注人员手动调用部署好的工具构建，确保每个问题都能用提供的工具解决。
工具调用： GTA 用 ReAct 风格的提示模板，让LLM用特定的格式调用工具，处理工具返回的结果。模板支持LLM进行推理和规划，决定何时及如何调用工具。
多模态处理： GTA 要求LLM处理和理解多模态输入，包括图像、文本等，要求模型具备跨模态的理解和推理能力。
细粒度评估指标： GTA 设计的评估指标覆盖工具调用的整个过程，从LLM的工具调用过程到执行结果，提供对模型性能的全面评估。
模型比较： 基于比较不同模型在 GTA 上的表现，揭示现有模型在处理真实世界问题时面临的工具使用瓶颈，为未来的通用工具智能体提供改进方向。

GTA 的应用场景：