上海AI Lab联合交大发布通用工具智能体评估基准

通用工具智能体的“试金石”：GTA基准测试横空出世

引言：

人工智能（AI）正以前所未有的速度改变着世界，而通用工具智能体（General Tool Agents）被认为是AI发展的重要方向之一。这类智能体能够理解人类指令，并调用各种工具来完成复杂的任务，例如搜索信息、生成文本、操控物理设备等。然而，如何评估这些智能体的能力一直是AI领域面临的挑战。近日，上海交通大学和上海AI实验室联合推出的GTA基准测试，为通用工具智能体的评估提供了一个全新的标准。

GTA：评估通用工具智能体的基准测试

GTA（a benchmark for General Tool Agents）是一个全面、细粒度的评估框架，旨在评估大型语言模型（LLMs）在真实世界场景中调用工具的能力。它包含229个人类设计的问题，涵盖感知、操作、逻辑和创造力等多个类别，要求模型推理合适的工具，规划操作步骤，最终解决现实世界中的复杂任务。

GTA的主要特点：

真实用户查询： GTA包含229个人类编写的问题，问题具有简单的现实世界目标，但解决步骤和所需工具是隐含的，要求LLM基于推理选择合适的工具、规划操作步骤。
真实部署的工具： GTA提供一个评估平台，部署涵盖感知、操作、逻辑和创造力四大类别的14种工具，评估代理的实际任务执行性能。
多模态输入输出： GTA引入空间场景、网页截图、表格、代码片段、手写/打印材料等多模态输入，要求模型处理丰富的上下文信息，给出文本或图像输出。
细粒度评估： GTA设计细粒度的评估指标，包括指令遵循准确率（InstAcc）、工具选择准确率（ToolAcc）、参数预测准确率（ArgAcc）和答案总结准确率（SummAcc），及最终答案准确率（AnsAcc）。
模型评测： GTA在逐步模式（step-by-step mode）和端到端模式（end-to-end mode）下评估语言模型，提供对模型工具使用能力的全面评估。

GTA的技术原理：

GTA的构建基于以下技术原理：

数据集构建： 问题由专家设计样例和标注文档，由标注人员基于样例设计更多的问题。工具链由标注人员手动调用部署好的工具构建，确保每个问题都能用提供的工具解决。
工具调用： GTA用ReAct风格的提示模板，让LLM用特定的格式调用工具，处理工具返回的结果。模板支持LLM进行推理和规划，决定何时及如何调用工具。
多模态处理： GTA要求LLM处理和理解多模态输入，包括图像、文本等，要求模型具备跨模态的理解和推理能力。
细粒度评估指标： GTA设计的评估指标覆盖工具调用的整个过程，从LLM的工具调用过程到执行结果，提供对模型性能的全面评估。
模型比较： 基于比较不同模型在GTA上的表现，揭示现有模型在处理真实世界问题时面临的工具使用瓶颈，为未来的通用工具智能体提供改进方向。

GTA的应用场景：

GTA的推出将为通用工具智能体的研究和应用带来重大影响，其应用场景包括：

智能助理开发： GTA评估和训练智能助理，让其更好地理解和执行复杂的用户请求，涉及多步骤和多种工具的调用。
多模态交互：在需要处理图像、文本和其他多媒体内容的场景中，GTA帮助模型学习如何结合多种输入类型解决问题。
自动化客户服务： GTA用在开发自动解决客户问题的系统，系统需要调用不同的工具和资源提供准确的答案和解决方案。
教育和培训： GTA作为教育工具，帮助学生理解如何设计和实现复杂的任务，任务需要多步骤推理和工具使用。
研究和开发： 研究人员用GTA测试和比较不同的LLMs，探索工具使用能力的新方法，推动AI技术的发展。

结论：

GTA基准测试的出现，为通用工具智能体的评估提供了新的标准，将推动该领域的研究和发展。未来，随着AI技术的不断进步，GTA将不断完善和扩展，为构建更加智能、高效的通用工具智能体提供更强大的支持。

参考文献：

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

上海AI Lab联合交大发布通用工具智能体评估基准

作者智能小编

通用工具智能体的“试金石”：GTA基准测试横空出世

相关文章

Veo 2发布：视频创作，触手可及！

Zhipu GLM Unveils New Open-Source Model Claims World-Class Performance Launches “z.ai

智谱GLM模型升级，比肩世界先进！

发表回复取消回复

为您推荐

Veo 2发布：视频创作，触手可及！

Zhipu GLM Unveils New Open-Source Model Claims World-Class Performance Launches “z.ai

智谱GLM模型升级，比肩世界先进！

OpenAI深夜重磅：GPT-4.1支持百万Token编程！

作者智能小编

通用工具智能体的“试金石”：GTA基准测试横空出世

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复