清华北大联手打造AndroidLab:智能代理评估新标杆
引言
随着人工智能技术的飞速发展,智能代理在移动设备上的应用越来越广泛。然而,缺乏统一的评估标准和框架,导致智能代理的性能难以客观衡量,阻碍了其进一步发展。为了解决这一问题,清华大学和北京大学联合推出了AndroidLab,一个系统化的评估框架,为Android智能代理的研发和应用提供了新的标准。
AndroidLab:系统化评估Android智能代理的框架
AndroidLab是一个用在训练和系统评估Android自主代理的框架,它集成文本和图像模态操作环境,统一行动空间和可重现基准测试。该框架支持大型语言模型(LLMs)和多模态模型(LMMs),包含138个任务,覆盖九个应用,包括操作任务和查询任务,涉及真实世界的复杂交互场景。
AndroidLab的主要功能
- 多模态操作环境:AndroidLab提供标准化的多模态操作环境,支持LLMs和LMMs在相同的操作空间内进行交互。
- 基准测试:AndroidLab设计了一个包含138项任务的基准测试,覆盖九个常见应用,包括操作任务和查询任务,涉及真实世界的复杂交互场景。
- 评估指标:AndroidLab引入了任务完成率(SR)、子目标成功率(Sub-SR)、反向冗余率(RRR)和合理操作比率(ROR)等评估指标,精准评估代理的任务表现。
- 数据集构建:AndroidLab创建了Android Instruct数据集,结合自动化探索与人工标注,生成高质量的操作数据,提升开源模型在任务完成率和操作效率上的表现。
- 模型训练与优化:AndroidLab支持对开源和闭源模型进行训练和优化,基于指令调优显著缩小开源与闭源模型之间的性能差距。
AndroidLab的技术原理
AndroidLab采用两种操作模式:XML模式和SoM模式,分别针对文本输入的LLMs和LMMs。它还采用了ReAct和SeeAct框架,实现推理和操作的有效结合。为了确保结果准确性和操作的高效性,AndroidLab设计了多个子目标,并用XML树结构匹配来验证每个子目标的完成情况。此外,AndroidLab还提供了一个基于任务完成的评估系统,直接从设备和屏幕状态判断,提供全面和精确的代理性能评估。
AndroidLab的应用场景
AndroidLab在多个领域具有广泛的应用场景,包括:
- 自动化测试:模拟用户操作检测应用的功能和性能。
- 智能助理开发:开发理解和执行复杂用户指令的智能助理,如语音助手和聊天机器人。
- 人机交互研究:研究和改进人机交互方式,特别是在移动设备上,如何让机器更好地理解和响应人类指令。
- 人工智能研究:提供一个实验平台,研究和开发大型语言模型(LLMs)和多模态模型(LMMs)在实际应用中的表现。
- 教育和培训:作为教育工具,帮助学生和研究人员理解Android操作系统的工作原理和应用开发。
结论
AndroidLab的推出为Android智能代理的评估提供了新的标准,将推动智能代理领域的发展。它不仅能够帮助开发者评估智能代理的性能,还能促进开源解决方案的发展,缩小开源与闭源模型之间的性能差距。未来,AndroidLab有望成为智能代理领域的重要评估工具,为智能代理的应用提供更可靠的保障。
参考文献
Views: 0