Tsinghua and Peking University Collaborate on Framework for Evaluating Android Intelligent Agents

清华北大联手打造AndroidLab：系统评估Android智能代理的框架

北京，中国 – 清华大学和北京大学的研究团队近日联合发布了名为“AndroidLab”的框架，旨在为Android智能代理提供系统化的评估体系。该框架旨在解决当前Android智能代理评估方法的局限性，并推动该领域的发展。

AndroidLab提供了一个标准化的多模态操作环境，支持大型语言模型（LLMs）和多模态模型（LMMs）在相同的操作空间内进行交互。该框架包含一个包含138项任务的基准测试，涵盖九个常见应用，包括操作任务和查询任务，涉及真实世界的复杂交互场景。

AndroidLab的主要功能包括：

多模态操作环境： AndroidLab提供了一个标准化的多模态操作环境，支持LLMs和LMMs在相同的操作空间内进行交互。这使得研究人员能够在统一的平台上比较不同模型的性能。
基准测试： AndroidLab包含一个包含138项任务的基准测试，涵盖九个常见应用，包括操作任务和查询任务，涉及真实世界的复杂交互场景。这些任务涵盖了各种难度级别，能够全面评估代理的性能。
评估指标： AndroidLab引入了任务完成率（SR）、子目标成功率（Sub-SR）、反向冗余率（RRR）和合理操作比率（ROR）等评估指标，精准评估代理的任务表现。这些指标能够更全面地反映代理的实际能力。
数据集构建： AndroidLab创建了Android Instruct数据集，结合自动化探索与人工标注，生成高质量的操作数据，提升开源模型的成功率。该数据集能够帮助研究人员训练和评估更强大的Android智能代理。

AndroidLab的意义：

AndroidLab的发布为Android智能代理领域的研究提供了重要的工具和资源。该框架能够帮助研究人员：

AndroidLab的开源发布，标志着Android智能代理领域迈出了重要的一步。该框架的出现将促进该领域的研究和发展，并为未来智能代理的应用提供更多可能性。

参考文献：

作者： [你的名字]

联系方式： [你的邮箱地址]