Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

90年代的黄河路
0

清华北大联手打造AndroidLab:智能代理评估新标杆

引言

随着人工智能技术的飞速发展,智能代理在移动设备上的应用越来越广泛。然而,缺乏统一的评估标准和框架,导致智能代理的性能难以客观衡量,阻碍了其进一步发展。为了解决这一问题,清华大学和北京大学联合推出了AndroidLab,一个系统化的评估框架,为Android智能代理的研发和应用提供了新的标准。

AndroidLab:系统化评估Android智能代理的框架

AndroidLab是一个用在训练和系统评估Android自主代理的框架,它集成文本和图像模态操作环境,统一行动空间和可重现基准测试。该框架支持大型语言模型(LLMs)和多模态模型(LMMs),包含138个任务,覆盖九个应用,包括操作任务和查询任务,涉及真实世界的复杂交互场景。

AndroidLab的主要功能

  • 多模态操作环境:AndroidLab提供标准化的多模态操作环境,支持LLMs和LMMs在相同的操作空间内进行交互。
  • 基准测试:AndroidLab设计了一个包含138项任务的基准测试,覆盖九个常见应用,包括操作任务和查询任务,涉及真实世界的复杂交互场景。
  • 评估指标:AndroidLab引入了任务完成率(SR)、子目标成功率(Sub-SR)、反向冗余率(RRR)和合理操作比率(ROR)等评估指标,精准评估代理的任务表现。
  • 数据集构建:AndroidLab创建了Android Instruct数据集,结合自动化探索与人工标注,生成高质量的操作数据,提升开源模型在任务完成率和操作效率上的表现。
  • 模型训练与优化:AndroidLab支持对开源和闭源模型进行训练和优化,基于指令调优显著缩小开源与闭源模型之间的性能差距。

AndroidLab的技术原理

AndroidLab采用两种操作模式:XML模式和SoM模式,分别针对文本输入的LLMs和LMMs。它还采用了ReAct和SeeAct框架,实现推理和操作的有效结合。为了确保结果准确性和操作的高效性,AndroidLab设计了多个子目标,并用XML树结构匹配来验证每个子目标的完成情况。此外,AndroidLab还提供了一个基于任务完成的评估系统,直接从设备和屏幕状态判断,提供全面和精确的代理性能评估。

AndroidLab的应用场景

AndroidLab在多个领域具有广泛的应用场景,包括:

  • 自动化测试:模拟用户操作检测应用的功能和性能。
  • 智能助理开发:开发理解和执行复杂用户指令的智能助理,如语音助手和聊天机器人。
  • 人机交互研究:研究和改进人机交互方式,特别是在移动设备上,如何让机器更好地理解和响应人类指令。
  • 人工智能研究:提供一个实验平台,研究和开发大型语言模型(LLMs)和多模态模型(LMMs)在实际应用中的表现。
  • 教育和培训:作为教育工具,帮助学生和研究人员理解Android操作系统的工作原理和应用开发。

结论

AndroidLab的推出为Android智能代理的评估提供了新的标准,将推动智能代理领域的发展。它不仅能够帮助开发者评估智能代理的性能,还能促进开源解决方案的发展,缩小开源与闭源模型之间的性能差距。未来,AndroidLab有望成为智能代理领域的重要评估工具,为智能代理的应用提供更可靠的保障。

参考文献


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注