Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

上海的陆家嘴
0

北京 – 智谱 AI 近日发布了一款名为 AndroidGen 的创新框架,旨在显著提升基于大语言模型 (LLM) 的 Agent 在 Android 平台上的任务执行能力,尤其是在数据资源有限的情况下。该框架通过收集人类任务轨迹,并以此训练语言模型,从而开发出无需人工标注的 Agent,极大地增强了 LLM 执行复杂任务的效率和可靠性。

AndroidGen 的核心功能与优势

AndroidGen 的核心在于其无需人工标注的数据收集与训练机制。传统 Agent 开发往往依赖大量人工标注数据,成本高昂且效率低下。AndroidGen 则通过一套巧妙的流程,自动收集人类在 Android 设备上的操作轨迹,并利用这些轨迹训练语言模型,从而实现 Agent 的自主学习和能力提升。

该框架包含四个关键模块,共同驱动 Agent 完成复杂任务:

  • ExpSearch (经验搜索): 通过检索已完成的类似任务轨迹,为 LLM 提供上下文学习的素材,使其能够从简单任务中汲取经验,并泛化到更复杂的场景中。
  • ReflectPlan (反思计划): 使 Agent 能够对当前环境进行自我反思,并根据实际情况更新任务计划,从而增强其长期推理能力和适应性。
  • AutoCheck (自动检查): 主动验证 Agent 每一步操作的有效性,降低因操作失误导致任务失败的风险,确保任务执行的准确性。
  • StepCritic (步骤评估): 将复杂任务分解为多个子目标,并对 Agent 的每一步操作进行评估,为模型优化提供细粒度标签,从而实现更精准的训练。

此外,AndroidGen 还构建了一个高效的数据收集管道,能够生成大量高质量的 Android 浏览轨迹,为 Agent 的训练提供充足的“燃料”。

技术原理:LoRA 微调与混合规划执行

AndroidGen 的技术核心在于利用 LoRA (Low-Rank Adaptation) 技术,对 GLM-4-9B 和 Llama-3-70B 等大型语言模型进行微调,从而得到定制化的 Android Agent 模型。与传统的全参数微调相比,LoRA 能够显著降低计算成本,并提高训练效率。

值得一提的是,AndroidGen 采用了一种混合规划和执行的训练方法,使 LLM 能够同时具备规划和执行能力。这种方法将任务中的每一步操作都视为独立的训练样本,充分利用了数据集中的信息,从而提升了 Agent 的整体性能。

数据收集流程:GPT-4o 指令生成与轨迹评估

AndroidGen 的数据收集流程主要包括以下几个步骤:

  1. 任务制定: 基于 GPT-4o 模型,根据 AndroidWorld 中的指令生成约 300 条任务指令,确保任务的多样性和覆盖性。
  2. Agent 采样: 基于 AndroidWorld 和 GPT-4o,对每个任务的轨迹进行采样,模拟人类用户的操作行为。
  3. 轨迹记录: 记录每一步的环境和操作信息,构建可复现的 Android 导航轨迹,为后续训练提供数据基础。
  4. 轨迹评估: 使用 StepCritic 对记录的轨迹进行评估,确保每个子目标都已完成,筛选出高质量的训练数据。
  5. 轨迹增强: 扩充高质量数据集,最终构建一个包含 1000 多个轨迹的数据集,为模型训练提供充足的资源。

性能表现:超越现有方案

在 AndroidWorld 基准测试中,AndroidGen 显著提升了相同基础模型 Agent 的能力,与 M3A 和 SeeAct 等现有方案相比,性能提升更为显著。例如,AndroidGen + GPT-4o 的平均得分达到了 46.8,远超其他组合。更令人瞩目的是,模型参数更小且开源的 GLM-4-9B + AndroidGen 的平均得分,甚至超过了模型参数更大且闭源的 GPT-4o + M3A。

此外,在 AitW (Android in the Wild) 和八款全球流行的移动应用程序(如 Google Maps、YouTube 等)的评测中,AndroidGen 也表现出色,展现了其在真实设备环境中对自然语言指令的理解和交互能力。

应用场景:自动化、跨应用与智能交互

AndroidGen 的应用场景十分广泛,可以应用于以下几个方面:

  • 自动化任务处理: 通过自然语言指令,Agent 可以自动完成如发送邮件、设置提醒、查询信息等任务,提高工作效率。
  • 跨应用操作: Agent 能够在不同应用之间进行交互,完成如从一个应用复制数据到另一个应用等操作,实现更流畅的用户体验。
  • 智能导航: 在 Android 设备上,Agent 可以根据用户指令进行导航,例如打开特定的应用、查找文件等,简化操作流程。
  • 智能交互: 通过自然语言理解,Agent 能够与用户进行交互,提供更智能的用户体验,例如语音助手、智能客服等。

未来展望

AndroidGen 的发布,标志着智谱 AI 在大语言模型 Agent 领域迈出了重要一步。该框架不仅能够显著提升 Agent 的任务执行能力,还能够降低开发成本,加速 Agent 的普及应用。随着技术的不断发展,我们有理由相信,AndroidGen 将在未来的智能化应用中发挥越来越重要的作用。

参考文献

  • 智谱 AI 官方博客: https://www.zhipuai.com/
  • AndroidWorld 基准测试: (假设存在,请替换为实际链接)
  • LoRA 技术论文: (假设存在,请替换为实际链接)

关键词: 智谱 AI, AndroidGen, 大语言模型, Agent, 自动化, 人工智能, LLM, LoRA, AndroidWorld, GPT-4o, GLM-4-9B, Llama-3-70B


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注