北京 – 智谱 AI 近日发布了一款名为 AndroidGen 的创新框架,旨在显著提升基于大语言模型 (LLM) 的 Agent 在 Android 平台上的任务执行能力,尤其是在数据资源有限的情况下。该框架通过收集人类任务轨迹,并以此训练语言模型,从而开发出无需人工标注的 Agent,极大地增强了 LLM 执行复杂任务的效率和可靠性。
AndroidGen 的核心功能与优势
AndroidGen 的核心在于其无需人工标注的数据收集与训练机制。传统 Agent 开发往往依赖大量人工标注数据,成本高昂且效率低下。AndroidGen 则通过一套巧妙的流程,自动收集人类在 Android 设备上的操作轨迹,并利用这些轨迹训练语言模型,从而实现 Agent 的自主学习和能力提升。
该框架包含四个关键模块,共同驱动 Agent 完成复杂任务:
- ExpSearch (经验搜索): 通过检索已完成的类似任务轨迹,为 LLM 提供上下文学习的素材,使其能够从简单任务中汲取经验,并泛化到更复杂的场景中。
- ReflectPlan (反思计划): 使 Agent 能够对当前环境进行自我反思,并根据实际情况更新任务计划,从而增强其长期推理能力和适应性。
- AutoCheck (自动检查): 主动验证 Agent 每一步操作的有效性,降低因操作失误导致任务失败的风险,确保任务执行的准确性。
- StepCritic (步骤评估): 将复杂任务分解为多个子目标,并对 Agent 的每一步操作进行评估,为模型优化提供细粒度标签,从而实现更精准的训练。
此外,AndroidGen 还构建了一个高效的数据收集管道,能够生成大量高质量的 Android 浏览轨迹,为 Agent 的训练提供充足的“燃料”。
技术原理:LoRA 微调与混合规划执行
AndroidGen 的技术核心在于利用 LoRA (Low-Rank Adaptation) 技术,对 GLM-4-9B 和 Llama-3-70B 等大型语言模型进行微调,从而得到定制化的 Android Agent 模型。与传统的全参数微调相比,LoRA 能够显著降低计算成本,并提高训练效率。
值得一提的是,AndroidGen 采用了一种混合规划和执行的训练方法,使 LLM 能够同时具备规划和执行能力。这种方法将任务中的每一步操作都视为独立的训练样本,充分利用了数据集中的信息,从而提升了 Agent 的整体性能。
数据收集流程:GPT-4o 指令生成与轨迹评估
AndroidGen 的数据收集流程主要包括以下几个步骤:
- 任务制定: 基于 GPT-4o 模型,根据 AndroidWorld 中的指令生成约 300 条任务指令,确保任务的多样性和覆盖性。
- Agent 采样: 基于 AndroidWorld 和 GPT-4o,对每个任务的轨迹进行采样,模拟人类用户的操作行为。
- 轨迹记录: 记录每一步的环境和操作信息,构建可复现的 Android 导航轨迹,为后续训练提供数据基础。
- 轨迹评估: 使用 StepCritic 对记录的轨迹进行评估,确保每个子目标都已完成,筛选出高质量的训练数据。
- 轨迹增强: 扩充高质量数据集,最终构建一个包含 1000 多个轨迹的数据集,为模型训练提供充足的资源。
性能表现:超越现有方案
在 AndroidWorld 基准测试中,AndroidGen 显著提升了相同基础模型 Agent 的能力,与 M3A 和 SeeAct 等现有方案相比,性能提升更为显著。例如,AndroidGen + GPT-4o 的平均得分达到了 46.8,远超其他组合。更令人瞩目的是,模型参数更小且开源的 GLM-4-9B + AndroidGen 的平均得分,甚至超过了模型参数更大且闭源的 GPT-4o + M3A。
此外,在 AitW (Android in the Wild) 和八款全球流行的移动应用程序(如 Google Maps、YouTube 等)的评测中,AndroidGen 也表现出色,展现了其在真实设备环境中对自然语言指令的理解和交互能力。
应用场景:自动化、跨应用与智能交互
AndroidGen 的应用场景十分广泛,可以应用于以下几个方面:
- 自动化任务处理: 通过自然语言指令,Agent 可以自动完成如发送邮件、设置提醒、查询信息等任务,提高工作效率。
- 跨应用操作: Agent 能够在不同应用之间进行交互,完成如从一个应用复制数据到另一个应用等操作,实现更流畅的用户体验。
- 智能导航: 在 Android 设备上,Agent 可以根据用户指令进行导航,例如打开特定的应用、查找文件等,简化操作流程。
- 智能交互: 通过自然语言理解,Agent 能够与用户进行交互,提供更智能的用户体验,例如语音助手、智能客服等。
未来展望
AndroidGen 的发布,标志着智谱 AI 在大语言模型 Agent 领域迈出了重要一步。该框架不仅能够显著提升 Agent 的任务执行能力,还能够降低开发成本,加速 Agent 的普及应用。随着技术的不断发展,我们有理由相信,AndroidGen 将在未来的智能化应用中发挥越来越重要的作用。
参考文献
- 智谱 AI 官方博客: https://www.zhipuai.com/
- AndroidWorld 基准测试: (假设存在,请替换为实际链接)
- LoRA 技术论文: (假设存在,请替换为实际链接)
关键词: 智谱 AI, AndroidGen, 大语言模型, Agent, 自动化, 人工智能, LLM, LoRA, AndroidWorld, GPT-4o, GLM-4-9B, Llama-3-70B
Views: 0