北京 – 在人工智能领域,大语言模型(LLM)正以前所未有的速度渗透到各个行业。近日,智谱AI推出了一款名为AndroidGen的创新框架,旨在增强大语言模型Agent在Android平台上的能力,尤其是在数据稀缺的情况下,为移动端自动化任务处理开辟了新的可能性。
AndroidGen的核心在于其无需人工标注的数据收集与训练机制。传统的Agent开发往往依赖大量人工标注数据,成本高昂且效率低下。而AndroidGen通过收集人类任务轨迹,并基于这些轨迹训练语言模型,实现了Agent的自主学习和进化。这意味着开发者可以摆脱对大规模标注数据的依赖,更快速地构建出高效的Agent。
四大核心模块,提升Agent任务执行能力
AndroidGen框架由四个核心模块组成,共同提升了LLM执行复杂任务的能力:
- ExpSearch(经验搜索): 通过检索已完成的类似轨迹,使LLM进行上下文学习,提升Agent的泛化能力,使其能够从简单任务迁移到复杂任务。
- ReflectPlan(反思计划): 对当前环境进行自我反思并更新计划状态,增强Agent的长期推理能力,使其能够更好地应对复杂多变的场景。
- AutoCheck(自动检查): 主动验证每个Agent操作的有效性,降低因操作失误导致任务失败的风险,确保任务的顺利完成。
- StepCritic(步骤评估): 将任务分解为多个子目标,并提供逐步轨迹评估,为模型优化提供细粒度标签,帮助开发者更精准地改进Agent的性能。
技术原理:LoRA微调与混合规划执行
AndroidGen的技术原理主要体现在模型训练和数据收集流程上。在模型训练方面,该框架采用LoRA(Low-Rank Adaptation)技术,针对自动构建的数据集对GLM-4-9B和Llama-3-70B等大型语言模型进行微调,从而得到Android Agent模型。这种微调方式无需人工标注轨迹,而是将轨迹中的每一步作为独立样本进行训练,充分利用了数据集中的信息。
此外,AndroidGen还采用了混合规划和执行步骤的方法进行微调,使LLM能够同时具备规划和执行的能力,从而更好地完成复杂任务。
在数据收集流程方面,AndroidGen首先基于GPT-4o根据AndroidWorld中的指令生成约300条任务指令,然后基于AndroidWorld和GPT-4o对每个任务的轨迹进行采样。接着,框架会记录每一步的环境和操作信息,构建可复现的Android导航轨迹,并使用StepCritic对记录的轨迹进行评估,确保每个子目标都已完成。最后,通过扩充高质量数据集,构建一个包含1000多个轨迹的数据集。
性能卓越,超越同类产品
在AndroidWorld基准测试中,AndroidGen显著提升了相同基础模型Agent的能力,与M3A和SeeAct相比,性能提升更为显著。AndroidGen + GPT-4o的平均得分达到了46.8,远超其他组合。更令人惊喜的是,模型参数更小且开源的GLM-4-9B + AndroidGen的平均得分,甚至超过了模型参数更大且闭源的GPT-4o + M3A。
此外,在AitW(Android in the Wild)和八款全球流行的移动应用程序(如Google Maps、YouTube等)的评测中,AndroidGen也表现出色,展现了其在真实设备环境中对自然语言指令的理解和交互能力。
应用场景广泛,前景可期
AndroidGen的应用场景十分广泛,包括:
- 自动化任务处理: 通过自然语言指令,Agent可以自动完成如发送邮件、设置提醒、查询信息等任务,极大地提升了工作效率。
- 跨应用操作: Agent能在不同应用之间进行交互,完成如从一个应用复制数据到另一个应用等操作,简化了用户的操作流程。
- 智能导航: 在Android设备上,Agent可以根据用户指令进行导航,例如打开特定的应用、查找文件等,为用户提供了更便捷的体验。
- 智能交互: 通过自然语言理解,Agent能与用户进行交互,提供更智能的用户体验,例如智能客服、智能助手等。
智谱AI的AndroidGen框架的推出,无疑为大语言模型Agent在移动端的发展注入了新的活力。随着技术的不断成熟和应用场景的不断拓展,我们有理由相信,AndroidGen将在未来的移动互联网领域发挥越来越重要的作用。
参考文献:
- 智谱AI官方网站:[插入智谱AI官方网站链接]
- AndroidGen相关论文:[插入相关论文链接,如果已发表]
- AndroidWorld数据集:[插入AndroidWorld数据集链接,如果公开]
(完)
Views: 0