智谱发布AndroidGen，赋能大模型Agent！

北京 – 智谱 AI 近日发布了一款名为 AndroidGen 的创新框架，旨在显著提升基于大语言模型 (LLM) 的 Agent 在 Android 平台上的任务执行能力，尤其是在数据资源有限的情况下。该框架通过收集人类任务轨迹，并以此训练语言模型，从而开发出无需人工标注的 Agent，极大地增强了 LLM 执行复杂任务的效率和可靠性。

AndroidGen 的核心功能与优势

AndroidGen 的核心在于其无需人工标注的数据收集与训练机制。传统 Agent 开发往往依赖大量人工标注数据，成本高昂且效率低下。AndroidGen 则通过一套巧妙的流程，自动收集人类在 Android 设备上的操作轨迹，并利用这些轨迹训练语言模型，从而实现 Agent 的自主学习和能力提升。

该框架包含四个关键模块，共同驱动 Agent 完成复杂任务：

ExpSearch (经验搜索): 通过检索已完成的类似任务轨迹，为 LLM 提供上下文学习的素材，使其能够从简单任务中汲取经验，并泛化到更复杂的场景中。
ReflectPlan (反思计划): 使 Agent 能够对当前环境进行自我反思，并根据实际情况更新任务计划，从而增强其长期推理能力和适应性。
AutoCheck (自动检查): 主动验证 Agent 每一步操作的有效性，降低因操作失误导致任务失败的风险，确保任务执行的准确性。
StepCritic (步骤评估): 将复杂任务分解为多个子目标，并对 Agent 的每一步操作进行评估，为模型优化提供细粒度标签，从而实现更精准的训练。

此外，AndroidGen 还构建了一个高效的数据收集管道，能够生成大量高质量的 Android 浏览轨迹，为 Agent 的训练提供充足的“燃料”。

技术原理：LoRA 微调与混合规划执行

AndroidGen 的技术核心在于利用 LoRA (Low-Rank Adaptation) 技术，对 GLM-4-9B 和 Llama-3-70B 等大型语言模型进行微调，从而得到定制化的 Android Agent 模型。与传统的全参数微调相比，LoRA 能够显著降低计算成本，并提高训练效率。

值得一提的是，AndroidGen 采用了一种混合规划和执行的训练方法，使 LLM 能够同时具备规划和执行能力。这种方法将任务中的每一步操作都视为独立的训练样本，充分利用了数据集中的信息，从而提升了 Agent 的整体性能。

数据收集流程：GPT-4o 指令生成与轨迹评估

AndroidGen 的数据收集流程主要包括以下几个步骤：

任务制定： 基于 GPT-4o 模型，根据 AndroidWorld 中的指令生成约 300 条任务指令，确保任务的多样性和覆盖性。
Agent 采样： 基于 AndroidWorld 和 GPT-4o，对每个任务的轨迹进行采样，模拟人类用户的操作行为。
轨迹记录： 记录每一步的环境和操作信息，构建可复现的 Android 导航轨迹，为后续训练提供数据基础。
轨迹评估： 使用 StepCritic 对记录的轨迹进行评估，确保每个子目标都已完成，筛选出高质量的训练数据。
轨迹增强： 扩充高质量数据集，最终构建一个包含 1000 多个轨迹的数据集，为模型训练提供充足的资源。

性能表现：超越现有方案

在 AndroidWorld 基准测试中，AndroidGen 显著提升了相同基础模型 Agent 的能力，与 M3A 和 SeeAct 等现有方案相比，性能提升更为显著。例如，AndroidGen + GPT-4o 的平均得分达到了 46.8，远超其他组合。更令人瞩目的是，模型参数更小且开源的 GLM-4-9B + AndroidGen 的平均得分，甚至超过了模型参数更大且闭源的 GPT-4o + M3A。

此外，在 AitW (Android in the Wild) 和八款全球流行的移动应用程序（如 Google Maps、YouTube 等）的评测中，AndroidGen 也表现出色，展现了其在真实设备环境中对自然语言指令的理解和交互能力。

应用场景：自动化、跨应用与智能交互

AndroidGen 的应用场景十分广泛，可以应用于以下几个方面：

自动化任务处理： 通过自然语言指令，Agent 可以自动完成如发送邮件、设置提醒、查询信息等任务，提高工作效率。
跨应用操作： Agent 能够在不同应用之间进行交互，完成如从一个应用复制数据到另一个应用等操作，实现更流畅的用户体验。
智能导航： 在 Android 设备上，Agent 可以根据用户指令进行导航，例如打开特定的应用、查找文件等，简化操作流程。
智能交互： 通过自然语言理解，Agent 能够与用户进行交互，提供更智能的用户体验，例如语音助手、智能客服等。

未来展望

AndroidGen 的发布，标志着智谱 AI 在大语言模型 Agent 领域迈出了重要一步。该框架不仅能够显著提升 Agent 的任务执行能力，还能够降低开发成本，加速 Agent 的普及应用。随着技术的不断发展，我们有理由相信，AndroidGen 将在未来的智能化应用中发挥越来越重要的作用。

参考文献

智谱 AI 官方博客: https://www.zhipuai.com/
AndroidWorld 基准测试: (假设存在，请替换为实际链接)
LoRA 技术论文: (假设存在，请替换为实际链接)

关键词： 智谱 AI, AndroidGen, 大语言模型, Agent, 自动化, 人工智能, LLM, LoRA, AndroidWorld, GPT-4o, GLM-4-9B, Llama-3-70B

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

智谱发布AndroidGen，赋能大模型Agent！

作者智能小编

相关文章

Cloudflare发布AutoRAG：全托管检索增强生成服务

Cloudflare Workflows：持久化执行，生产就绪！

Agent技术揭秘：MCP、认证、授权与免费持久对象

发表回复取消回复

为您推荐