Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

北京 – 在人工智能领域,大语言模型(LLM)正以前所未有的速度渗透到各个行业。近日,智谱AI推出了一款名为AndroidGen的创新框架,旨在增强大语言模型Agent在Android平台上的能力,尤其是在数据稀缺的情况下,为移动端自动化任务处理开辟了新的可能性。

AndroidGen的核心在于其无需人工标注的数据收集与训练机制。传统的Agent开发往往依赖大量人工标注数据,成本高昂且效率低下。而AndroidGen通过收集人类任务轨迹,并基于这些轨迹训练语言模型,实现了Agent的自主学习和进化。这意味着开发者可以摆脱对大规模标注数据的依赖,更快速地构建出高效的Agent。

四大核心模块,提升Agent任务执行能力

AndroidGen框架由四个核心模块组成,共同提升了LLM执行复杂任务的能力:

  • ExpSearch(经验搜索): 通过检索已完成的类似轨迹,使LLM进行上下文学习,提升Agent的泛化能力,使其能够从简单任务迁移到复杂任务。
  • ReflectPlan(反思计划): 对当前环境进行自我反思并更新计划状态,增强Agent的长期推理能力,使其能够更好地应对复杂多变的场景。
  • AutoCheck(自动检查): 主动验证每个Agent操作的有效性,降低因操作失误导致任务失败的风险,确保任务的顺利完成。
  • StepCritic(步骤评估): 将任务分解为多个子目标,并提供逐步轨迹评估,为模型优化提供细粒度标签,帮助开发者更精准地改进Agent的性能。

技术原理:LoRA微调与混合规划执行

AndroidGen的技术原理主要体现在模型训练和数据收集流程上。在模型训练方面,该框架采用LoRA(Low-Rank Adaptation)技术,针对自动构建的数据集对GLM-4-9B和Llama-3-70B等大型语言模型进行微调,从而得到Android Agent模型。这种微调方式无需人工标注轨迹,而是将轨迹中的每一步作为独立样本进行训练,充分利用了数据集中的信息。

此外,AndroidGen还采用了混合规划和执行步骤的方法进行微调,使LLM能够同时具备规划和执行的能力,从而更好地完成复杂任务。

在数据收集流程方面,AndroidGen首先基于GPT-4o根据AndroidWorld中的指令生成约300条任务指令,然后基于AndroidWorld和GPT-4o对每个任务的轨迹进行采样。接着,框架会记录每一步的环境和操作信息,构建可复现的Android导航轨迹,并使用StepCritic对记录的轨迹进行评估,确保每个子目标都已完成。最后,通过扩充高质量数据集,构建一个包含1000多个轨迹的数据集。

性能卓越,超越同类产品

在AndroidWorld基准测试中,AndroidGen显著提升了相同基础模型Agent的能力,与M3A和SeeAct相比,性能提升更为显著。AndroidGen + GPT-4o的平均得分达到了46.8,远超其他组合。更令人惊喜的是,模型参数更小且开源的GLM-4-9B + AndroidGen的平均得分,甚至超过了模型参数更大且闭源的GPT-4o + M3A。

此外,在AitW(Android in the Wild)和八款全球流行的移动应用程序(如Google Maps、YouTube等)的评测中,AndroidGen也表现出色,展现了其在真实设备环境中对自然语言指令的理解和交互能力。

应用场景广泛,前景可期

AndroidGen的应用场景十分广泛,包括:

  • 自动化任务处理: 通过自然语言指令,Agent可以自动完成如发送邮件、设置提醒、查询信息等任务,极大地提升了工作效率。
  • 跨应用操作: Agent能在不同应用之间进行交互,完成如从一个应用复制数据到另一个应用等操作,简化了用户的操作流程。
  • 智能导航: 在Android设备上,Agent可以根据用户指令进行导航,例如打开特定的应用、查找文件等,为用户提供了更便捷的体验。
  • 智能交互: 通过自然语言理解,Agent能与用户进行交互,提供更智能的用户体验,例如智能客服、智能助手等。

智谱AI的AndroidGen框架的推出,无疑为大语言模型Agent在移动端的发展注入了新的活力。随着技术的不断成熟和应用场景的不断拓展,我们有理由相信,AndroidGen将在未来的移动互联网领域发挥越来越重要的作用。

参考文献:

  • 智谱AI官方网站:[插入智谱AI官方网站链接]
  • AndroidGen相关论文:[插入相关论文链接,如果已发表]
  • AndroidWorld数据集:[插入AndroidWorld数据集链接,如果公开]

(完)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注