智谱AI开源CogAgent-9B模型:GUI交互自动化迎来新突破

北京—— 11月29日,智谱AI正式宣布开源其基于GLM-4V-9B训练的专用Agent任务模型CogAgent-9B,这一举措被视为推动GUI(图形用户界面)交互自动化技术发展的重要一步。CogAgent-9B模型能够仅通过屏幕截图预测GUI操作,无需依赖HTML等文本表征,为大模型在人机交互领域的应用开辟了新的可能性。

技术突破:仅凭截图驱动GUI操作

CogAgent-9B的核心突破在于其强大的视觉理解和推理能力。该模型无需传统的文本信息辅助,仅以屏幕截图作为输入,即可根据用户指令和历史操作记录,预测下一步的GUI操作。这一特性使其能够广泛应用于各种基于GUI交互的场景,如个人电脑、手机、车载系统等,大大简化了自动化流程的开发和部署。

性能显著提升:多维度升级

相较于2023年12月开源的第一版CogAgent模型,CogAgent-9B在多个维度实现了显著提升:

  • GUI感知能力: 模型对GUI元素的识别和理解更加精准,能够更准确地捕捉屏幕上的信息。
  • 推理预测准确性: 基于更强大的视觉语言模型GLM-4V-9B,CogAgent-9B的预测准确率大幅提高,能够更可靠地执行用户指令。
  • 动作空间完善性: 模型支持的动作类型更加丰富,不仅包括基础的点击、输入等操作,还增加了启动应用、调用语言模型等高级动作,使其能够完成更复杂的任务。
  • 任务普适性和泛化性: CogAgent-9B在多种应用场景和任务中都表现出色,具备更强的适应性和通用性。
  • 双语支持: 模型支持中英文双语的屏幕截图和语言交互,进一步拓展了其应用范围。

技术细节:深入解析CogAgent-9B

CogAgent-9B的运行机制可以概括为以下几个步骤:

  1. 环境输入: 模型以GUI截图作为唯一环境输入,结合已完成的动作历史。
  2. 动作预测: 模型计算当前GUI截图中最合适的动作,并通过端侧应用注入GUI。
  3. GUI响应: GUI响应并更新图像内容,同时该动作被添加至动作历史。
  4. 循环迭代: 模型根据更新后的历史动作和截图,计算后续操作,直至指令执行完毕。

CogAgent-9B的输入仅包含用户的自然语言指令、已执行历史动作记录和GUI截图,无需任何文本形式表征的布局信息或附加元素标签。其输出则包括:

  • 思考过程: 模型显式输出理解GUI截图和决定下一步操作的思考过程,包括状态(Status)和计划(Plan)。
  • 下一步动作的自然语言描述: 动作描述以自然语言形式加入历史操作记录。
  • 下一步动作的结构化描述: 模型以类似函数调用的形式,结构化地描述下一步操作及其参数,便于端侧应用解析并执行。
  • 下一步动作的敏感性判断: 模型将动作分为“一般操作”和“敏感操作”两类,以确保操作的安全性。

模型升级:多重优化

CogAgent-9B的性能提升得益于多方面的模型升级:

  • 模型基座与结构升级: 采用了更强大的视觉语言模型GLM-4V-9B作为基座,显著提升了模型的图像理解性能。
  • 视觉处理模块优化: 实现了更高效、统一的视觉处理模块,支持1120*1120原生高分辨率图像输入,并通过带参数的下采样方法,提高了模型效率。
  • 数据集丰富与完善: 广泛收集并整合了多种数据集,包括无监督数据和GUI指令微调数据集,并通过CogAgent自我生成数据,进一步扩充和完善了数据集。
  • 预训练策略优化: 首次提出了GUI Grounding预训练,利用屏幕截图和布局对,构建界面子区域与布局表征的对应关系,从而构造GUI的REG和REC任务。
  • 后训练策略改进: 采用了更科学的后训练策略,分为GUI instruction tuning和GUI agent SFT两个难度递进的阶段,提升了模型GUI agent分析、推理、预测能力。
  • 模型推理及思维链优化: 将思维链分解为Status、Plan、Action、Operation,并根据交互情景、计算资源和准确率需求灵活调整和控制推理过程中的实际输出。
  • 动作空间完善: 明确了基础动作空间,并新增了LLM、QUOTE_TEXT、LAUNCH等高级动作,增强了模型的使用工具和交互能力。

评测结果:性能领先

在多个数据集的测试中,CogAgent-9B-20241220的性能均优于其他类似模型,包括基于API的商业模型(如GPT-4o、Claude-3.5)和开源GUI Agent模型(如Qwen2-VL、ShowUI、SeeClick)。

开源意义:推动Agent生态发展

智谱AI开源CogAgent-9B模型,旨在推动大模型Agent生态的发展,鼓励社区进一步开发和应用该模型。这一举措将加速GUI交互自动化技术的普及,为各行各业带来更高效、智能的解决方案。

未来展望:GUI交互自动化前景广阔

CogAgent-9B的开源标志着GUI交互自动化技术迈向了一个新的阶段。随着技术的不断进步和应用的不断拓展,GUI交互自动化将在未来发挥越来越重要的作用,为人们的生活和工作带来更多便利。

参考文献:

希望这篇新闻稿符合您的要求。我尽力在信息准确、深度、结构和可读性之间取得了平衡,并提供了详细的参考文献。


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注