智谱AI开源CogAgent-9B:无需文本表征,纯视觉驱动的GUI自动化新纪元

北京 — 智谱AI近日正式开源其最新研发的CogAgent-9B模型,这款基于GLM-4V-9B训练的专用Agent任务模型,以其独特的纯视觉驱动特性,引发了人工智能领域的广泛关注。与传统依赖HTML等文本表征的模型不同,CogAgent-9B仅需屏幕截图作为输入,便能理解并执行图形用户界面(GUI)操作,为自动化任务开辟了全新的可能性。

打破传统:纯视觉驱动的GUI理解与操作

CogAgent-9B的核心创新在于其摆脱了对文本表征的依赖,直接从屏幕截图入手,理解GUI元素并执行操作。这种方式不仅简化了数据输入流程,也使其在各种设备上的应用更加灵活。模型支持高达1120×1120像素的高分辨率图像输入,能够处理复杂的视觉信息,并具备双语(中英文)交互能力,进一步拓展了其应用场景。

技术解析:双流注意力与GUI Grounding预训练

CogAgent-9B的技术核心在于其强大的视觉语言模型(VLM)和创新的训练方法。模型构建在GLM-4V-9B之上,采用双流注意力机制,将视觉元素(如按钮、图标)映射到对应的文本标签或描述,从而增强了模型预测用户意图和执行操作的能力。

在预训练阶段,CogAgent-9B引入了GUI Grounding预训练方法,通过屏幕截图和layout对,构建界面子区域和layout表征的对应关系,显著提升了模型对视觉输入和GUI界面的基础理解能力。此外,团队还广泛收集并整合了多种数据集,包括无监督数据和GUI指令微调数据集,为模型的训练和测试提供了坚实的基础。

思维链优化与动作空间完善

为了提升模型的推理和执行能力,CogAgent-9B将思维链分解为Status(当前屏幕状态)、Plan(全局计划)、Action(下一步自然语言描述)和Operation(下一步形式语言描述)四个步骤,并通过随机采样混合多种模式训练数据,灵活调整和控制推理过程中的实际输出。

同时,模型还明确了基础动作空间,并新增了LLM、QUOTE_TEXT、LAUNCH等高级动作,增强了模型的使用工具和交互能力。

应用前景:自动化任务的强大引擎

CogAgent-9B的开源,预示着GUI自动化领域即将迎来一场变革。其广泛的应用场景包括:

  • 自动化测试: 在软件开发中,CogAgent-9B可以模拟用户操作,自动化测试应用程序的GUI,提高测试效率和覆盖率。
  • 智能助手: 作为智能个人助理,CogAgent-9B可以帮助用户自动完成日常任务,如日程管理、邮件处理等。
  • 客户服务: 在客户服务领域,CogAgent-9B可以通过自动化操作来辅助客服人员,快速响应客户需求并执行相关操作。
  • 智能家居控制: CogAgent-9B可以集成到智能家居系统中,通过GUI控制家中的各种智能设备。
  • 智能座舱: 在汽车领域,CogAgent-9B可以用于智能座舱系统,通过GUI与车载信息娱乐系统交互,提供更安全、便捷的驾驶体验。

开源共享:推动大模型Agent生态发展

智谱AI选择开源CogAgent-9B,旨在推动大模型Agent生态的快速发展。研究人员和开发者可以基于该模型进行二次开发和应用创新,共同探索GUI自动化领域的无限可能。

项目地址:

结论:

CogAgent-9B的开源标志着人工智能在GUI自动化领域迈出了重要一步。其纯视觉驱动的特性、强大的理解和操作能力,以及广泛的应用前景,使其有望成为未来自动化任务的关键技术。智谱AI的这一举措,不仅为研究人员和开发者提供了强大的工具,也为整个AI生态的繁荣注入了新的活力。

参考文献:

(完)


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注