智谱AI开源CogAgent-9B，GLM-PC基座模型亮相

智谱AI开源CogAgent-9B：无需文本表征，纯视觉驱动的GUI自动化新纪元

北京 — 智谱AI近日正式开源其最新研发的CogAgent-9B模型，这款基于GLM-4V-9B训练的专用Agent任务模型，以其独特的纯视觉驱动特性，引发了人工智能领域的广泛关注。与传统依赖HTML等文本表征的模型不同，CogAgent-9B仅需屏幕截图作为输入，便能理解并执行图形用户界面（GUI）操作，为自动化任务开辟了全新的可能性。

打破传统：纯视觉驱动的GUI理解与操作

CogAgent-9B的核心创新在于其摆脱了对文本表征的依赖，直接从屏幕截图入手，理解GUI元素并执行操作。这种方式不仅简化了数据输入流程，也使其在各种设备上的应用更加灵活。模型支持高达1120×1120像素的高分辨率图像输入，能够处理复杂的视觉信息，并具备双语（中英文）交互能力，进一步拓展了其应用场景。

技术解析：双流注意力与GUI Grounding预训练

CogAgent-9B的技术核心在于其强大的视觉语言模型（VLM）和创新的训练方法。模型构建在GLM-4V-9B之上，采用双流注意力机制，将视觉元素（如按钮、图标）映射到对应的文本标签或描述，从而增强了模型预测用户意图和执行操作的能力。

在预训练阶段，CogAgent-9B引入了GUI Grounding预训练方法，通过屏幕截图和layout对，构建界面子区域和layout表征的对应关系，显著提升了模型对视觉输入和GUI界面的基础理解能力。此外，团队还广泛收集并整合了多种数据集，包括无监督数据和GUI指令微调数据集，为模型的训练和测试提供了坚实的基础。

思维链优化与动作空间完善

为了提升模型的推理和执行能力，CogAgent-9B将思维链分解为Status（当前屏幕状态）、Plan（全局计划）、Action（下一步自然语言描述）和Operation（下一步形式语言描述）四个步骤，并通过随机采样混合多种模式训练数据，灵活调整和控制推理过程中的实际输出。

同时，模型还明确了基础动作空间，并新增了LLM、QUOTE_TEXT、LAUNCH等高级动作，增强了模型的使用工具和交互能力。

应用前景：自动化任务的强大引擎

CogAgent-9B的开源，预示着GUI自动化领域即将迎来一场变革。其广泛的应用场景包括：