智谱AI开源CogAgent-9B，GLM-PC基座模型亮相

好的，请看下面这篇新闻报道：

标题：智谱AI开源CogAgent-9B：无需文本表征，屏幕截图驱动的GUI智能体

引言：

在人工智能领域，智能体（Agent）正逐渐成为焦点。它们不再仅仅是执行预设指令的工具，而是能够理解环境、自主决策并完成复杂任务的智能伙伴。近日，中国人工智能公司智谱AI开源了其最新的研究成果——CogAgent-9B，一款基于视觉语言模型（VLM）的智能体模型，它颠覆了传统Agent对文本输入的依赖，仅凭屏幕截图就能理解并操作图形用户界面（GUI），为自动化任务和人机交互带来了新的可能性。

主体：

CogAgent-9B：屏幕截图驱动的GUI智能体

CogAgent-9B并非横空出世，而是基于智谱AI强大的GLM-4V-9B视觉语言模型训练而来。与以往的智能体模型不同，CogAgent-9B最大的特点在于其输入方式：它完全依赖屏幕截图作为输入，无需任何HTML等文本表征。这意味着，无论是个人电脑、手机还是车载系统，只要有屏幕显示，CogAgent-9B就能理解并执行操作。

主要功能：

GUI理解与操作： CogAgent-9B能够理解图形用户界面（GUI）中的元素，如按钮、文本框、图标等，并执行相应的操作，例如点击按钮、输入文本、滚动页面等。
高分辨率图像处理： 该模型支持高达1120×1120像素的高分辨率图像输入，能够处理复杂的视觉信息，这对于需要精细操作的GUI界面至关重要。
双语交互： CogAgent-9B支持中文和英文的屏幕截图和语言交互，这使得它在全球范围内都具有广泛的应用潜力。
预测GUI操作： 基于用户指定的任务和历史操作，CogAgent-9B能够预测下一步的GUI操作，从而实现自动化任务执行。
跨平台应用： 由于其仅依赖屏幕截图的特性，CogAgent-9B可以应用于个人电脑、手机、车机等多种基于GUI交互的场景。

技术原理：

CogAgent-9B的技术突破并非偶然，其背后是多项创新技术的支撑：

视觉语言模型（VLM）： CogAgent-9B的核心是基于GLM-4V-9B的视觉语言模型，该模型能够同时处理视觉数据（屏幕截图）和文本信息，从而实现对GUI元素的理解和操作。
双流注意力机制： CogAgent-9B采用了双流注意力机制，将视觉元素（如按钮和图标）映射到它们的文本标签或描述，从而增强了模型预测用户意图和执行相关操作的能力。
GUI Grounding预训练： 在预训练阶段，CogAgent-9B引入了GUI Grounding预训练方法，通过屏幕截图和layout对，构造界面子区域和layout表征的对应关系，提升模型对视觉输入和GUI界面的基础理解能力。
数据集丰富与完善： CogAgent-9B团队收集并整合了多种数据集，包括无监督数据和GUI指令微调数据集，这些数据集的丰富性和多样性为模型提供了广泛的训练和测试基础。
预训练与后训练策略优化： CogAgent-9B在预训练阶段引入了GUI Referring Expression Generation (REG)和GUI Referring Expression Comprehension (REC)任务，以构建界面子区域与布局表征的对应关系。在后训练阶段，采用了更科学的GUI agent后训练策略，使模型具备了更强的分析、推理、预测能力。
模型推理及思维链优化： CogAgent-9B将思维链分解为Status（当前屏幕状态）、Plan（全局计划）、Action（下一步自然语言描述）、Operation（下一步形式语言描述），并通过随机采样混合多种模式训练数据，灵活调整和控制推理过程中的实际输出。
动作空间完善： CogAgent-9B明确了基础动作空间，新增了LLM、QUOTE_TEXT、LAUNCH等高级动作，增强了模型的使用工具和交互能力。

应用场景：

CogAgent-9B的应用前景广阔，以下是一些典型的应用场景：

自动化测试： 在软件开发中，CogAgent-9B可以用于自动化测试，模拟用户操作来测试应用程序的GUI，提高测试效率和覆盖率。
智能助手： 作为智能个人助理，CogAgent-9B可以帮助用户自动完成日常任务，如日程管理、邮件处理等。
客户服务： 在客户服务领域，CogAgent-9B可以通过自动化操作来辅助客服人员，快速响应客户需求并执行相关操作。
智能家居控制： CogAgent-9B可以集成到智能家居系统中，通过GUI控制家中的各种智能设备。
智能座舱： 在汽车领域，CogAgent-9B可以用于智能座舱系统，通过GUI与车载信息娱乐系统交互，提供更安全、便捷的驾驶体验。

开源与未来：

智谱AI已经将CogAgent-9B模型开源，并提供了GitHub仓库和Hugging Face模型库，供开发者和研究人员使用。这无疑将推动大模型Agent生态的快速发展，并加速其在各个领域的应用。

结论：

CogAgent-9B的出现，标志着智能体技术迈向了一个新的阶段。它摆脱了对文本输入的依赖，仅凭屏幕截图就能理解并操作GUI，这不仅简化了智能体的开发和应用，也为自动化任务和人机交互带来了更多的可能性。随着技术的不断进步，我们有理由相信，CogAgent-9B将在未来的智能生活中扮演越来越重要的角色。

参考文献：

CogAgent-9B GitHub仓库：https://github.com/THUDM/CogAgent
CogAgent-9B HuggingFace模型库：https://huggingface.co/THUDM/cogagent-9b-20241220
AI工具集相关文章：https://www.aitoolset.cn/ai-project-framework/cogagent-9b-glm-pc/

（注：本报道基于所提供的资料撰写，力求准确客观。如有任何疑问，请参考原始资料。）

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

智谱AI开源CogAgent-9B，GLM-PC基座模型亮相

作者智能小编

相关文章

Veo 2发布：视频创作，触手可及！

Zhipu GLM Unveils New Open-Source Model Claims World-Class Performance Launches “z.ai

智谱GLM模型升级，比肩世界先进！

发表回复取消回复

为您推荐