Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

好的,请看下面这篇新闻报道:

标题:智谱AI开源CogAgent-9B:无需文本表征,屏幕截图驱动的GUI智能体

引言:

在人工智能领域,智能体(Agent)正逐渐成为焦点。它们不再仅仅是执行预设指令的工具,而是能够理解环境、自主决策并完成复杂任务的智能伙伴。近日,中国人工智能公司智谱AI开源了其最新的研究成果——CogAgent-9B,一款基于视觉语言模型(VLM)的智能体模型,它颠覆了传统Agent对文本输入的依赖,仅凭屏幕截图就能理解并操作图形用户界面(GUI),为自动化任务和人机交互带来了新的可能性。

主体:

CogAgent-9B:屏幕截图驱动的GUI智能体

CogAgent-9B并非横空出世,而是基于智谱AI强大的GLM-4V-9B视觉语言模型训练而来。与以往的智能体模型不同,CogAgent-9B最大的特点在于其输入方式:它完全依赖屏幕截图作为输入,无需任何HTML等文本表征。这意味着,无论是个人电脑、手机还是车载系统,只要有屏幕显示,CogAgent-9B就能理解并执行操作。

主要功能:

  • GUI理解与操作: CogAgent-9B能够理解图形用户界面(GUI)中的元素,如按钮、文本框、图标等,并执行相应的操作,例如点击按钮、输入文本、滚动页面等。
  • 高分辨率图像处理: 该模型支持高达1120×1120像素的高分辨率图像输入,能够处理复杂的视觉信息,这对于需要精细操作的GUI界面至关重要。
  • 双语交互: CogAgent-9B支持中文和英文的屏幕截图和语言交互,这使得它在全球范围内都具有广泛的应用潜力。
  • 预测GUI操作: 基于用户指定的任务和历史操作,CogAgent-9B能够预测下一步的GUI操作,从而实现自动化任务执行。
  • 跨平台应用: 由于其仅依赖屏幕截图的特性,CogAgent-9B可以应用于个人电脑、手机、车机等多种基于GUI交互的场景。

技术原理:

CogAgent-9B的技术突破并非偶然,其背后是多项创新技术的支撑:

  • 视觉语言模型(VLM): CogAgent-9B的核心是基于GLM-4V-9B的视觉语言模型,该模型能够同时处理视觉数据(屏幕截图)和文本信息,从而实现对GUI元素的理解和操作。
  • 双流注意力机制: CogAgent-9B采用了双流注意力机制,将视觉元素(如按钮和图标)映射到它们的文本标签或描述,从而增强了模型预测用户意图和执行相关操作的能力。
  • GUI Grounding预训练: 在预训练阶段,CogAgent-9B引入了GUI Grounding预训练方法,通过屏幕截图和layout对,构造界面子区域和layout表征的对应关系,提升模型对视觉输入和GUI界面的基础理解能力。
  • 数据集丰富与完善: CogAgent-9B团队收集并整合了多种数据集,包括无监督数据和GUI指令微调数据集,这些数据集的丰富性和多样性为模型提供了广泛的训练和测试基础。
  • 预训练与后训练策略优化: CogAgent-9B在预训练阶段引入了GUI Referring Expression Generation (REG)和GUI Referring Expression Comprehension (REC)任务,以构建界面子区域与布局表征的对应关系。在后训练阶段,采用了更科学的GUI agent后训练策略,使模型具备了更强的分析、推理、预测能力。
  • 模型推理及思维链优化: CogAgent-9B将思维链分解为Status(当前屏幕状态)、Plan(全局计划)、Action(下一步自然语言描述)、Operation(下一步形式语言描述),并通过随机采样混合多种模式训练数据,灵活调整和控制推理过程中的实际输出。
  • 动作空间完善: CogAgent-9B明确了基础动作空间,新增了LLM、QUOTE_TEXT、LAUNCH等高级动作,增强了模型的使用工具和交互能力。

应用场景:

CogAgent-9B的应用前景广阔,以下是一些典型的应用场景:

  • 自动化测试: 在软件开发中,CogAgent-9B可以用于自动化测试,模拟用户操作来测试应用程序的GUI,提高测试效率和覆盖率。
  • 智能助手: 作为智能个人助理,CogAgent-9B可以帮助用户自动完成日常任务,如日程管理、邮件处理等。
  • 客户服务: 在客户服务领域,CogAgent-9B可以通过自动化操作来辅助客服人员,快速响应客户需求并执行相关操作。
  • 智能家居控制: CogAgent-9B可以集成到智能家居系统中,通过GUI控制家中的各种智能设备。
  • 智能座舱: 在汽车领域,CogAgent-9B可以用于智能座舱系统,通过GUI与车载信息娱乐系统交互,提供更安全、便捷的驾驶体验。

开源与未来:

智谱AI已经将CogAgent-9B模型开源,并提供了GitHub仓库和Hugging Face模型库,供开发者和研究人员使用。这无疑将推动大模型Agent生态的快速发展,并加速其在各个领域的应用。

结论:

CogAgent-9B的出现,标志着智能体技术迈向了一个新的阶段。它摆脱了对文本输入的依赖,仅凭屏幕截图就能理解并操作GUI,这不仅简化了智能体的开发和应用,也为自动化任务和人机交互带来了更多的可能性。随着技术的不断进步,我们有理由相信,CogAgent-9B将在未来的智能生活中扮演越来越重要的角色。

参考文献:

(注:本报道基于所提供的资料撰写,力求准确客观。如有任何疑问,请参考原始资料。)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注