90年代的黄河路

大模型控制计算机的未来:微软开源OmniParser,人人都能造智能体?

最近,大模型控制计算机的热潮席卷而来,从 Anthropic 的 Claude 3.5 Sonnet 到荣耀 MagicOS 9.0 的全局智能体,再到智谱的 AutoGLM和华为的 LiMAC,各家都在争相展示其在这一领域的最新进展。而微软则低调开源了其研究成果 OmniParser,一个基于大模型的屏幕解析工具,可将 UI 截图转换成结构化的元素,其解析和理解 UI 的能力甚至超越了 GPT-4V。

OmniParser 的出现,意味着每个人都有可能创建自己的计算机操控智能体。它能精准地识别屏幕上的可交互区域,理解不同元素的含义,并将其与用户指令关联起来,从而实现对计算机的控制。

OmniParser 的工作原理:

  • 专用数据集: OmniParser的开发基于两个数据集:一个可交互区域检测数据集,用于标注网页上的可点击和可操作区域;一个图标描述数据集,用于关联 UI 元素与其功能。
  • 互补模型: OmniParser 使用两个模型:一个检测模型,用于识别屏幕截图中的可操作区域;一个描述模型,用于提取检测到的元素的语义,生成准确的描述。
  • 性能表现: OmniParser 在多个基准测试中表现出色,例如 ScreenSpot、Mind2Web 和 AITW,甚至在新的 WindowsAgentArena 基准上达到了最佳性能。

OmniParser 的意义:

  • 通用性: OmniParser 可以作为各种视觉-语言模型(VLM)的插件,例如 GPT-4V、Phi-3.5-V 和 Llama-3.2-V。
  • 易用性: OmniParser 可以解析用户的屏幕,无需依赖 HTML 或 Android 中的视图图层,简化了智能体开发流程。
  • 未来潜力: OmniParser 的开源,意味着每个人都有可能参与到计算机操控智能体的开发中,推动这一领域的快速发展。

然而,OmniParser 并非万能。 它需要与其他模型配合才能完成实际操作,例如 GPT-4V 可以根据 OmniParser 的解析结果生成具体的动作指令。此外,OmniParser 的解析能力也受到 UI 设计和应用复杂性的影响,需要不断优化和改进。

大模型控制计算机的未来充满着无限可能。 OmniParser 的开源,将加速这一领域的创新,并为我们带来更加智能、便捷的交互体验。未来,我们或许可以像使用手机一样自然地与计算机进行交互,让大模型成为我们生活中的得力助手。

参考文献:

注: 本文仅供参考,并非对 OmniParser 的全面介绍,更多信息请参考相关文献和项目地址。


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注