周一. 11 月 25th, 2024

大模型操控电脑手机：未来已来？

作者智能小编

10 月 27, 2024 #控机, #机器之心, #模型

90年代的黄河路

大模型控制计算机的未来：微软开源OmniParser，人人都能造智能体？

最近，大模型控制计算机的热潮席卷而来，从 Anthropic 的 Claude 3.5 Sonnet 到荣耀 MagicOS 9.0 的全局智能体，再到智谱的 AutoGLM和华为的 LiMAC，各家都在争相展示其在这一领域的最新进展。而微软则低调开源了其研究成果 OmniParser，一个基于大模型的屏幕解析工具，可将 UI 截图转换成结构化的元素，其解析和理解 UI 的能力甚至超越了 GPT-4V。

OmniParser 的出现，意味着每个人都有可能创建自己的计算机操控智能体。它能精准地识别屏幕上的可交互区域，理解不同元素的含义，并将其与用户指令关联起来，从而实现对计算机的控制。

OmniParser 的工作原理：

专用数据集： OmniParser的开发基于两个数据集：一个可交互区域检测数据集，用于标注网页上的可点击和可操作区域；一个图标描述数据集，用于关联 UI 元素与其功能。
互补模型： OmniParser 使用两个模型：一个检测模型，用于识别屏幕截图中的可操作区域；一个描述模型，用于提取检测到的元素的语义，生成准确的描述。
性能表现： OmniParser 在多个基准测试中表现出色，例如 ScreenSpot、Mind2Web 和 AITW，甚至在新的 WindowsAgentArena 基准上达到了最佳性能。

OmniParser 的意义：

通用性： OmniParser 可以作为各种视觉-语言模型（VLM）的插件，例如 GPT-4V、Phi-3.5-V 和 Llama-3.2-V。
易用性： OmniParser 可以解析用户的屏幕，无需依赖 HTML 或 Android 中的视图图层，简化了智能体开发流程。
未来潜力： OmniParser 的开源，意味着每个人都有可能参与到计算机操控智能体的开发中，推动这一领域的快速发展。

然而，OmniParser 并非万能。 它需要与其他模型配合才能完成实际操作，例如 GPT-4V 可以根据 OmniParser 的解析结果生成具体的动作指令。此外，OmniParser 的解析能力也受到 UI 设计和应用复杂性的影响，需要不断优化和改进。

大模型控制计算机的未来充满着无限可能。 OmniParser 的开源，将加速这一领域的创新，并为我们带来更加智能、便捷的交互体验。未来，我们或许可以像使用手机一样自然地与计算机进行交互，让大模型成为我们生活中的得力助手。

参考文献：

注：本文仅供参考，并非对 OmniParser 的全面介绍，更多信息请参考相关文献和项目地址。

>>> Read more <<<

Views: 0

相关文章

免费短剧，爆发式增长！或短剧免费：流量密码？或免费引爆！短剧狂飙

11 月 24, 2024 智能小编

拼多多：降速，还是求变？拼多多战略转向：降速求变拼多多放慢脚步，谋求转型拼多多：从高速增长到精细运营拼多多：减速背后的战

11 月 24, 2024 智能小编

阿里整合电商，家居小家电瞄准日本或者：阿里巴巴布局海外，日本成小家电新蓝海

11 月 24, 2024 智能小编

发表回复取消回复

图库

90年代申花出租车司机夜晚在车内看文汇报

黄山的油菜花

90年代的黄河路

shanghai

上海的陆家嘴

上海的陆家嘴

在上海浦东滨江公园观赏外滩建筑群-20240824

上海枫泾古镇一角_20240824

上海宝山炮台湿地公园的蓝天白云

为您推荐

免费短剧，爆发式增长！或短剧免费：流量密码？或免费引爆！短剧狂飙

2024年11月24日

拼多多：降速，还是求变？拼多多战略转向：降速求变拼多多放慢脚步，谋求转型拼多多：从高速增长到精细运营拼多多：减速背后的战

2024年11月24日

阿里整合电商，家居小家电瞄准日本或者：阿里巴巴布局海外，日本成小家电新蓝海

2024年11月24日

石头科技：寻找下一个增长点石头科技谋求“第二曲线” 石头科技：转型升级在路上石头科技的第二曲线难题石头科技：巨头焦虑与突围

2024年11月24日