Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

news pappernews papper
0

新加坡国立大学与微软联手打造ShowUI:GUI自动化领域的“视觉语言行动”革命

引言: 想象一下,一个能够理解你的自然语言指令,并自动完成繁琐GUI操作的智能助手。不再需要手动点击、输入,只需一句话,就能完成网页浏览、软件操作甚至游戏任务。这并非科幻,新加坡国立大学Show Lab与微软合作推出的ShowUI,正将这一愿景变为现实。这款基于视觉-语言-行动模型的GUI自动化工具,凭借其创新的技术架构和高效的性能,有望彻底改变人机交互方式。

主体:

ShowUI并非简单的GUI自动化脚本,而是具备深度学习能力的智能代理。其核心在于将视觉信息(GUI截图)、语言指令和行动结果三者巧妙地结合,形成一个闭环的交互流程。

  • UI引导的视觉令牌选择 (UI-Guided Visual Token Selection): ShowUI并非盲目处理整个屏幕截图。它首先将截图分割成小的图像块(patches),并构建一个基于图像块相似度的连接图。这就像给GUI界面建立了一个“地图”,能够识别并忽略冗余信息,从而显著降低计算成本,提高处理效率。 这种方法尤其在处理高分辨率屏幕截图时优势明显,避免了处理过量信息的瓶颈。

  • 交错视觉-语言-行动流 (Interleaved Vision-Language-Action Flow): 不同于传统的GUI自动化工具,ShowUI采用了一种交错的处理方式。它并非一次性处理所有信息,而是将视觉信息、语言指令和行动结果交替处理,形成一个多轮对话式的交互过程。这使得模型能够更好地理解上下文,并根据之前的操作调整后续行动,从而实现更复杂的自动化任务。行动结果以结构化的JSON格式表示,保证了跨平台的兼容性。

  • 小规模高质量数据集与数据增强策略: ShowUI的训练并非依赖海量数据,而是注重数据的质量。研究团队精心策划了一个小规模但高质量的指令跟随数据集(256K),并采用重采样策略来解决数据类型不平衡的问题。这不仅降低了训练成本,也提高了模型的泛化能力和准确性。 在零样本截图定位任务中,ShowUI达到了75.1%的准确率,训练速度比传统方法提升了1.4倍。

*模型架构: ShowUI基于微软的Qwen2-VL-2B模型,整合了强大的视觉编码器和语言模型,能够有效地处理视觉和文本数据。 其独特的训练策略和数据食谱,使其在GUI自动化任务中展现出优异的性能。

ShowUI的应用场景极其广泛:

  • 网页自动化: 自动化网页测试、数据抓取和用户行为模拟。
  • 移动应用测试: 简化移动应用的测试流程,提高测试效率。
  • 桌面软件自动化: 自动化执行重复性任务,提高工作效率。
  • 虚拟助手: 作为虚拟助手的重要组成部分,执行更复杂的GUI操作。
  • 游戏自动化: 为游戏玩家提供自动化操作支持。

结论:

ShowUI的出现标志着GUI自动化领域迈向了一个新的阶段。其创新的视觉-语言-行动模型,结合高效的数据处理策略,为构建更智能、更便捷的人机交互界面提供了新的可能性。 未来,ShowUI有望在更多领域得到应用,并进一步推动人工智能技术在自动化领域的突破。 其开源的代码和模型也为学术界和产业界提供了宝贵的资源,有望激发更多创新应用的诞生。 然而,也需要关注其在处理复杂、非结构化GUI界面时的鲁棒性以及安全性问题,这将是未来研究和发展的重点方向。

参考文献:

*(注:本文中部分技术细节进行了简化,以方便读者理解。 更详细的技术信息请参考ShowUI的官方文档和论文。) *


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注