港大联手Salesforce，视觉GUI自动化框架问世

香港大学与Salesforce联手推出AGUVIS：首个纯视觉GUI自动化框架，开启跨平台智能交互新篇章

引言：

在人工智能的浪潮中，GUI（图形用户界面）自动化一直是备受关注的领域。近日，香港大学与全球领先的客户关系管理（CRM）软件提供商Salesforce联合宣布，推出一款名为AGUVIS的创新框架。这款框架以其独特的纯视觉方法，打破了传统GUI自动化对底层代码的依赖，为跨平台智能交互开辟了新的道路。AGUVIS的问世，不仅标志着GUI自动化技术的一次重大飞跃，也预示着未来人机交互将更加智能化、自主化。

主体：

AGUVIS：纯视觉驱动的GUI自动化革命

AGUVIS，全称为Autonomous GUI Visual System，是一个统一的纯视觉框架，旨在为自主GUI智能体提供强大的跨平台操作能力。与传统的GUI自动化方法不同，AGUVIS完全基于图像观察和自然语言指令，无需访问底层代码或依赖特定的操作系统API。这意味着，AGUVIS可以在各种平台（包括网页、桌面应用和移动设备）上实现一致的自动化操作，极大地提高了其应用范围和灵活性。

核心技术：图像理解与自然语言交互

AGUVIS的核心技术在于其强大的图像理解能力和自然语言交互能力。它将GUI界面视为一系列图像，通过视觉-语言模型（VLM），如Qwen2-VL，将自然语言指令映射到图像中的特定元素。这种方法不仅能够处理任意分辨率的高分辨率图像，还能动态地将视觉信息转换为模型可理解的视觉令牌。

两阶段训练范式：从基础交互到复杂推理

AGUVIS的训练过程分为两个阶段：

基础训练： 模型首先学习理解和与单个GUI截图中的对象进行交互，建立基本的视觉感知和操作能力。
规划与推理训练： 在此基础上，模型进一步学习复杂的决策制定和推理过程，通过分析环境并生成有效的操作步骤，实现更高级的自主导航和交互。

为了提升模型的规划能力，AGUVIS还引入了“内省式独白”机制。在训练过程中，模型会生成详细的内省式独白，包含观察描述、思考和低级动作指令，模拟人类的思考过程，从而提升其规划能力。

统一动作空间与插件系统：跨平台泛化的关键

为了实现跨平台泛化，AGUVIS采用了统一的动作空间和插件系统。这意味着，无论是在网页、桌面还是移动设备上，AGUVIS都使用标准化的动作空间进行学习和交互。插件系统则为那些无法直接映射到现有动作空间的动作提供了灵活性，使模型能够适应新的环境和任务。

AGUVIS的应用前景：广泛而深远

AGUVIS的出现，为各行各业带来了巨大的应用潜力：

自动化测试： AGUVIS可以自动化测试各种图形用户界面，确保软件的稳定性和可靠性，极大地提高软件开发效率。
虚拟助手： AGUVIS可以作为虚拟助手，帮助用户自动化日常的计算机任务，如日程管理、邮件处理和数据输入，提高工作效率。
业务流程自动化： AGUVIS可以自动化执行特定的业务流程，如财务报告生成、客户数据管理等，提高企业运营效率。
教育和培训： AGUVIS可以创建交互式教育软件，模拟真实世界的GUI操作，用于教学和培训目的。
客户服务自动化： AGUVIS可以自动处理客户请求，基于GUI界面提供快速响应和解决方案，提高客户满意度。

AGUVIS的开源：推动GUI自动化技术发展

为了推动GUI自动化技术的发展，香港大学和Salesforce决定将AGUVIS开源。目前，AGUVIS的官方项目网站（aguvis-project）和GitHub仓库（https://github.com/xlang-ai/aguvis）已经上线，研究人员和开发者可以免费访问和使用AGUVIS的代码、数据集和技术文档。

结论：

AGUVIS的推出，是GUI自动化领域的一项重大突破。它以其纯视觉的方法、强大的跨平台能力和广泛的应用前景，为未来的智能交互开启了新的篇章。我们有理由相信，随着AGUVIS的不断发展和完善，它将在各个领域发挥越来越重要的作用，推动人机交互的智能化和自主化进程。

参考文献：