NEWS 新闻NEWS 新闻

AI工具集2024年4月12日

谷歌近日发布了一款名为ScreenAI的可读屏AI视觉模型,旨在理解和处理用户界面(UI)和信息图表。该模型基于PaLI架构,结合了视觉和语言处理能力,并借鉴了Pix2Struct的灵活拼贴策略,使其能够理解和生成与屏幕UI元素相关的文本,如问题回答、UI导航指令和内容摘要。

ScreenAI的主要功能:

  • 屏幕信息理解: ScreenAI能够识别和理解UI元素和信息图表的内容,包括它们的类型、位置和相互之间的关系。
  • 问题回答(QA): ScreenAI可以对获取到的视觉信息进行理解并回答关于UI和信息图表内容的问题。
    *UI导航: ScreenAI能够解释导航指令(如“返回”)并识别适当的UI元素进行交互,可理解用户意图并能够在界面中准确导航。
  • 内容摘要: ScreenAI能够简洁地总结屏幕内容,可提炼和概括屏幕信息的核心要点。
  • 适应不同屏幕格式: ScreenAI能够处理不同分辨率和宽高比的屏幕截图,可以适应移动设备和台式机等不同设备的屏幕格式。

ScreenAI的技术原理:

  • 多模态编码器: ScreenAI使用一个多模态编码器块,由视觉编码器和语言编码器组成。视觉编码器基于Vision Transformer (ViT) 架构,将屏幕截图转换为图像嵌入。语言编码器处理与屏幕截图相关的文本信息,如UI元素的标签和描述。
  • 图像和文本融合: 图像嵌入和文本嵌入在多模态编码器中结合,使模型能够同时理解视觉内容和相关语言信息。
  • 自回归解码器: 编码器的输出被传递给一个自回归解码器T5,负责生成文本输出,能够根据输入的图像和文本嵌入生成自然语言响应。
  • 自动数据生成: 为了训练ScreenAI,研究人员利用PaLM 2-S语言模型生成合成的训练数据,包括屏幕模式和相应的问题-答案对。这种方法提高了数据的多样性和复杂性,同时减少了对手动标注的依赖。
  • 图像分割策略: ScreenAI采用了Pix2Struct技术来处理不同分辨率和宽高比的屏幕截图,允许模型根据输入图像的形状生成任意网格形状的图像块,从而适应各种屏幕格式。

ScreenAI的应用前景:

ScreenAI的出现为人机交互带来了新的可能性。它可以应用于以下领域:

  • 智能助手: ScreenAI可以理解用户界面,并根据用户的语音或文本指令进行操作,例如打开特定应用、查找特定信息等。
  • 无障碍技术: ScreenAI可以帮助视障人士理解屏幕内容,例如描述图像、读取文本等。
  • 教育和培训: ScreenAI可以用于创建交互式学习材料,例如提供关于UI元素的解释、模拟用户操作等。
  • 游戏开发: ScreenAI可以用于开发更智能的游戏角色,例如理解游戏界面、根据玩家的指令进行操作等。

ScreenAI的发布标志着AI视觉模型在理解和处理用户界面方面取得了重大进展。它将为未来的人机交互带来更多创新和便利,推动人机交互迈向更智能、更人性化的时代。

相关链接:

  • arXiv研究论文:https://arxiv.org/abs/2402.04615
  • GitHub PyTorch实现:https://github.com/kyegomez/ScreenAI

版权声明: 本站文章版权归AI工具集所有,未经允许禁止任何形式的转载。

【source】https://ai-bot.cn/screenai-model/

Views: 1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注