谷歌推出可读屏AI视觉模型ScreenAI：理解UI和信息图表，助力人机交互新纪元

AI工具集2024年4月12日

谷歌近日发布了一款名为ScreenAI的可读屏AI视觉模型，旨在理解和处理用户界面（UI）和信息图表。该模型基于PaLI架构，结合了视觉和语言处理能力，并借鉴了Pix2Struct的灵活拼贴策略，使其能够理解和生成与屏幕UI元素相关的文本，如问题回答、UI导航指令和内容摘要。

ScreenAI的主要功能：

屏幕信息理解： ScreenAI能够识别和理解UI元素和信息图表的内容，包括它们的类型、位置和相互之间的关系。
问题回答（QA）： ScreenAI可以对获取到的视觉信息进行理解并回答关于UI和信息图表内容的问题。
*UI导航： ScreenAI能够解释导航指令（如“返回”）并识别适当的UI元素进行交互，可理解用户意图并能够在界面中准确导航。
内容摘要： ScreenAI能够简洁地总结屏幕内容，可提炼和概括屏幕信息的核心要点。
适应不同屏幕格式： ScreenAI能够处理不同分辨率和宽高比的屏幕截图，可以适应移动设备和台式机等不同设备的屏幕格式。

ScreenAI的技术原理：

多模态编码器： ScreenAI使用一个多模态编码器块，由视觉编码器和语言编码器组成。视觉编码器基于Vision Transformer (ViT) 架构，将屏幕截图转换为图像嵌入。语言编码器处理与屏幕截图相关的文本信息，如UI元素的标签和描述。
图像和文本融合： 图像嵌入和文本嵌入在多模态编码器中结合，使模型能够同时理解视觉内容和相关语言信息。
自回归解码器： 编码器的输出被传递给一个自回归解码器T5，负责生成文本输出，能够根据输入的图像和文本嵌入生成自然语言响应。
自动数据生成： 为了训练ScreenAI，研究人员利用PaLM 2-S语言模型生成合成的训练数据，包括屏幕模式和相应的问题-答案对。这种方法提高了数据的多样性和复杂性，同时减少了对手动标注的依赖。
图像分割策略： ScreenAI采用了Pix2Struct技术来处理不同分辨率和宽高比的屏幕截图，允许模型根据输入图像的形状生成任意网格形状的图像块，从而适应各种屏幕格式。

ScreenAI的应用前景：

ScreenAI的出现为人机交互带来了新的可能性。它可以应用于以下领域：

ScreenAI的发布标志着AI视觉模型在理解和处理用户界面方面取得了重大进展。它将为未来的人机交互带来更多创新和便利，推动人机交互迈向更智能、更人性化的时代。

相关链接：

【source】https://ai-bot.cn/screenai-model/