Google 推出的 ScreenAI —— 一款能够解析屏幕内容的 AI 视觉模型,具备识别用户界面及信息图示的能力。

AI工具3个月前发布 ainav
108 0

ScreenAI代表的是什么?

ScreenAI是由谷歌研发团队开发的一款专注于解析用户界面(UI)及信息图表的读屏人工智能视觉语言模型。此模型依托PaLI架构融合了图像与文字处理技术,并采纳Pix2Struct的灵活组合策略,从而能够解读并创建涉及屏幕UI元素的文字内容,包括问题解答、导航指令以及摘要生成等任务。
ScreenAI

  • 在arXiv平台上发布的一篇学术文章:https://arxiv.org/abs/2402.04615
  • PyTorch版本的ScreenAI实现在GitHub上的地址为:https://github.com/kyegomez/ScreenAI

ScreenAI的核心特性

ScreenAI的功能

  • 理解显示内容ScreenAI具备辨识与解析用户界面元素及信息图内容的能力,涵盖其种类、所在位置以及各要素间的关联性。
  • 问答(Q&A)ScreenAI具备解析所获视觉资料的能力,并能就用户界面及信息图的内容作出回应。
  • 界面导引ScreenAI具备解析诸如“返回”等导航命令的能力,并能辨识出合适的用户界面组件以供互动,它还能洞悉用户的操作目的并在界面上精准地执行导航任务。
  • 内容概要ScreenAI可以精炼地概述屏幕上显示的信息,并捕捉其关键要素。
  • 适用于各种显示比例ScreenAI具备处理多种分辨率及宽高比例截屏的能力,并能兼容手机、电脑等多种设备的显示规格。

ScreenAI的工作机制

ScreenAI的架构

  • 多种数据类型的编码器ScreenAI 的设计灵感来源于PaLI架构,它采用了包含两个主要组件的多模态编码单元:视觉解码模块和语言解析模块。其中,视觉解码模块采用Vision Transformer (ViT) 技术来把输入的画面截屏转化为一系列图像特征向量;而语言解析模块则负责处理与这些截图相关的文本内容,包括用户界面(UI)元素的标识及描述信息。
  • 图片与文字的结合于多模态编码器内,通过将图片的特征表示与文字的表达形式相整合,确保了该系统可以同步解析图像细节及关联的语言数据。此种集成方式让ScreenAI具备了解决复杂屏幕互动挑战的能力。
  • 自动回溯生成器来自编码器的信息传输至自回归解码器T5,该组件专责创建文字输出,并能依据所提供的图像与文本嵌入产生流畅的语言反馈。
  • 自动化生产数据在ScreenAI的培训过程中,研究团队采用了自动化数据生产技术。通过运用PaLM 2-S语言模型,生成了包含各种屏幕布局及配套问题与解答的数据集。此方法不仅丰富和提升了训练资料的内容层次,还显著降低了对人工标记的需求。
  • 图片划分方案ScreenAI利用了Pix2Struct技术来应对各类分辨率与宽高比例的截屏处理任务。该技术使系统能依据输入图片的具体尺寸及设定的最大区块数量灵活创建多样化的网格布局结构,进而确保模型可适用于多种显示格式。
  • 模型设置与培训过程ScreenAI提供了多种规模的模型版本,涵盖670M、2B及5B参数的不同规格。各型号在前期预训练时采用了不同的初始条件,比如基于PaLI-3多模态预训练检查点展开。通过整合预训练与微调任务,这些模型能够在多样化的应用场景中得到有效的训练和性能提升。
© 版权声明

相关文章