Aria-UI代表的是一个特定的用户界面设计或框架。
Aria-UI是由香港大学与Rhymes AI联手开发的一款专为图形用户界面(GUI)定位任务设计的大规模多模态模型。该模型采用纯粹视觉分析的方法,无需依赖HTML或AXTree等额外输入信息,并通过大规模且多样化的数据合成流程,从Common Crawl及公开资源中生成高质量的元素描述和指令示例,从而适应各种环境下的多样化命令需求。Aria-UI的一大创新之处在于它结合了动态动作的历史记录,在多步任务场景下利用文本或图文交替格式显著增强了定位精度。在涵盖离线与在线代理任务在内的广泛测试基准上,该模型表现优异,展现了卓越的零样本泛化能力和跨平台应用潜力,成为了通用GUI定位任务的有效解决方案。
Aria-UI的核心特性
- 界面元素定位精准地把语言命令对应到图形用户界面内的特定组件上,以达成对这些组件的精确识别,从而奠定进一步互动操作的基础。
- 多种类型数据的整合处理:整合并分析包含图形用户界面(GUI)图像、文字命令以及行为记录等多元化的输入资料,深入挖掘和运用这些多模态数据中蕴含的详尽信息。
- 多样的命令适用性通过运用广泛且多元的数据综合程序所创造的各种指令实例,能够很好地匹配各类环境下不同的指令表述风格。
- 实时情境解析结合运动的历史数据,并以文字或者图文交替的方式呈现,在涉及多个步骤的任务环境中解析当下的情境背景,这对于实现精准的位置识别具有关键性的指导价值。
- 高质量图像处理能够处理最高达3920×2940分辨率的图片,并通过分割图片为多个部分来处理,大幅增加可管理的图片大小范围。
Aria-UI的核心技术机制
- 纯粹的视觉技术运用纯粹的视觉技术,直接自GUI图片抽取外观特性,并利用这些视像数据来解析和精确定位目的组件。
- 多元模式的专家混合模型采用Aria多模态MoE(专家混合)架构打造,拥有39亿活跃参数量,专长于应对多种类型的数据融合处理任务。
- 数据整合及培训过程采用分步式的数据综合方案,利用Common Crawl及开放资源创建出精细且多样的操作指南与元件描述样本,全面涵盖网络浏览界面、桌面应用以及移动设备的操作环境。这为算法学习提供了丰富而多元的数据支持,显著提升了模型在处理各类指令和识别不同元素时的精准度。
- 基于上下文的资料拓展通过利用开放的代理移动记录来仿真含有情境背景的位置辨识作业,我们设立了两种情境设定:文字行动序列与图文交替序列,并依据一套数据合成程序对路径中每个位置识别环节制定详尽的操作指南,以此增强模型在变化环境中的理解和执行能力。
- 超高分辨率功能支持通过划分图像为多个小区域来分别处理,并且能够兼容最高达3920×2940像素的图片尺寸,确保了图像细节的精细与精准度。
Aria-UI的仓库链接
- 官方网站PROJECT:访问此链接以获取相关信息 – https://ariaui.github.io/
- Git代码库:可在AriaUI的GitHub仓库中找到Aria-UI项目 —— https://github.com/AriaUI/Aria-UI
- HuggingFace的模型集合访问此链接以查看Aria-UI的相关资料:https://huggingface.co/Aria-UI
- arXiv科技文章这篇论文的详情可以在网址 https://arxiv.org/pdf/2412.16256 上找到。
Aria-UI的使用情境
- 自动化的软件检测过程在对Web应用程序进行自动化测试时,系统会模拟点击网页上的按钮并自动填写相关信息,以检查各项功能的运作状态是否正确无误。
- 协助用户互动通过语音命令操控家庭装置,例如说“点亮灯光”,系统会自动激活相应的开关。
- 智能化客户服务中心电商平台的客户服务能迅速找到商品信息,解答客户的疑问。
- 教育培训领域展示编程流程与成果的自动化代码编辑工具。
- 办公室工作自动化通过自动化处理财务软件并创建报告来提升工作效能。
© 版权声明
文章版权归作者所有,未经允许请勿转载。