苹果发布的Ferret-UI 2 —— 跨平台界面理解的多功能大型语言模型

AI工具1年前 (2025)发布 ainav

251 0 0

Ferret-UI 2指的是什么？

Ferret-UI 2是由苹果公司开发的一款多模态大型语言模型，专为移动用户界面的理解与交互设计。它能够辨识并解析移动设备屏幕上多种类型的UI组件，并执行复杂的用户命令。此外，该系统可以实时监控用户的屏幕操作，并随时准备协助和完成任务。相较于之前的版本，Ferret-UI 2在性能上有了显著的提升和完善，通过采用高分辨率图像编码技术和先进的训练数据方法，其识别精确度及交互体验得到了增强，使用户能够以更加自然流畅的方式与智能设备进行互动。

Ferret-UI 2的核心特性

跨平台兼容性支持Ferret-UI 2支持对iPhone、Android设备、iPad、网页及Apple TV等多个平台的用户界面进行处理。
高质量图像识别利用自适应缩放技术，Ferret-UI 2能够维持原版用户界面截图的清晰度，并且提升对视觉组件辨识的精确性。
高级作业的训练资料创建利用GPT-4o及视觉标记集合提示，Ferret-UI 2创建适用于复杂作业的训练资料，增强模型在理解用户界面元素间空间关联方面的能力。
用户体验互动Ferret-UI 2具备理解和处理以用户为导向的互动操作的能力，例如验证提交和触发按钮动作，并非仅仅进行简单的机械性点击。
多平台转移功能Ferret-UI 2展现了卓越的跨平台适配性能，能够轻松地在多种平台上进行迁移与应用。

Ferret-UI 2的核心技术机制

多元化的大型语言模型（MLLM）融合视觉识别与语言理解的功能，以实现对用户界面复杂互动的解析与创造。
适应性N网格系统根据算法计算出最适宜的网格尺寸，以最低限度的影响图像清晰度和像素变动来编码用户界面截图的各项内容。
实时高清图像编译利用CLIP图像编码器来捕捉整体与细节特征，并将这些特性输入到一个大规模的语言处理模型中。
视像取样器依据用户的指示来辨识并挑选出相应的界面部分，然后提供关于界面组件的认知或互动说明。
集合标记（SoM）视觉指引在构建训练数据的过程中，通过应用SoM提示来提升模型对界面元素间空间布局的认知能力，尤其是在涉及多次感知与互动的问答环节中。
全程训练该模型经过完整的端到端培训流程，能够从原始标注的数据中汲取知识，进而创造高品质的学习资料，并在此过程中不断改进自身的效能。

Ferret-UI 2的仓库链接

关于arXiv上的科技文章在该论文中（可访问链接: https://arxiv.org/pdf/2410.18967），作者们探讨了其研究主题，提供了深入的分析和见解。研究人员通过详细的方法论和实验结果支持他们的结论，为相关领域的进一步探索奠定了基础。

Ferret-UI 2的使用场合

手机和PadFerret-UI 2具备在iOS与Android设备上解析并完成多种任务的能力，包括应用内导航、信息发送及提醒设定等功能。
在线冲浪在访问网站时，协助用户更加高效地操作页面内容，如触发按钮、完成表格以及移动于各链接之间。
智慧电视机针对如Apple TV之类的智能电视系统，通过引入语音操控及更多互动模式来提升用户的操作体验。
在多种工作任务并行的环境中当用户需在同一时间管理多个应用或窗口时，能够更有效地协助他们进行任务的转换与控制。
支持性技术融合进辅助科技里，助力残疾朋友借助语音指令或其它输入手段操作装置。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Klaviyo —— 利用人工智能的自动营销工具，根据用户信息定制个性化的市场策略

ainav

253 0

基于多智能体的AI论文代码生成框架

ainav

240 0

博简专利平台：AI助力专利文件快速生成

ainav

89 0

腾讯推出AI程序员工具Ada，助力工作效率提升

ainav

104 0

Boardy – 基于AI的职业人脉扩展平台，精准匹配个性化的联系建议以满足您的职业生涯需求

ainav

442 0

ScienceOne智能科研平台：助力科研创新

ainav

411 0

一站式AI工具导航平台！汇聚超800+免费AI工具，涵盖AI写作、智能绘画、论文生成、视频制作、编程辅助、音频处理等全场景工具。每日更新热门 AIGC工具（如 Sora、AI Agent），助您快速找到提升办公、创作、学习效率的实用工具！立即访问ai-nav.net，探索 AI 新可能！

按下Ctrl+D或⌘+D 感谢收藏 ai-nav.net

友链申请免责声明广告合作关于我们站点地图提交AI工具

 度加创作工具百度AI开放平台 Bing新必应搜外友链 Manus GPTBots.ai Claude Code

Copyright © 2026 AI工具导航站粤ICP备2025438650号-2