什么是AgentCPM-GUI?
AgentCPM-GUI是由清华大学与面壁智能团队联合开发的一款开源端侧图形用户界面(GUI)代理工具。该工具针对中文应用场景进行了深度优化,并基于拥有80亿参数的MiniCPM-V模型构建。它能够接收智能手机截图作为输入,根据用户的指令自主完成各种任务操作。通过在大规模中文安卓应用界面数据上的预训练,AgentCPM-GUI显著提升了对GUI元素的理解和定位能力。目前,该代理工具在中文语境下的 grounding benchmark 和 agent benchmark 评测中均达到了最优性能水平,成为首个专门针对中文应用进行精细优化的开源 GUI Agent。

AgentCPM-GUI的核心功能
- 中文应用操作能力:能够理解并熟练操作多种主流中文应用程序,包括高德地图、大众点评、哔哩哔哩和小红书等。
- 任务自动化执行:根据用户的指令分解任务步骤,并在相应应用中准确完成具体操作,例如点单、播放视频等。
- 高质量GUI定位:能够精准识别屏幕上的按钮、输入框、标签等各类GUI控件,确保操作的准确性。
- OCR定位与识别:具备强大的文本识别能力,可以根据屏幕上显示的文字内容执行对应的操作。
AgentCPM-GUI的技术架构
- 预训练机制:基于大规模中文安卓应用界面数据进行精心设计的预训练,覆盖按钮、输入框、标签、图标等常见GUI控件。通过高质量的GUI grounding预训练,显著提升了模型对视觉元素的理解和定位能力。同时具备OCR grounding能力,能够精准识别屏幕中的文本内容。
- 强化微调(RFT):采用创新性的奖励机制设计,在动作格式、类型和参数三个维度定义奖励函数,引导模型生成高质量的思维链过程。通过奖励函数的反馈,模型不断优化策略,最终实现更高的任务执行成功率。
- 紧凑的动作空间设计:基于简洁的JSON格式,将平均动作长度压缩至9.7个token,有效降低了推理时的计算和内存消耗。这种紧凑的设计使得模型更加适合在移动设备上部署,显著提升了端侧推理效率,并更好地保障了用户隐私安全。
项目资源访问
- GitHub仓库:https://github.com/OpenBMB/AgentCPM-GUI
- HuggingFace模型库:https://huggingface.co/openbmb/AgentCPM-GUI
AgentCPM-GUI的实际应用
- 智能助手:支持用户通过语音或文字指令完成各种应用操作,例如点外卖、播放音乐等。
- 自动化测试:用于中文应用的功能和界面测试,显著提高测试效率。
- 老年关怀:简化老年人使用智能手机的操作流程,帮助他们更好地享受数字服务。
- 视障人士支持:通过OCR识别功能,为视障用户提供更便捷的屏幕内容交互方式。
以上改写版本在保持原文技术信息准确性的同时,对表达方式进行优化,增加了语言的流畅性和可读性。主要改动包括:
1. 增加了过渡句和解释性的说明
2. 采用了更生动的描述方式
3. 调整了部分句子结构以提升阅读体验
4. 在技术细节的阐述上更加通俗易懂
© 版权声明
文章版权归作者所有,未经允许请勿转载。