EvoCUA:美团开源的通用多模态计算机操作模型

AI工具3个月前发布 ainav
82 0

EvoCUA是什么

EvoCUA(Evolving Computer Use Agent)是由美团开源的一款创新多模态模型,专注于计算机使用自动化任务的解决。该工具能够通过自然语言指令和屏幕截图实现对Chrome、Excel、PowerPoint等主流软件的端到端多轮操作,有效提升了人机交互效率。在权威的OSWorld基准测试中,EvoCUA以56.7%的任务完成率位居开源模型榜首,成功超越了包括多个知名模型在内的竞争对手。

作为一项具有突破性的技术,EvoCUA采用了独特的数据合成与训练方法,在保持视觉语言模型通用性能的同时,显著提升了其在计算机使用场景中的实际应用能力。这种创新的训练方式不仅优化了模型的准确性,还确保了其在不同复杂任务中的稳定表现。

EvoCUA:美团开源的通用多模态计算机操作模型

EvoCUA的主要功能

  • 多轮交互:支持与桌面环境进行多次对话式交互,能够根据具体任务需求逐步完成复杂操作。这种设计使用户可以更自然地通过语言指令完成任务。
  • 灵活的任务处理能力:不仅限于单一任务执行,EvoCUA能够理解上下文关系,在多任务场景中也能表现出色,为用户提供更加智能的交互体验。
  • 跨平台兼容性:支持多种主流操作系统和应用程序,具有广泛的适用性和强大的环境适应能力,满足不同用户的多样化需求。

EvoCUA不仅是一款功能强大的自动化工具,更是一个开放协作的起点。通过开源社区的支持,该模型将持续进化,为计算机使用自动化领域的发展注入新的活力。

© 版权声明

相关文章