11月18日讯,微软亚洲研究院于11月16日发布博文中提到,针对计算机使用AI智能体(computer-use AI agents)因软件界面频繁变化而导致的准确性与可靠性不足问题,他们推出了一款名为UI-Evol的新组件。
所谓计算机使用智能体,是一种新兴的人工智能系统。这类系统能够像人类一样通过图形用户界面(GUI)自主操作各类软件,完成填写表单、管理工作流等复杂任务。尽管其应用前景广阔,但在实际使用中却面临诸多挑战。
当前AI智能体在实践中表现欠佳的主要原因是存在一个被称为“知识-行动鸿沟”(knowledge-action gap)的问题。具体来说,这些智能体虽然能够获取丰富的外部知识来理解屏幕内容,但在转化为实际操作时却常常力不从心。
一项研究表明,即使AI智能体的指令正确率达到90%,其任务最终的成功率也只有41%。这表明单纯依赖外部知识的智能体难以真正胜任复杂的实际任务。
更为严重的是,这些AI智能体的行为具有高度不可预测性。每次执行相同任务时,它们都可能采取不同的操作方式,这种不稳定性极大地限制了其在现实场景中的应用价值。

针对上述问题,微软亚洲研究院开发了一款名为UI-Evol的即用型组件。该组件能够无缝融入智能体的工作流程,其创新之处在于不依赖外部静态知识,而是让智能体直接从真实的软件界面中获取操作指导。
UI-Evol的核心理念是通过持续更新和优化对界面的理解,将知识与实际的软件环境动态对齐。这种设计使得智能体能够更准确、可靠地完成任务,从而有效弥合理论知识与实际操作之间的鸿沟。该研究成果已在ICML 2025计算机使用智能体研讨会上发表。
UI-Evol的工作流程包含两个关键阶段:首先是“回溯”(retrace),系统会详细记录智能体为完成某项任务所执行的每一步操作,包括所有点击和按键等具体行为,从而捕获一套完整且可验证的行动轨迹。

第二个阶段是“审校”(critique),系统会将这套实际操作轨迹与外部指令进行对比。发现不匹配之处时,UI-Evol便会调整知识库内容,使其更贴近真实软件环境下的有效操作步骤。通过这两个阶段的循环迭代,通用的外部指令逐步演变为经过实践验证、高度可靠的智能体行动指南。
在测试阶段,研究团队选择了性能顶尖的计算机使用智能体Agent S2,并采用OSWorld基准测试对UI-Evol进行了全面评估。该基准测试专为评估多模态智能体在真实软件和工作流中的开放式任务而设计。
实验结果表明,引入UI-Evol不仅显著提升了任务的成功率,还有效解决了“高行为标准差”这一长期存在的难题。集成UI-Evol后,基于GPT-4o等先进大语言模型的智能体表现出更高的稳定性和可预测性。


附上参考地址
-
UI-Evol: Compute-use Agents Act on Knowledge