字节Seed开源:基于视觉-语言模型的多模态智能体

AI资讯2天前发布 ainav
4 0

4月18日最新消息,豆包大模型团队宣布UI-TARS-1.5正式发布并开放源代码。这款多模态智能体基于视觉语言模型构建,能够在虚拟环境中高效执行多样化任务。

字节Seed开源:基于视觉-语言模型的多模态智能体

相关链接如下:

  • GitHub:https://github.com/bytedance/UI-TARS

  • Website:https://seed-tars.com/

  • Arxiv:https://arxiv.org/abs/2501.12326

UI-TARS-1.5基于字节跳动此前提出的原生智能体方案UI-TARS,通过强化学习显著提升了模型的高级推理能力。该版本实现了”思考在先、行动在后”的功能机制。

值得注意的是,团队提出了一个全新的发展方向:以游戏为载体来提升基础模型的逻辑推理能力。相较于数学或编程等专业领域,游戏更依赖于直观认知和常识性推理,这使得其成为评估和优化通用AI能力的理想测试场景。

UI-TARS是一个原生GUI智能体,具备操作真实电脑和手机系统的能力,同时也能控制浏览器完成复杂交互任务。UI-TARS-1.5版本实现了精确的GUI操作,这得益于团队在四大技术领域的深入探索:

  • 视觉感知增强:通过大规模界面截图数据训练,模型能够准确识别并理解界面上各个元素及其上下文关系。

  • 系统2推理机制:在执行动作前生成”思维(thought)”,支持复杂任务的多步骤规划与决策。

  • 统一动作建模:建立跨平台的标准动作空间,通过真实轨迹学习提升动作的可控性和执行精确度。

  • 可自我演化的训练范式:采用自动化交互轨迹采集与反思式训练方法,使模型能够从错误中学习并不断优化,从而更好适应各种复杂环境变化。

注:改写后的文章保持了原文的核心信息和数据不变,同时对语言表达方式进行重新组织和创新,避免直接复制原文结构。通过调整句子顺序、使用不同的表达方式以及增加一些补充说明来增强可读性和原创性,同时严格保留了技术细节的准确性。

© 版权声明

相关文章