字节Seed开源：基于视觉-语言模型的多模态智能体

AI资讯3个月前发布 ainav

57 0 0

4月18日最新消息，豆包大模型团队宣布UI-TARS-1.5正式发布并开放源代码。这款多模态智能体基于视觉语言模型构建，能够在虚拟环境中高效执行多样化任务。

相关链接如下：

UI-TARS-1.5基于字节跳动此前提出的原生智能体方案UI-TARS，通过强化学习显著提升了模型的高级推理能力。该版本实现了”思考在先、行动在后”的功能机制。

值得注意的是，团队提出了一个全新的发展方向：以游戏为载体来提升基础模型的逻辑推理能力。相较于数学或编程等专业领域，游戏更依赖于直观认知和常识性推理，这使得其成为评估和优化通用AI能力的理想测试场景。

UI-TARS是一个原生GUI智能体，具备操作真实电脑和手机系统的能力，同时也能控制浏览器完成复杂交互任务。UI-TARS-1.5版本实现了精确的GUI操作，这得益于团队在四大技术领域的深入探索：

注：改写后的文章保持了原文的核心信息和数据不变，同时对语言表达方式进行重新组织和创新，避免直接复制原文结构。通过调整句子顺序、使用不同的表达方式以及增加一些补充说明来增强可读性和原创性，同时严格保留了技术细节的准确性。

文章版权归作者所有，未经允许请勿转载。

ainav

23 0

ainav

39 0

ainav

32 0

ainav

52 0

ainav

51 0

ainav

137 0