火山引擎发布豆包1.5版本，新增GUI Agent功能

AI资讯1年前 (2025)发布 ainav

283 0 0

5月13日，在上海举办的FORCE LINK AI创新巡展上，火山引擎正式推出了全新升级的豆包1.5视觉深度思考模型（Doubao-1.5-thinking-vision-pro）。尽管该模型仅拥有20B的激活参数量，却展现了卓越的多模态理解和推理能力。在60个公开评测基准中，有38项达到了业界领先水平（SOTA），尤其在视频理解、视觉推理和GUI Agent功能等方面表现突出。

在视频理解领域，豆包1.5模型实现了显著的技术突破。它采用了动态帧率采样技术，极大地提升了视频时序定位能力。借助先进的向量搜索功能，模型能够精准识别并提取与文本描述相对应的视频片段，为深度内容分析和高效检索提供了强有力的支持。

值得一提的是，该版本还新增了强大的视频深度思考能力。通过学习海量多模态标注数据，模型积累了丰富的视觉知识储备，并结合强化学习技术，显著提升了其视觉推理效能。在复杂的图形推理任务中，模型能够自主建立假设、进行逻辑验证，并在发现与预期不符时主动反思，调整策略直至得出准确结论。

此外，豆包1.5模型在GUI Agent能力方面也实现了重要突破。凭借其卓越的图形用户界面定位性能，该模型能够胜任PC端、手机端等多种环境下的复杂交互任务。例如，在新功能App测试中，它能自动执行点击、输入、拖拽等操作，并准确读取界面信息，目前这一功能已在字节跳动多款应用程序的开发阶段得到实际应用。

注：

GUI Agent是一种基于多模态视觉模型驱动的人工智能系统，能够自动完成UI交互操作，模拟人类用户的各项任务。这包括执行点击、输入、拖拽等基础操作，以及读取和处理界面信息。

目前，豆包1.5视觉深度思考模型已正式入驻火山方舟平台，为开发者和用户提供强大技术支持。

# AI资讯