5月13日,在上海举办的FORCE LINK AI创新巡展上,火山引擎正式推出了全新升级的豆包1.5视觉深度思考模型(Doubao-1.5-thinking-vision-pro)。尽管该模型仅拥有20B的激活参数量,却展现了卓越的多模态理解和推理能力。在60个公开评测基准中,有38项达到了业界领先水平(SOTA),尤其在视频理解、视觉推理和GUI Agent功能等方面表现突出。
在视频理解领域,豆包1.5模型实现了显著的技术突破。它采用了动态帧率采样技术,极大地提升了视频时序定位能力。借助先进的向量搜索功能,模型能够精准识别并提取与文本描述相对应的视频片段,为深度内容分析和高效检索提供了强有力的支持。
值得一提的是,该版本还新增了强大的视频深度思考能力。通过学习海量多模态标注数据,模型积累了丰富的视觉知识储备,并结合强化学习技术,显著提升了其视觉推理效能。在复杂的图形推理任务中,模型能够自主建立假设、进行逻辑验证,并在发现与预期不符时主动反思,调整策略直至得出准确结论。
此外,豆包1.5模型在GUI Agent能力方面也实现了重要突破。凭借其卓越的图形用户界面定位性能,该模型能够胜任PC端、手机端等多种环境下的复杂交互任务。例如,在新功能App测试中,它能自动执行点击、输入、拖拽等操作,并准确读取界面信息,目前这一功能已在字节跳动多款应用程序的开发阶段得到实际应用。
注:
GUI Agent是一种基于多模态视觉模型驱动的人工智能系统,能够自动完成UI交互操作,模拟人类用户的各项任务。这包括执行点击、输入、拖拽等基础操作,以及读取和处理界面信息。
目前,豆包1.5视觉深度思考模型已正式入驻火山方舟平台,为开发者和用户提供强大技术支持。
© 版权声明
文章版权归作者所有,未经允许请勿转载。