豆包大模型1.6-vision发布:家族首款具备视觉工具调用能力的深度思考模型

AI资讯2个月前发布 ainav
45 0

10月1日,火山引擎宣布正式推出豆包大模型1.6-vision版本,这是该家族首款具备工具调用能力的视觉深度思考模型。此款新模型在多模态理解和推理能力方面表现突出,并支持Responses API接口服务,以更优的成本满足用户对视觉精准度的高标准需求。

据官方介绍,豆包大模型1.6-vision通过工具调用功能的差异化优势,将图像处理融入其思维链中,实现图片的定位、剪裁、点选、画线、缩放和旋转等精细操作。该模型模拟人类从”全局扫描”到”局部聚焦”的视觉推理过程,在提升推理可解释性的同时,能够高效精准地完成图像相关任务。

豆包大模型1.6-vision发布:家族首款具备视觉工具调用能力的深度思考模型

相较于上一代Doubao-1.5-thinking-vision-pro版本,豆包大模型1.6-vision在综合成本方面实现了约50%的降幅。以用户最常使用的32K输入输出场景为例,单次调用成本从5.25元降至2.6元,显著降低了使用门槛。

豆包大模型1.6-vision发布:家族首款具备视觉工具调用能力的深度思考模型

值得注意的是,火山引擎在今年6月已经推出了豆包大模型1.6版本,通过强化多模态思考能力来提升对复杂场景的理解。此次全新升级的1.6-vision版本在原有基础上进一步优化了视觉处理能力,为用户提供更强大的功能支持。

© 版权声明

相关文章