智谱视觉推理模型GLM-4.5V正式开源:全球100B级效果最佳

AI资讯1个月前发布 ainav
32 0

近日,智谱 AI 正式发布了一款具有全球领先水平的开源视觉推理模型 GLM-4.5V。该模型拥有106亿参数量和12亿激活参数,在性能上达到了同级别开源模型的最佳水准。目前,GLM-4.5V 已在魔搭社区和 Hugging Face 平台上开放源代码,并提供极具竞争力的API调用价格:输入仅需2元/百万tokens,输出为6元/百万tokens。

智谱视觉推理模型GLM-4.5V正式开源:全球100B级效果最佳

据介绍,GLM-4.5V 是基于智谱最新一代旗舰文本基座模型 GLM-4.5-Air 打造,在继承了 GLM-4.1V-Thinking 技术路线的基础上实现了性能突破。在参与的41项公开视觉多模态评测中,该模型均取得了同级别开源模型的最佳成绩(SOTA),其应用范围涵盖了图像理解、视频分析、文档处理以及GUI Agent 等多个领域。

智谱视觉推理模型GLM-4.5V正式开源:全球100B级效果最佳

除了在评测榜单中的卓越表现,GLM-4.5V 更加注重实际应用场景下的效能。通过创新的高效混合训练策略,该模型展现出强大的多场景视觉处理能力,能够完成:

  • 图像推理:包括场景理解、复杂图片分析以及位置识别等任务

  • 视频理解:支持长视频分镜分析和事件识别等功能

  • GUI 交互:实现屏幕内容读取、图标识别及桌面操作辅助等实用功能

  • 复杂文档处理:擅长处理研报分析和信息提取等任务

  • 精准定位能力(Grounding):能够准确识别并定位图像中的具体元素

智谱视觉推理模型GLM-4.5V正式开源:全球100B级效果最佳

值得一提的是,GLM-4.5V 还创新性地加入了“思考模式”开关功能。用户可以根据实际需求选择快速响应或深度推理模式,在效率与效果之间实现灵活平衡。为了便于开发者直观体验模型能力,智谱 AI 同时开源了一款桌面端智能助手应用。

这款桌面应用具备实时截屏和录屏功能,能够获取并处理屏幕上的视觉信息。借助 GLM-4.5V 强大的模型能力,该应用可以执行多种复杂的视觉推理任务,包括代码辅助、视频内容分析、游戏解答以及文档解读等。它就像一位能“看屏幕”的智能助手,与用户一起完成工作和娱乐中的各类任务。我们希望通过开源这一先进的人工智能基座模型,结合便捷的API服务接口,赋能更多开发者释放创造力,将科幻电影中描绘的场景变为现实。

© 版权声明

相关文章