智谱视觉推理模型GLM-4.5V正式开源：全球100B级效果最佳

227 0 0

近日，智谱 AI 正式发布了一款具有全球领先水平的开源视觉推理模型 GLM-4.5V。该模型拥有106亿参数量和12亿激活参数，在性能上达到了同级别开源模型的最佳水准。目前，GLM-4.5V 已在魔搭社区和 Hugging Face 平台上开放源代码，并提供极具竞争力的API调用价格：输入仅需2元/百万tokens，输出为6元/百万tokens。

据介绍，GLM-4.5V 是基于智谱最新一代旗舰文本基座模型 GLM-4.5-Air 打造，在继承了 GLM-4.1V-Thinking 技术路线的基础上实现了性能突破。在参与的41项公开视觉多模态评测中，该模型均取得了同级别开源模型的最佳成绩（SOTA），其应用范围涵盖了图像理解、视频分析、文档处理以及GUI Agent 等多个领域。

除了在评测榜单中的卓越表现，GLM-4.5V 更加注重实际应用场景下的效能。通过创新的高效混合训练策略，该模型展现出强大的多场景视觉处理能力，能够完成：

图像推理：包括场景理解、复杂图片分析以及位置识别等任务
视频理解：支持长视频分镜分析和事件识别等功能
GUI 交互：实现屏幕内容读取、图标识别及桌面操作辅助等实用功能
复杂文档处理：擅长处理研报分析和信息提取等任务
精准定位能力（Grounding）：能够准确识别并定位图像中的具体元素

值得一提的是，GLM-4.5V 还创新性地加入了“思考模式”开关功能。用户可以根据实际需求选择快速响应或深度推理模式，在效率与效果之间实现灵活平衡。为了便于开发者直观体验模型能力，智谱 AI 同时开源了一款桌面端智能助手应用。

这款桌面应用具备实时截屏和录屏功能，能够获取并处理屏幕上的视觉信息。借助 GLM-4.5V 强大的模型能力，该应用可以执行多种复杂的视觉推理任务，包括代码辅助、视频内容分析、游戏解答以及文档解读等。它就像一位能“看屏幕”的智能助手，与用户一起完成工作和娱乐中的各类任务。我们希望通过开源这一先进的人工智能基座模型，结合便捷的API服务接口，赋能更多开发者释放创造力，将科幻电影中描绘的场景变为现实。

# AI资讯