12月8日,智谱AI正式宣布推出并开源其全新的GLM-4.6V系列多模态大模型,该系列包括:
-
GLM-4.6V(106B-A12B):专为云端和高性能计算集群设计的基础版本。
-
GLM-4.6V-Flash(9B):面向本地部署及低延迟应用的轻量化版本。
作为GLM系列在多模态领域的重要更新,GLM-4.6V将上下文窗口提升至128k tokens,视觉理解精度达到同参数规模的最优水平(SOTA)。此外,该模型首次将Function Call能力直接融入视觉模块,实现了从“视觉感知”到“可执行动作”的完整链路,为多模态Agent应用提供了坚实的技术基础。
与上一代模型相比,GLM-4.6V系列价格降低50%,API调用费用进一步优化至输入1元/百万tokens,输出3元/百万tokens。
GLM-4.6V-Flash版本完全免费开放使用。
即日起,GLM-4.6V正式加入GLM Coding Plan,针对用户的八大应用场景专门开发了MCP工具,并能够自动调用最匹配的接口。
传统工具调用多基于文本处理,面对图像、视频等多模态内容时需要多次转换,导致信息损失和复杂度增加。GLM-4.6V从设计之初就支持原生多模态工具调用:
-
输入多样化:图像、截图、文档页面等可直接作为工具参数,无需转为文字描述再解析,减少信息损耗。
-
输出多模态处理:对于统计图表、网页截图等结果,模型能够直接进行视觉理解并纳入后续推理流程。
这种设计使得GLM-4.6V能够高效应对图文混排输出、商品识别与推荐、辅助型Agent等多种复杂视觉任务。
在MM Bench、MathVista、OCRBench等主流多模态评测中,GLM-4.6V较上一代模型实现了显著提升。在相同参数规模下,其多模态交互、逻辑推理和长上下文处理能力均达到SOTA水平。值得注意的是,9B版本的GLM-4.6V-Flash表现优于Qwen3-VL-8B,而106B参数的GLM-4.6V性能可比肩2倍参数量的Qwen3-VL-235B。
智谱AI提供了GLM-4.6V的完整开源支持,包括模型权重、推理代码和示例工程。以下是开源地址:
-
GitHub:https://github.com/zai-org/GLM-V
-
Hugging Face:https://huggingface.co/collections/zai-org/glm-46v
-
魔搭社区:https://modelscope.cn/collections/GLM-46V-37fabc27818446