智谱GLM-4.6V多模态AI大模型发布：开源+API降价50%

70 0 0

12月8日，智谱AI正式宣布推出并开源其全新的GLM-4.6V系列多模态大模型，该系列包括：

GLM-4.6V（106B-A12B）：专为云端和高性能计算集群设计的基础版本。
GLM-4.6V-Flash（9B）：面向本地部署及低延迟应用的轻量化版本。

作为GLM系列在多模态领域的重要更新，GLM-4.6V将上下文窗口提升至128k tokens，视觉理解精度达到同参数规模的最优水平（SOTA）。此外，该模型首次将Function Call能力直接融入视觉模块，实现了从“视觉感知”到“可执行动作”的完整链路，为多模态Agent应用提供了坚实的技术基础。

与上一代模型相比，GLM-4.6V系列价格降低50%，API调用费用进一步优化至输入1元/百万tokens，输出3元/百万tokens。

GLM-4.6V-Flash版本完全免费开放使用。

即日起，GLM-4.6V正式加入GLM Coding Plan，针对用户的八大应用场景专门开发了MCP工具，并能够自动调用最匹配的接口。

传统工具调用多基于文本处理，面对图像、视频等多模态内容时需要多次转换，导致信息损失和复杂度增加。GLM-4.6V从设计之初就支持原生多模态工具调用：

输入多样化：图像、截图、文档页面等可直接作为工具参数，无需转为文字描述再解析，减少信息损耗。
输出多模态处理：对于统计图表、网页截图等结果，模型能够直接进行视觉理解并纳入后续推理流程。

这种设计使得GLM-4.6V能够高效应对图文混排输出、商品识别与推荐、辅助型Agent等多种复杂视觉任务。

在MM Bench、MathVista、OCRBench等主流多模态评测中，GLM-4.6V较上一代模型实现了显著提升。在相同参数规模下，其多模态交互、逻辑推理和长上下文处理能力均达到SOTA水平。值得注意的是，9B版本的GLM-4.6V-Flash表现优于Qwen3-VL-8B，而106B参数的GLM-4.6V性能可比肩2倍参数量的Qwen3-VL-235B。

智谱AI提供了GLM-4.6V的完整开源支持，包括模型权重、推理代码和示例工程。以下是开源地址：