智谱GLM-4.6V多模态AI大模型发布:开源+API降价50%

AI资讯2个月前发布 ainav
70 0

12月8日,智谱AI正式宣布推出并开源其全新的GLM-4.6V系列多模态大模型,该系列包括:

  • GLM-4.6V(106B-A12B):专为云端和高性能计算集群设计的基础版本。

  • GLM-4.6V-Flash(9B):面向本地部署及低延迟应用的轻量化版本。

智谱GLM-4.6V多模态AI大模型发布:开源+API降价50%

作为GLM系列在多模态领域的重要更新,GLM-4.6V将上下文窗口提升至128k tokens,视觉理解精度达到同参数规模的最优水平(SOTA)。此外,该模型首次将Function Call能力直接融入视觉模块,实现了从“视觉感知”到“可执行动作”的完整链路,为多模态Agent应用提供了坚实的技术基础。

与上一代模型相比,GLM-4.6V系列价格降低50%,API调用费用进一步优化至输入1元/百万tokens,输出3元/百万tokens。

GLM-4.6V-Flash版本完全免费开放使用

即日起,GLM-4.6V正式加入GLM Coding Plan,针对用户的八大应用场景专门开发了MCP工具,并能够自动调用最匹配的接口。

智谱GLM-4.6V多模态AI大模型发布:开源+API降价50%

传统工具调用多基于文本处理,面对图像、视频等多模态内容时需要多次转换,导致信息损失和复杂度增加。GLM-4.6V从设计之初就支持原生多模态工具调用

  • 输入多样化:图像、截图、文档页面等可直接作为工具参数,无需转为文字描述再解析,减少信息损耗。

  • 输出多模态处理:对于统计图表、网页截图等结果,模型能够直接进行视觉理解并纳入后续推理流程。

这种设计使得GLM-4.6V能够高效应对图文混排输出、商品识别与推荐、辅助型Agent等多种复杂视觉任务。

智谱GLM-4.6V多模态AI大模型发布:开源+API降价50%

在MM Bench、MathVista、OCRBench等主流多模态评测中,GLM-4.6V较上一代模型实现了显著提升。在相同参数规模下,其多模态交互、逻辑推理和长上下文处理能力均达到SOTA水平。值得注意的是,9B版本的GLM-4.6V-Flash表现优于Qwen3-VL-8B,而106B参数的GLM-4.6V性能可比肩2倍参数量的Qwen3-VL-235B。

图片

智谱AI提供了GLM-4.6V的完整开源支持,包括模型权重、推理代码和示例工程。以下是开源地址:

  • GitHub:https://github.com/zai-org/GLM-V

  • Hugging Face:https://huggingface.co/collections/zai-org/glm-46v

  • 魔搭社区:https://modelscope.cn/collections/GLM-46V-37fabc27818446

© 版权声明

相关文章