智源大语言模型GLM-4.6发布，开源多模态再突破

130 0 0

GLM-4.6V是什么

GLM-4.6V是由智谱公司推出的一款先进的多模态大语言模型。该模型包括两个版本：面向云端和高性能计算集群的基础版GLM-4.6V（106B-A12B）以及专为本地部署和低延迟场景设计的轻量化版本GLM-4.6V-Flash（9B）。GLM-4.6V支持最长128k tokens的上下文窗口，视觉理解精度达到同参数规模模型的顶尖水平，并首次将工具调用能力直接融入视觉处理模块，实现了从感知到执行操作的完整闭环。在实际应用中，GLM-4.6V被广泛用于智能图文创作、图像识别购物、前端开发复刻以及长文档和视频分析等领域。相比上一代模型GLM-4.5V，其性能得到了显著提升且成本降低了50%。

GLM-4.6V的主要功能

多模态内容处理与生成能力：该模型能够同时处理图像、视频和文本等多种输入形式，并能生成高质量的图文混合输出，适用于内容创作、社交媒体发布等多样化场景。
视觉驱动的工具操作功能：支持直接使用图像或截图作为工具参数进行操作，无需依赖文字描述，有效减少了信息传递过程中的损失。同时，模型还能够处理工具返回的各种多模态结果，例如统计图表和网页截图等。
超长上下文处理能力：上下文窗口扩展至128k tokens，可处理长达150页的复杂文档或时长一小时的视频内容。这种特性使得跨文档对比分析及长视频中的关键事件定位成为可能。
智能导购与商品比价：在电商领域，模型能够实现从图像识别到商品搜索、自动比价以及购物清单生成的一站式服务流程。
前端开发支持：具备高精度的像素级前端复刻能力，可将设计稿快速转换为运行中的网页代码，并支持基于截图进行多轮视觉交互修改，极大提升了开发效率。
多模态智能推理：在处理复杂任务时，模型能够结合视觉和文本信息进行联合推理，并生成结构化的输出结果。这种能力使其适用于广泛的业务场景。
高性价比与灵活部署选项：相较于上一代产品，GLM-4.6V的成本降低了50%。同时支持云端、本地以及多种硬件环境的部署方案，充分满足不同应用场景的需求。

GLM-4.6V的性能表现

在MMBench、MathVista、OCRBench等30多个权威多模态测试基准中，GLM-4.6V相较于上一代模型表现出显著优势。特别是在多模态交互、逻辑推理和长上下文处理等方面的性能已达到行业领先水平。

轻量版9B参数的GLM-4.6V-Flash：该版本在实际应用中的综合表现已经超越了具有8B参数的Qwen3-VL-8B模型，在多模态任务中展现出更高的效率和性能水平。
基础版106B参数、12B激活量的GLM-4.6V：其性能表现可比肩具有两倍参数量的Qwen3-VL-235B模型，充分证明了该模型在参数使用效率上的显著优势，能够在有限计算资源下实现接近甚至超越更高参数规模模型的效果。

GLM-4.6V的模型亮点

智能工具调用能力：模型原生支持基于视觉输入的工具操作功能，能够处理包括图文混排、图像识别购物与导购以及Agent场景等在内的复杂视觉任务。
超长文本理解能力：通过128k tokens的上下文窗口设计，理论上可以处理高达150页的复杂文档或200页的PPT内容，甚至一小时时长的视频数据。这使得模型能够一次性完成对多个长文档或长视频的分析任务。
前端开发效率提升：在前端复刻和多轮视觉交互修改方面的能力得到显著优化，帮助开发者更高效地将设计稿转化为实际运行的网页页面。
同级别最优性能：在相同参数规模下，GLM-4.6V在多模态交互、逻辑推理以及长上下文处理等核心能力上达到了行业领先的SOTA水平。