智源大语言模型GLM-4.6发布,开源多模态再突破

AI工具4个月前发布 ainav
110 0

GLM-4.6V是什么

GLM-4.6V是由智谱公司推出的一款先进的多模态大语言模型。该模型包括两个版本:面向云端和高性能计算集群的基础版GLM-4.6V(106B-A12B)以及专为本地部署和低延迟场景设计的轻量化版本GLM-4.6V-Flash(9B)。GLM-4.6V支持最长128k tokens的上下文窗口,视觉理解精度达到同参数规模模型的顶尖水平,并首次将工具调用能力直接融入视觉处理模块,实现了从感知到执行操作的完整闭环。在实际应用中,GLM-4.6V被广泛用于智能图文创作、图像识别购物、前端开发复刻以及长文档和视频分析等领域。相比上一代模型GLM-4.5V,其性能得到了显著提升且成本降低了50%。

智源大语言模型GLM-4.6发布,开源多模态再突破

GLM-4.6V的主要功能

  • 多模态内容处理与生成能力:该模型能够同时处理图像、视频和文本等多种输入形式,并能生成高质量的图文混合输出,适用于内容创作、社交媒体发布等多样化场景。
  • 视觉驱动的工具操作功能:支持直接使用图像或截图作为工具参数进行操作,无需依赖文字描述,有效减少了信息传递过程中的损失。同时,模型还能够处理工具返回的各种多模态结果,例如统计图表和网页截图等。
  • 超长上下文处理能力:上下文窗口扩展至128k tokens,可处理长达150页的复杂文档或时长一小时的视频内容。这种特性使得跨文档对比分析及长视频中的关键事件定位成为可能。
  • 智能导购与商品比价:在电商领域,模型能够实现从图像识别到商品搜索、自动比价以及购物清单生成的一站式服务流程。
  • 前端开发支持:具备高精度的像素级前端复刻能力,可将设计稿快速转换为运行中的网页代码,并支持基于截图进行多轮视觉交互修改,极大提升了开发效率。
  • 多模态智能推理:在处理复杂任务时,模型能够结合视觉和文本信息进行联合推理,并生成结构化的输出结果。这种能力使其适用于广泛的业务场景。
  • 高性价比与灵活部署选项:相较于上一代产品,GLM-4.6V的成本降低了50%。同时支持云端、本地以及多种硬件环境的部署方案,充分满足不同应用场景的需求。

GLM-4.6V的性能表现

在MMBench、MathVista、OCRBench等30多个权威多模态测试基准中,GLM-4.6V相较于上一代模型表现出显著优势。特别是在多模态交互、逻辑推理和长上下文处理等方面的性能已达到行业领先水平。

  • 轻量版9B参数的GLM-4.6V-Flash:该版本在实际应用中的综合表现已经超越了具有8B参数的Qwen3-VL-8B模型,在多模态任务中展现出更高的效率和性能水平。
  • 基础版106B参数、12B激活量的GLM-4.6V:其性能表现可比肩具有两倍参数量的Qwen3-VL-235B模型,充分证明了该模型在参数使用效率上的显著优势,能够在有限计算资源下实现接近甚至超越更高参数规模模型的效果。
智源大语言模型GLM-4.6发布,开源多模态再突破

GLM-4.6V的模型亮点

  • 智能工具调用能力:模型原生支持基于视觉输入的工具操作功能,能够处理包括图文混排、图像识别购物与导购以及Agent场景等在内的复杂视觉任务。
  • 超长文本理解能力:通过128k tokens的上下文窗口设计,理论上可以处理高达150页的复杂文档或200页的PPT内容,甚至一小时时长的视频数据。这使得模型能够一次性完成对多个长文档或长视频的分析任务。
  • 前端开发效率提升:在前端复刻和多轮视觉交互修改方面的能力得到显著优化,帮助开发者更高效地将设计稿转化为实际运行的网页页面。
  • 同级别最优性能:在相同参数规模下,GLM-4.6V在多模态交互、逻辑推理以及长上下文处理等核心能力上达到了行业领先的SOTA水平。

如何使用GLM-4.6V

  • 本地部署方式:可以从GitHub或其他开源平台下载相关代码和模型权重文件,然后在个人电脑或服务器环境中进行安装和运行。

© 版权声明

相关文章