智谱GLM-4.5V 视觉推理开源新突破

AI工具3个月前发布 ainav
99 0

GLM-4.5V是什么

GLM-4.5V是由智谱公司开发的最新一代视觉语言模型(VLM),基于106B参数规模构建,并具有12B激活能力。该模型在继承前代GLM-4.1V-Thinking架构的基础上,结合了新一代文本基座模型GLM-4.5-Air进行优化训练。GLM-4.5V不仅显著提升了视觉理解与推理能力,在网页前端复刻、图像定位(grounding)、图寻游戏、视频分析等多个应用场景中也展现出了卓越的性能。为了便于开发者快速上手,智谱团队还开源了一款桌面端辅助工具,支持实时截屏、录屏,并能通过GLM-4.5V模型实现代码辅助、视频分析、游戏解答和文档解读等功能。

GLM-4.5V的主要功能

  • 视觉理解与推理:能够深入理解和分析图像、视频等视觉内容,完成复杂场景下的视觉推理任务,如物体识别、场景解析及人物关系推断。
  • 多模态交互:支持文本与视觉信息的深度融合处理,实现根据文本生成图像或从图像生成文本描述的双向转换能力。
  • 网页前端复刻:用户只需上传网页设计图,模型即可自动生成相应的前端代码,极大提升开发效率。
  • 图寻游戏:在复杂场景中快速定位并匹配特定目标图像,帮助用户高效完成图像搜索任务。
  • 视频理解:支持对视频内容进行分析,提取关键信息并生成摘要或检测视频中的重要事件。
  • 跨模态生成:实现了从视觉内容到文本的转换,以及从文本到视觉内容的生成,推动多模态数据间的无缝衔接与转化。

GLM-4.5V的技术原理

  • 大规模预训练:基于106B参数量的Transformer架构进行海量文本和视觉数据的联合预训练,建立统一的语言和视觉表征体系。
  • 视觉语言融合:采用先进的交叉注意力机制,实现文本特征与视觉特征的有效交互,构建多模态信息处理框架。
  • 动态激活机制:创新性地引入12B激活参数,在推理过程中实时选择并激活相关参数子集,显著提升计算效率和模型性能。
  • 结构优化与继承:在保留前代优秀架构的基础上,结合新一代文本基座模型GLM-4.5-Air的训练经验,进一步提升了模型的整体表现。
  • 多任务适配能力:通过灵活的微调策略和针对性优化,使模型能够快速适应不同场景下的多模态任务需求,如视觉问答、图像描述生成等。

GLM-4.5V的性能表现

  • 通用视觉问答(General VQA):在MMBench v1.1基准测试中取得了88.2%的优异成绩,展现出强大的视觉理解能力。
  • STEM领域任务:在MathVista测试中获得84.6分,在科学、技术、工程和数学相关任务中表现出色。
  • 长文档处理与图表分析:通过OCRBench测试,模型以86.5分证明了其在复杂文档和图表解析方面的实力。
  • 视觉定位(Visual Grounding):在RefCOCO+loc (val)测试中得分91.3%,展现了精准的图像定位能力。
  • 空间推理能力:CV-Bench测试中的87.3分成绩,验证了模型在复杂场景下的空间关系理解能力。
  • 编程任务处理:Design2Code基准测试中取得82.2分,体现了模型的代码生成与理解能力。
  • 视频理解:VideoMME (w/o sub)测试中的74.6分成绩,证明了其在多模态视频分析方面的优势。

GLM-4.5V的项目地址

如何使用GLM-4.5V

  • 账号注册与登录:访问Z.ai官网,使用邮箱完成注册并登录。
  • 选择模型:在控制面板中找到并选择GLM-4.5V作为处理引擎。
  • 功能体验:
    • 网页前端复刻:上传设计图,获取自动生成的前端代码。
    • 视觉推理:上传图像或视频文件,进行场景分析、物体识别等操作。
    • 图寻游戏:输入目标图像,模型在复杂背景下快速匹配并定位目标。
    • 视频理解:上传视频文件,获取关键信息提取和事件检测结果。

GLM-4.5V的API调用价格

  • 输入费用:每百万tokens处理费用为2元。
© 版权声明

相关文章