智谱AI发布的新款多模态大型模型 —— CogVLM2

AI工具3个月前发布 ainav
93 0

CogVLM2指的是什么?

智谱AI最近发布的新一代多模态大模型名为CogVLM2,在视觉与语言理解方面取得了显著的进步。该模型能够处理长达8K的文字以及分辨率达到1344*1344的图像输入,同时具备出色的文档图片解读能力。它集成了一个参数量为50亿的视觉编码器和一个70亿参数的视觉专家模块,并通过深度整合策略优化了这两种模态之间的交互作用,在提升图像理解精度的同时也保持了强大的语言处理功能。开源版本的CogVLM2支持中英双语,其模型规模约为19亿参数;不过在实际推理过程中,活跃使用的参数量大约为120亿,从而保证了多模态任务中的高性能表现。

CogVLM2

CogVLM2的主要提升之处

相较于其前身,CogVLM2模型的主要进步体现在如下几个关键领域:

  • 增强效能在包括OCRbench和TextVQA在内的多个重要评估指标中,CogVLM2的表现大幅增强,在OCRbench上的成绩提高了32%,而在TextVQA上的效果则增强了21.9%。
  • 文件图片解析:CogVLM2显著提升了其在文档图像理解及问答方面的性能,在DocVQA评估标准中尤其突出。
  • 提供高清图片支持该模型兼容最高达1344*1344像素的图片解析度,具备处理更细腻画面的能力。
  • 鼓励扩展篇幅的内容创作得益于对高达8K字符长度文本的支持,CogVLM2能有效应对更为庞大的文件及更加复杂的语义工作。
  • 多语言兼容性支持CogVLM2发布了具备中文和英文双语支持的开放源代码模型版本,提升了该模型处理多种语言的能力。

关于CogVLM2的模型详情

两款基于Meta-Llama-3-8B-Instruct构建的CogVLM2模型现已开源,分别是cogvlm2-llama3-chat-19B和专为中国语言设计的cogvlm2-llama3-chinese-chat-19B。有兴趣的用户可以在GitHub、Hugging Face或魔搭社区找到并下载这些模型,或是直接在线试用它们的功能。

该模型的称呼
© 版权声明

相关文章