智谱AI发布的新款多模态大型模型 —— CogVLM2

171 0 0

CogVLM2指的是什么？

智谱AI最近发布的新一代多模态大模型名为CogVLM2，在视觉与语言理解方面取得了显著的进步。该模型能够处理长达8K的文字以及分辨率达到1344*1344的图像输入，同时具备出色的文档图片解读能力。它集成了一个参数量为50亿的视觉编码器和一个70亿参数的视觉专家模块，并通过深度整合策略优化了这两种模态之间的交互作用，在提升图像理解精度的同时也保持了强大的语言处理功能。开源版本的CogVLM2支持中英双语，其模型规模约为19亿参数；不过在实际推理过程中，活跃使用的参数量大约为120亿，从而保证了多模态任务中的高性能表现。

CogVLM2的主要提升之处

相较于其前身，CogVLM2模型的主要进步体现在如下几个关键领域：

增强效能在包括OCRbench和TextVQA在内的多个重要评估指标中，CogVLM2的表现大幅增强，在OCRbench上的成绩提高了32%，而在TextVQA上的效果则增强了21.9%。
文件图片解析：CogVLM2显著提升了其在文档图像理解及问答方面的性能，在DocVQA评估标准中尤其突出。
提供高清图片支持该模型兼容最高达1344*1344像素的图片解析度，具备处理更细腻画面的能力。
鼓励扩展篇幅的内容创作得益于对高达8K字符长度文本的支持，CogVLM2能有效应对更为庞大的文件及更加复杂的语义工作。
多语言兼容性支持CogVLM2发布了具备中文和英文双语支持的开放源代码模型版本，提升了该模型处理多种语言的能力。

关于CogVLM2的模型详情

两款基于Meta-Llama-3-8B-Instruct构建的CogVLM2模型现已开源，分别是cogvlm2-llama3-chat-19B和专为中国语言设计的cogvlm2-llama3-chinese-chat-19B。有兴趣的用户可以在GitHub、Hugging Face或魔搭社区找到并下载这些模型，或是直接在线试用它们的功能。

该模型的称呼

# AI工具