GLM-OCR：智谱开源的轻量级多模态OCR模型

138 0 0

# GLM-OCR：新一代智能文档处理专家

GLM-OCR是由智谱AI推出的轻量化多模态光学字符识别模型，凭借仅0.9B的参数量，在OmniDocBench V1.5评测中取得了94.6分的优异成绩，成功登顶当前最优（SOTA）。该模型基于先进的GLM-V架构，融合了自研CogViT视觉编码器与轻量化跨模态连接层，并通过创新性的多Token预测损失和强化学习策略进行训练优化。在手写体识别、复杂表格解析、代码文档处理、印章提取以及多语言混排等高难度场景下展现出卓越的性能表现。

![GLM-OCR](https://ai-bot.cn/wp-content/uploads/2026/02/GLM-OCR-website1.png)

## 核心功能亮点

GLM-OCR集成了多项前沿技术，为文档处理提供了全方位的支持：

* **智能文本识别**：支持从照片、截图到扫描件和PDF等多种格式文件的处理，能够准确识别包括印刷体、手写体、印章文字及代码符号在内的各种文本类型。
* **表格数据解析**：精准理解和处理复杂表格结构，如合并单元格和多层表头等，直接输出HTML格式代码，省却二次制表的人工成本。
* **信息抽取与结构化**：从身份证、营业执照、票据等各类卡片和证件中自动提取关键字段信息，并以标准JSON格式输出，便于后续业务系统集成处理。
* **专业内容识别**：专门针对数学公式和程序代码进行优化，确保专业技术文档的准确识别与转换。
* **多语言及复杂排版支持**：完美应对竖排文字、多语言混排等复杂版式挑战，满足多样化文档处理需求。
* **高效批量处理能力**：支持大规模文档同时处理，输出统一格式化结果，为智能问答系统（RAG）提供高质量的数据基础。

# AI工具