GLM-OCR:智谱开源的轻量级多模态OCR模型

AI工具2个月前发布 ainav
56 0

# GLM-OCR:新一代智能文档处理专家

GLM-OCR是由智谱AI推出的轻量化多模态光学字符识别模型,凭借仅0.9B的参数量,在OmniDocBench V1.5评测中取得了94.6分的优异成绩,成功登顶当前最优(SOTA)。该模型基于先进的GLM-V架构,融合了自研CogViT视觉编码器与轻量化跨模态连接层,并通过创新性的多Token预测损失和强化学习策略进行训练优化。在手写体识别、复杂表格解析、代码文档处理、印章提取以及多语言混排等高难度场景下展现出卓越的性能表现。

![GLM-OCR](https://ai-bot.cn/wp-content/uploads/2026/02/GLM-OCR-website1.png)

## 核心功能亮点

GLM-OCR集成了多项前沿技术,为文档处理提供了全方位的支持:

* **智能文本识别**:支持从照片、截图到扫描件和PDF等多种格式文件的处理,能够准确识别包括印刷体、手写体、印章文字及代码符号在内的各种文本类型。
* **表格数据解析**:精准理解和处理复杂表格结构,如合并单元格和多层表头等,直接输出HTML格式代码,省却二次制表的人工成本。
* **信息抽取与结构化**:从身份证、营业执照、票据等各类卡片和证件中自动提取关键字段信息,并以标准JSON格式输出,便于后续业务系统集成处理。
* **专业内容识别**:专门针对数学公式和程序代码进行优化,确保专业技术文档的准确识别与转换。
* **多语言及复杂排版支持**:完美应对竖排文字、多语言混排等复杂版式挑战,满足多样化文档处理需求。
* **高效批量处理能力**:支持大规模文档同时处理,输出统一格式化结果,为智能问答系统(RAG)提供高质量的数据基础。

© 版权声明

相关文章