IBM推出轻量级视觉语言AI模型Granite-Docling-258M:支持文件转换与中文

AI资讯2个月前发布 ainav
82 0

IBM于9月20日正式推出了其最新小型视觉语言模型——Granite-Docling-258M,这款模型专注于端到端文件转换任务,并采用了 Apache 2.0 开源协议。目前该模型已在 Hugging Face 平台上架(点击此处访问)。

据官方介绍,Granite-Docling 模型拥有258百万参数量,专为处理文档表格设计,是一款轻量化工具。该模型在转换过程中能够完整保留文件的版面布局、表格结构、数学公式、项目列表以及代码块等复杂元素,其识别准确率相比传统 OCR 技术有显著提升。

IBM表示,Granite-Docling 的核心创新在于 DocTags技术——这是由 IBM Research 团队开发的一套通用文档结构标记语言。DocTags 能够精确识别页面元素的类型、坐标位置、阅读顺序及元素间的关联关系,并实现了内容与版面结构的分离。这种处理方式使得模型可以先确定元素范围,再进行 OCR 识别,从而保证了转换后的文件质量。此外,通过 DocTags 处理后的内容可以直接输出为 Markdown、JSON 或 HTML 格式,也可进一步集成到 Docling 库中进行深度加工。

IBM推出轻量级视觉语言AI模型Granite-Docling-258M:支持文件转换与中文

目前,Granite-Docling 已经支持中文、阿拉伯语和日语等多种语言。不过该模型尚未达到“企业级”标准,IBM 表示未来将逐步扩大语言覆盖范围并提升系统的可靠性。与此同时,公司还在计划增强 DocTags 技术与 IBM watsonx.ai 模型的兼容性,并考虑将其词汇表整合到 Granite 分词器和训练流程中。

© 版权声明

相关文章