阿里开源的逻辑-parser文档解析模型

AI工具2个月前发布 ainav
62 0

什么是Logics-Parsing

Logics-Parsing是由阿里巴巴推出的端到端文档解析模型,基于Qwen2.5-VL-7B构建而成。该模型通过强化学习优化文档的布局分析和阅读顺序推断能力,能够将PDF图像高效转换为结构化的HTML格式输出。它支持多种类型的内容识别,包括普通文本、数学公式、表格数据、化学方程式以及手写中文字符。

Logics-Parsing采用了两阶段训练策略:第一阶段是监督微调,重点培养模型生成结构化输出的能力;第二阶段则是以布局为中心的强化学习,主要优化文本准确性、元素定位精确度和阅读顺序合理性。在LogicsParsingBench基准测试中,该模型在纯文本解析、化学结构识别和手写内容处理等方面表现尤为突出。

Logics-Parsing的核心功能

  • 端到端文档转换能力: Logics-Parsing能够直接将PDF图像转换为结构化的HTML格式,支持普通文本、数学公式、表格数据等多种内容类型。这种端到端的处理方式极大提升了文档解析效率。
  • 多类型内容识别: 除了基本的文字识别外,该模型还能够准确解析复杂的数学公式、化学方程式以及手写中文字符,满足多样化的文档处理需求。
  • 精确的布局分析与定位: 通过强化学习优化的布局分析技术,Logics-Parsing能够准确定位文档中的各个元素位置,并合理推断阅读顺序,确保输出结果的逻辑性和可读性。
阿里开源的逻辑-parser文档解析模型
© 版权声明

相关文章