阿里开源的逻辑-parser文档解析模型

257 0 0

什么是Logics-Parsing

Logics-Parsing是由阿里巴巴推出的端到端文档解析模型，基于Qwen2.5-VL-7B构建而成。该模型通过强化学习优化文档的布局分析和阅读顺序推断能力，能够将PDF图像高效转换为结构化的HTML格式输出。它支持多种类型的内容识别，包括普通文本、数学公式、表格数据、化学方程式以及手写中文字符。

Logics-Parsing采用了两阶段训练策略：第一阶段是监督微调，重点培养模型生成结构化输出的能力；第二阶段则是以布局为中心的强化学习，主要优化文本准确性、元素定位精确度和阅读顺序合理性。在LogicsParsingBench基准测试中，该模型在纯文本解析、化学结构识别和手写内容处理等方面表现尤为突出。

Logics-Parsing的核心功能

端到端文档转换能力： Logics-Parsing能够直接将PDF图像转换为结构化的HTML格式，支持普通文本、数学公式、表格数据等多种内容类型。这种端到端的处理方式极大提升了文档解析效率。
多类型内容识别： 除了基本的文字识别外，该模型还能够准确解析复杂的数学公式、化学方程式以及手写中文字符，满足多样化的文档处理需求。
精确的布局分析与定位： 通过强化学习优化的布局分析技术，Logics-Parsing能够准确定位文档中的各个元素位置，并合理推断阅读顺序，确保输出结果的逻辑性和可读性。