小红书hi lab开源的dots.ocr多语言文档解析模型

627 0 0

什么是dots.ocr？

dots.ocr是由小红书 Hi Lab 团队开源的一款多语言文档布局解析工具。该工具基于具有17亿参数的视觉语言模型（VLM），能够实现文档页面的结构化分析和内容识别，同时保持自然的阅读顺序。尽管模型规模较小，但其性能达到了行业领先水平，在OmniDocBench等权威测试中表现优异。特别值得一提的是，dots.ocr在数学公式识别方面表现出色，与Doubao-1.5和 gemini2.5-pro 等大规模模型相比毫不逊色。此外，该工具在小语种文档处理方面具有显著优势。

dots.ocr的主要特点

多语言支持：dots.ocr能够解析多种语言的文档，包括文本、表格、公式和图片等多种元素。
一体化分析：在单视觉语言模型中同时完成布局检测和内容识别任务，并保持自然的阅读顺序。
高效推理能力：基于17亿参数的大模型，提供快速推理速度，适合处理各种规模文档。
灵活的任务切换：通过简单的提示词修改即可实现不同任务之间的转换，如布局检测、内容识别等。
多样化的输出格式：支持JSON、Markdown等多种输出格式，并提供直观的布局可视化结果。

dots.ocr的技术架构

视觉语言模型（VLM）基础：dots.ocr建立在17亿参数的视觉语言模型之上。该模型整合了视觉编码器和语言模型的优势，其中视觉编码器负责提取文档图像中的视觉特征，而语言模型则用于理解和生成文本内容。
三阶段优化训练：
- 视觉编码器预训练：从零开始训练了一个12亿参数的视觉编码器，使用大规模的图文对数据集进行初始学习。
- 持续预训练：引入高分辨率输入支持，并与语言模型进行对齐优化，进一步提升视觉特征提取能力。
- VLM联合训练：使用专门的OCR数据集进行微调，重点优化模型在文档解析任务中的表现。
监督微调（SFT）技术：采用多样化的数据集进行有监督微调，包括人工标注数据、合成生成数据和开源数据集。通过迭代式数据飞轮机制不断优化模型性能，并基于”大模型排序+规则后验”的方法来调整布局元素的阅读顺序，确保更符合人类的阅读习惯。
多任务切换机制：通过输入提示词（prompt）控制模型的任务类型。例如，可以通过简单的提示词修改让模型在布局检测、内容识别和公式解析等任务之间灵活切换。