小红书hi lab开源的dots.ocr多语言文档解析模型

AI工具8个月前发布 ainav
454 0

什么是dots.ocr?

dots.ocr是由小红书 Hi Lab 团队开源的一款多语言文档布局解析工具。该工具基于具有17亿参数的视觉语言模型(VLM),能够实现文档页面的结构化分析和内容识别,同时保持自然的阅读顺序。尽管模型规模较小,但其性能达到了行业领先水平,在OmniDocBench等权威测试中表现优异。特别值得一提的是,dots.ocr在数学公式识别方面表现出色,与Doubao-1.5和 gemini2.5-pro 等大规模模型相比毫不逊色。此外,该工具在小语种文档处理方面具有显著优势。

小红书hi lab开源的dots.ocr多语言文档解析模型

dots.ocr的主要特点

  • 多语言支持:dots.ocr能够解析多种语言的文档,包括文本、表格、公式和图片等多种元素。
  • 一体化分析:在单视觉语言模型中同时完成布局检测和内容识别任务,并保持自然的阅读顺序。
  • 高效推理能力:基于17亿参数的大模型,提供快速推理速度,适合处理各种规模文档。
  • 灵活的任务切换:通过简单的提示词修改即可实现不同任务之间的转换,如布局检测、内容识别等。
  • 多样化的输出格式:支持JSON、Markdown等多种输出格式,并提供直观的布局可视化结果。

dots.ocr的技术架构

  • 视觉语言模型(VLM)基础:dots.ocr建立在17亿参数的视觉语言模型之上。该模型整合了视觉编码器和语言模型的优势,其中视觉编码器负责提取文档图像中的视觉特征,而语言模型则用于理解和生成文本内容。
  • 三阶段优化训练
    • 视觉编码器预训练:从零开始训练了一个12亿参数的视觉编码器,使用大规模的图文对数据集进行初始学习。
    • 持续预训练:引入高分辨率输入支持,并与语言模型进行对齐优化,进一步提升视觉特征提取能力。
    • VLM联合训练:使用专门的OCR数据集进行微调,重点优化模型在文档解析任务中的表现。
  • 监督微调(SFT)技术:采用多样化的数据集进行有监督微调,包括人工标注数据、合成生成数据和开源数据集。通过迭代式数据飞轮机制不断优化模型性能,并基于”大模型排序+规则后验”的方法来调整布局元素的阅读顺序,确保更符合人类的阅读习惯。
  • 多任务切换机制:通过输入提示词(prompt)控制模型的任务类型。例如,可以通过简单的提示词修改让模型在布局检测、内容识别和公式解析等任务之间灵活切换。

dots.ocr开源项目信息

  • 代码仓库地址:GitHub上可访问其源代码:点击此处查看
  • HuggingFace模型库:在HuggingFace平台上有完整的模型发布,链接为:访问地址
  • 在线演示系统:提供实时体验的在线 Demo 网站:立即试用

dots.ocr的应用场景

  • 文档数字化处理:能够高效地将纸质文件或 PDF 转换为可编辑的数字格式,精准提取文本、表格和公式等结构化数据,助力企业实现文档电子化管理。
  • 学术研究支持:快速解析学术论文中的复杂公式、图表和正文内容,帮助研究人员高效获取关键信息,加速知识传播与创新。
  • 金融数据分析:自动提取财务报告中的数据表格和关键指标,为金融分析和合规检查提供有力工具,提升业务处理效率。
  • 教育领域应用:解析教材、试卷等教育资源材料,智能识别题目与答案,支持教学内容的数字化转型和在线学习平台建设。
  • 企业文档管理:适用于公司内部的各种文档处理需求,如会议记录、项目报告等,帮助提取关键信息,优化企业运营流程。
© 版权声明

相关文章