FireRed-OCR是什么
FireRed-OCR是由小红书团队开发的一款轻量级文档解析视觉语言模型。该模型以仅20亿参数的规模,在权威评测OmniDocBench v1.5中取得了92.94%的综合得分,这一成绩超过了包括GPT-5.2、Gemini-3.0 Pro和Qwen3-VL-235B等在内的诸多超大规模模型,实现了“小模型击败大模型”的显著突破。FireRed-OCR基于Qwen3-VL-2B-Instruct架构,并采用了创新的三阶段渐进式训练策略。该模型专为解决文档解析中的“结构幻觉”问题而设计,能够准确识别并提取复杂表格、数学公式和层级标题等关键内容,并将其转换为规范化的Markdown格式。
FireRed-OCR的主要功能
- 复杂表格提取:能够从杂乱无章的PDF文件或扫描文档中精准识别并提取表格结构,确保行列对应关系准确无误,有效避免传统OCR技术常见的表格错位和信息混乱问题。
© 版权声明
文章版权归作者所有,未经允许请勿转载。