FireRed-OCR：小红书开源文档结构解析视觉语言模型

AI工具5个月前发布 ainav

223 0 0

FireRed-OCR是什么

FireRed-OCR是由小红书团队开发的一款轻量级文档解析视觉语言模型。该模型以仅20亿参数的规模，在权威评测OmniDocBench v1.5中取得了92.94%的综合得分，这一成绩超过了包括GPT-5.2、Gemini-3.0 Pro和Qwen3-VL-235B等在内的诸多超大规模模型，实现了“小模型击败大模型”的显著突破。FireRed-OCR基于Qwen3-VL-2B-Instruct架构，并采用了创新的三阶段渐进式训练策略。该模型专为解决文档解析中的“结构幻觉”问题而设计，能够准确识别并提取复杂表格、数学公式和层级标题等关键内容，并将其转换为规范化的Markdown格式。

FireRed-OCR：小红书开源文档结构解析视觉语言模型

FireRed-OCR的主要功能

复杂表格提取：能够从杂乱无章的PDF文件或扫描文档中精准识别并提取表格结构，确保行列对应关系准确无误，有效避免传统OCR技术常见的表格错位和信息混乱问题。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

CubeOne：AI智能PPT 自动生成演示文稿工具

ainav

161 0

FlexiAct：清华与腾讯的动作迁移模型

ainav

337 0

TalkMe – 多语言AI交流应用，与人工智能伙伴对话交互

ainav

2,141 0

Autocoder：AI代码自动生成平台——全栈代码生成专家

ainav

370 0

统一TTS：一站式文本转语音API服务

ainav

128 0

基于LBM的深度学习框架：实现可控阴影生成

ainav

242 0

一站式AI工具导航平台！汇聚超800+免费AI工具，涵盖AI写作、智能绘画、论文生成、视频制作、编程辅助、音频处理等全场景工具。每日更新热门 AIGC工具（如 Sora、AI Agent），助您快速找到提升办公、创作、学习效率的实用工具！立即访问ai-nav.net，探索 AI 新可能！

按下Ctrl+D或⌘+D 感谢收藏 ai-nav.net

友链申请免责声明广告合作关于我们站点地图提交AI工具

 度加创作工具百度AI开放平台 Bing新必应搜外友链 Manus GPTBots.ai Claude Code

Copyright © 2026 AI工具导航站粤ICP备2025438650号-2