腾讯混元开源OCR模型:轻量级设计,性能领先

AI资讯3个月前发布 ainav
101 0

11月25日,腾讯混元宣布推出全新开源模型HunyuanOCR,该模型仅包含1B参数,基于混元原生多模态架构打造,在多个OCR应用榜单中达到了SOTA(最优水平)成绩。

腾讯混元开源OCR模型:轻量级设计,性能领先

据腾讯官方介绍,得益于混元原生多模态大模型的“端到端”设计理念,HunyuanOCR的各项功能只需一次前向推理即可直接获得最优结果。

HunyuanOCR专家模型的核心架构由三部分组成:原生分辨率视频编码器自适应视觉适配器轻量化混元语言模型

与其它开源的OCR专家模型或系统不同,HunyuanOCR在训练和推理过程中完全采用端到端范式。通过规模化应用导向数据,并结合在线强化学习,该模型展现了强大的端到端推理能力。

腾讯混元开源OCR模型:轻量级设计,性能领先

HunyuanOCR在多项核心能力上达到了SOTA效果。例如,在OmniDocBench测评中,其得分高达94.1分,超过了包括谷歌的Gemini3-pro在内的众多领先模型;在文字检测和识别方面,覆盖了文档、艺术字、街景、手写、广告、票据、截屏、游戏、视频等9大应用场景,表现远超同类开源模型及商业OCR模型。此外,在参数仅为1B的情况下,其总得分达到860分,在OCR Bench榜单上取得了3B以下参数模型的最优成绩。

在小语种翻译方面,HunyuanOCR支持包括德语、西班牙语、土耳其语等在内的14种高频小语种,可实现与中文或英文的互译,并在ICDAR2025端到端文档翻译比赛的小模型赛道中荣获冠军。

腾讯混元开源OCR模型:轻量级设计,性能领先

HunyuanOCR的应用场景涵盖多语种复杂文档解析、文字检测与识别,已在票据字段抽取、视频字幕识别、拍照翻译等领域得到广泛应用。

在文字检测和识别能力方面,模型对文档、艺术字、街景、手写、广告、票据、截屏、游戏、视频等多种场景均表现出色。

腾讯混元开源OCR模型:轻量级设计,性能领先

复杂文档解析涉及将多语种扫描件或图像电子化,具体包括按阅读顺序组织文本内容,并以Latex格式处理公式,使用HTML格式表达复杂表格。

腾讯混元开源OCR模型:轻量级设计,性能领先

HunyuanOCR的其他常见应用场景包括:

  • 1. 票据字段提取:对卡证和票据中的关键信息(如姓名、地址、单位等)采用标准JSON格式解析。

  • 2. 视频字幕抽取:支持双语字幕的自动化提取。

  • 3. 拍照翻译:支持14种小语种与中文、英文的互译,涵盖德语、西班牙语、土耳其语等高频语言。

腾讯混元开源OCR模型:轻量级设计,性能领先

如需了解更多信息或使用HunyuanOCR,请访问以下链接:

  • 官方GitHub地址:https://github.com/Tencent-Hunyuan/HunyuanOCR

  • Hugging Face页面:https://huggingface.co/tencent/HunyuanOCR

  • 在线体验地址:https://huggingface.co/spaces/tencent/HunyuanOCR

腾讯混元开源OCR模型:轻量级设计,性能领先

HunyuanOCR的应用场景不仅限于上述提到的领域,还在不断扩展中。其强大的多模态处理能力和端到端设计使其在多个实际应用中展现出色表现。

腾讯混元开源OCR模型:轻量级设计,性能领先

如需了解更多信息或使用HunyuanOCR,请访问以下链接:

  • 官方GitHub地址:https://github.com/Tencent-Hunyuan/HunyuanOCR

  • Hugging Face页面:https://huggingface.co/tencent/HunyuanOCR

  • 在线体验地址:https://huggingface.co/spaces/tencent/HunyuanOCR

腾讯混元开源OCR模型:轻量级设计,性能领先

如需了解更多信息或使用HunyuanOCR,请访问以下链接:

  • 官方GitHub地址:https://github.com/Tencent-Hunyuan/HunyuanOCR

  • Hugging Face页面:https://huggingface.co/tencent/HunyuanOCR

  • 在线体验地址:https://huggingface.co/spaces/tencent/HunyuanOCR

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

腾讯混元开源OCR模型:轻量级设计,性能领先

好的,我会按照您的要求逐步改写这段内容。

© 版权声明

相关文章