百度推出轻量级文字识别模型PP-OCRv5：参数仅0.07B，性能突破GPT-4

AI资讯11个月前发布 ainav

273 0 0

IT 之家报道，百度于9月10日在Hugging Face平台推出了新一代文字识别解决方案——PP-OCRv5。

据官方介绍，PP-OCRv5是一款专为解决大型视觉语言模型（VLMs）局限性而设计的专业OCR模型。该方案以高效性、高精度和轻量化为核心特点，为文本识别领域提供了创新性的技术突破。

在技术创新方面，PP-OCRv5采用了模块化与两阶段式的处理流程，特别针对文本检测和识别的高速度与高精准度进行了优化设计。这一方案有效解决了大型VLMs在文本定位精度和边界框准确性方面的技术瓶颈。

以下是PP-OCRv5的主要优势：

高效性：模型参数量仅为0.07B，在CPU和边缘设备上展现出色性能。其优化版本在英特尔Xeon Gold 6271C CPU上的处理能力达到每秒超过370个字符，尤其适用于对实时性要求较高的应用场景。
识别精度：在专业测试中，PP-OCRv5的性能优于包括Gemini 2.5 Pro、Qwen2.5-VL和GPT-4o等在内的主流通用型VLM模型。它能够准确处理手写体、印刷体的中英文文本以及拼音识别，并支持多种语言文字。
精准定位：通过优化算法，PP-OCRv5可提供精确的文本行边界框坐标信息。这种特性对于需要结构化数据提取和内容分析的场景具有重要意义。
多语言支持：该模型支持五种主要文字类型，包括简体中文、繁体中文、英文、日文和拼音，并可识别超过40种不同语言的文字内容。