IT 之家报道,百度于9月10日在Hugging Face平台推出了新一代文字识别解决方案——PP-OCRv5。
据官方介绍,PP-OCRv5是一款专为解决大型视觉语言模型(VLMs)局限性而设计的专业OCR模型。该方案以高效性、高精度和轻量化为核心特点,为文本识别领域提供了创新性的技术突破。
在技术创新方面,PP-OCRv5采用了模块化与两阶段式的处理流程,特别针对文本检测和识别的高速度与高精准度进行了优化设计。这一方案有效解决了大型VLMs在文本定位精度和边界框准确性方面的技术瓶颈。
以下是PP-OCRv5的主要优势:
-
高效性:模型参数量仅为0.07B,在CPU和边缘设备上展现出色性能。其优化版本在英特尔Xeon Gold 6271C CPU上的处理能力达到每秒超过370个字符,尤其适用于对实时性要求较高的应用场景。
-
识别精度:在专业测试中,PP-OCRv5的性能优于包括Gemini 2.5 Pro、Qwen2.5-VL和GPT-4o等在内的主流通用型VLM模型。它能够准确处理手写体、印刷体的中英文文本以及拼音识别,并支持多种语言文字。
-
精准定位:通过优化算法,PP-OCRv5可提供精确的文本行边界框坐标信息。这种特性对于需要结构化数据提取和内容分析的场景具有重要意义。
-
多语言支持:该模型支持五种主要文字类型,包括简体中文、繁体中文、英文、日文和拼音,并可识别超过40种不同语言的文字内容。
PP-OCRv5的核心架构由以下几个关键模块构成:
-
图像预处理:对输入图像进行标准化处理,包括调整旋转和校正畸变。
-
文本检测:精准识别图像中文本行的位置信息。
-
文本方向识别:对检测到的文本行进行方向分类,确保文字正确对齐以进行后续识别。
-
字符识别:将检测到的文本行转化为可读的文字内容。
如需获取PP-OCRv5的最新版本,可访问以下链接下载:
https://huggingface.co/collections/PaddlePaddle/pp-ocrv5-684a5356aef5b4b1d7b85e4b