使用 Pytesseract 进行文本定位、检测和识别(1)

📌 相关文章

📜 使用 Pytesseract 进行文本定位、检测和识别(1)

📅 最后修改于: 2023-12-03 15:36:33.382000 🧑 作者: Mango

使用 Pytesseract 进行文本定位、检测和识别

简介

Pytesseract 是一个基于 Tesseract-OCR 引擎的 Python 包，旨在提供便捷的图像文本识别功能。它可用于定位、检测和识别图像中的文本，包括扫描、照片和截图等不同类型的图像。

本文将介绍如何使用 Pytesseract 进行文本定位、检测和识别。我们将通过以下步骤来实现：

安装 Pytesseract 和 Tesseract-OCR。
读取图片并进行预处理。
对图片中的文本进行定位和检测。
对检测到的文本进行 OCR 识别。

安装 Pytesseract 和 Tesseract-OCR

要使用 Pytesseract，您需要先安装 Tesseract-OCR 引擎。您可以从以下网址下载和安装合适的平台版本。

Windows：https://github.com/UB-Mannheim/tesseract/wiki
macOS：https://formulae.brew.sh/formula/tesseract
Linux：您可以使用系统默认的包管理器来安装 Tesseract-OCR。

安装完成后，您可以使用以下命令从 PyPI 安装 Pytesseract。

pip install pytesseract

读取图片并进行预处理

在使用 Pytesseract 进行文本识别之前，我们需要读取图像并对其进行预处理。这包括调整图像大小、去噪和灰度化等步骤。

import cv2
import pytesseract

# 读取图像并进行预处理
img = cv2.imread('test.jpg')
img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
img = cv2.medianBlur(img, 3)
img = cv2.threshold(img, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)[1]

对图片中的文本进行定位和检测

在准备好图像后，我们可以使用 Pytesseract 中的 image_to_data() 方法来对图像中的文本进行定位和检测。

# 对图像中的文本进行定位和检测
data = pytesseract.image_to_data(img, output_type=pytesseract.Output.DICT)

对检测到的文本进行 OCR 识别

最后，我们可以使用 data 变量中提取出的坐标来定位和截取每个文本区域，并使用 Pytesseract 进行 OCR 识别。

# 对每个文本区域进行 OCR 识别
for i, text in enumerate(data['text']):
    x = data['left'][i]
    y = data['top'][i]
    w = data['width'][i]
    h = data['height'][i]
    text_img = img[y:y+h, x:x+w]
    text = pytesseract.image_to_string(text_img)
    print(text)

以上代码将输出识别出的文本。您可以根据您的需求对其进行操作和处理。

总结

在本文中，我们介绍了如何使用 Pytesseract 进行文本定位、检测和识别。如果您想了解更多关于 Pytesseract 的用法，请访问官方文档：https://pytesseract.readthedocs.io/en/latest/。