pytesseract库安装
软件: tessera
pytesseract库安装指南
pytesseract是Google Tesseract OCR引擎的Python封装库,用于在Python中实现图像文字识别。要完成安装并正常使用,需按以下步骤操作:
一、前置准备:安装Tesseract OCR引擎
pytesseract依赖Tesseract OCR引擎才能运行,需先安装引擎并根据系统配置环境变量。
1. Windows系统
下载安装包:前往UB Mannheim官方仓库(https://github.com/UB-Mannheim/tesseract/wiki)下载最新稳定版安装程序(如tesseract-ocr-setup-5.5.0.20241111.exe)。
安装步骤:运行安装程序,勾选“Additional language data (download)”选项(如需中文识别,需额外选择chi_sim简体中文包),按照提示完成安装。
配置环境变量:右键“此电脑”→“属性”→“高级系统设置”→“环境变量”,在“系统变量”的Path中添加Tesseract的安装路径(如C:\Program Files\Tesseract-OCR)。
验证安装:打开命令提示符,输入tesseract -v,若显示版本信息(如Tesseract 5.5.0.20241111),则说明安装成功。
2. macOS系统
安装Tesseract:通过Homebrew安装最新版Tesseract及中文语言包,命令如下:brew install tesseract

brew install tesseract-lang 中文支持(含chi_sim简体中文)
验证安装:终端输入tesseract -v,显示版本信息即成功。
3. Linux系统(以Ubuntu/Debian为例)
安装依赖与引擎:打开终端,执行以下命令安装Tesseract及图像处理依赖:sudo apt update
sudo apt install tesseract-ocr libtesseract-dev libleptonica-dev
sudo apt install tesseract-ocr-chi-sim 中文简体支持(可选)
验证安装:终端输入tesseract -v,显示版本信息即成功。
二、安装pytesseract库
Tesseract引擎安装完成后,通过pip安装pytesseract:
pip install pytesseract
若安装速度较慢,可使用国内镜像源加速(如清华源):
pip install pytesseract -i https://pypi.tuna.tsinghua.edu.cn/simple
安装完成后,在Python中导入库验证:
import pytesseract
print(pytesseract.get_tesseract_version()) 输出Tesseract版本号即成功
三、环境配置(可选但重要)
若Tesseract未添加到系统PATH中,需在Python代码中手动指定可执行文件路径(仅Windows常见):
import pytesseract
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' 替换为实际路径
四、常见问题解决
问题1:导入pytesseract报错“No module named 'pytesseract'”:说明pip安装失败,需检查网络或镜像源,重新执行pip install pytesseract。
问题2:运行时报错“tesseract is not installed or it's not in your path”:说明Tesseract未安装或路径未配置,需检查引擎安装及环境变量/代码路径设置。
问题3:中文识别乱码:需下载对应中文语言包(如chi_sim.traineddata),并复制到Tesseract的tessdata目录(如Windows的C:\Program Files\Tesseract-OCR\tessdata,macOS/Linux的/usr/local/share/tessdata)。
完成上面步骤后,即可使用pytesseract进行图像文字识别(如text = pytesseract.image_to_string(Image.open('test.png'), lang='chi_sim'))。
pytesseract是Google Tesseract OCR引擎的Python封装库,用于在Python中实现图像文字识别。要完成安装并正常使用,需按以下步骤操作:
一、前置准备:安装Tesseract OCR引擎
pytesseract依赖Tesseract OCR引擎才能运行,需先安装引擎并根据系统配置环境变量。
1. Windows系统
下载安装包:前往UB Mannheim官方仓库(https://github.com/UB-Mannheim/tesseract/wiki)下载最新稳定版安装程序(如tesseract-ocr-setup-5.5.0.20241111.exe)。
安装步骤:运行安装程序,勾选“Additional language data (download)”选项(如需中文识别,需额外选择chi_sim简体中文包),按照提示完成安装。
配置环境变量:右键“此电脑”→“属性”→“高级系统设置”→“环境变量”,在“系统变量”的Path中添加Tesseract的安装路径(如C:\Program Files\Tesseract-OCR)。
验证安装:打开命令提示符,输入tesseract -v,若显示版本信息(如Tesseract 5.5.0.20241111),则说明安装成功。
2. macOS系统
安装Tesseract:通过Homebrew安装最新版Tesseract及中文语言包,命令如下:brew install tesseract

brew install tesseract-lang 中文支持(含chi_sim简体中文)
验证安装:终端输入tesseract -v,显示版本信息即成功。
3. Linux系统(以Ubuntu/Debian为例)
安装依赖与引擎:打开终端,执行以下命令安装Tesseract及图像处理依赖:sudo apt update
sudo apt install tesseract-ocr libtesseract-dev libleptonica-dev
sudo apt install tesseract-ocr-chi-sim 中文简体支持(可选)
验证安装:终端输入tesseract -v,显示版本信息即成功。
二、安装pytesseract库
Tesseract引擎安装完成后,通过pip安装pytesseract:
pip install pytesseract
若安装速度较慢,可使用国内镜像源加速(如清华源):
pip install pytesseract -i https://pypi.tuna.tsinghua.edu.cn/simple
安装完成后,在Python中导入库验证:
import pytesseract
print(pytesseract.get_tesseract_version()) 输出Tesseract版本号即成功
三、环境配置(可选但重要)
若Tesseract未添加到系统PATH中,需在Python代码中手动指定可执行文件路径(仅Windows常见):
import pytesseract
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' 替换为实际路径
四、常见问题解决
问题1:导入pytesseract报错“No module named 'pytesseract'”:说明pip安装失败,需检查网络或镜像源,重新执行pip install pytesseract。
问题2:运行时报错“tesseract is not installed or it's not in your path”:说明Tesseract未安装或路径未配置,需检查引擎安装及环境变量/代码路径设置。
问题3:中文识别乱码:需下载对应中文语言包(如chi_sim.traineddata),并复制到Tesseract的tessdata目录(如Windows的C:\Program Files\Tesseract-OCR\tessdata,macOS/Linux的/usr/local/share/tessdata)。
完成上面步骤后,即可使用pytesseract进行图像文字识别(如text = pytesseract.image_to_string(Image.open('test.png'), lang='chi_sim'))。