tesseract-ocr安装教程?
软件: tessera
以下是Tesseract OCR的安装教程,涵盖Windows、macOS和Linux系统的主要步骤:
一、Windows系统安装
下载安装包
从Tesseract GitHub Release页面下载最新版本的Windows安装程序(如.exe文件),推荐选择UB Mannheim预编译包(如Tesseract-OCR-W64-Setup-5.3.1.20230401.exe),支持一键安装并自动配置环境变量。
运行安装程序
双击安装包,按提示完成安装。默认路径为C:\Program Files\Tesseract-OCR。安装时可勾选“Additional language data”选项以同时下载语言包(如中文)。
配置环境变量
将安装路径(如C:\Program Files\Tesseract-OCR)添加到系统PATH变量中:
右键“此电脑” → “属性” → “高级系统设置” → “环境变量” → 编辑“Path”添加路径。
验证安装
打开命令提示符,输入tesseract --version,若显示版本号则安装成功。
二、macOS系统安装
使用Homebrew安装
在终端执行以下命令:
brew install tesseract
brew install tesseract-lang 安装语言包(如中文)。

验证安装
运行tesseract --version和tesseract --list-langs,确认版本及语言包(如chi_sim)已加载。
三、Linux系统安装(以Ubuntu为例)
通过包管理器安装
sudo apt update
sudo apt install tesseract-ocr
sudo apt install tesseract-ocr-chi-sim 安装简体中文包。
源码安装(可选)
若需特定版本,可下载源码编译(需先安装依赖如libtiff-dev和leptonica):
wget https://github.com/tesseract-ocr/tesseract/archive/5.3.2.tar.gz
tar -xzf 5.3.2.tar.gz
cd tesseract-5.3.
./autogen.sh && ./configure
make && sudo make install。
配置语言包路径
设置环境变量TESSDATA_PREFIX指向语言包目录(如/usr/local/share/tessdata)。
四、通用配置与验证
语言包管理
默认仅含英文,其他语言需从Tesseract Language Data下载.traineddata文件,并放入tessdata目录。
中文推荐下载chi_sim(简体)和chi_tra(繁体)。
基本使用示例
tesseract image.png output -l chi_sim 识别中文文本并输出到output.txt。
Python集成
安装pytesseract库并指定Tesseract路径(Windows需手动设置):
import pytesseract
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
text = pytesseract.image_to_string('image.png', lang='chi_sim')。
五、常见问题解决
环境变量错误:确保PATH包含Tesseract路径,或通过echo %PATH%(Windows)检查。
语言包缺失:检查TESSDATA_PREFIX变量是否正确指向包含语言包的目录。
依赖问题(Linux):安装libpng-devel、libjpeg-devel等依赖库。
通过上面步骤,可完成Tesseract OCR的安装与基础配置。如需高级功能(如自定义训练),可参考相关文档。
一、Windows系统安装
下载安装包
从Tesseract GitHub Release页面下载最新版本的Windows安装程序(如.exe文件),推荐选择UB Mannheim预编译包(如Tesseract-OCR-W64-Setup-5.3.1.20230401.exe),支持一键安装并自动配置环境变量。
运行安装程序
双击安装包,按提示完成安装。默认路径为C:\Program Files\Tesseract-OCR。安装时可勾选“Additional language data”选项以同时下载语言包(如中文)。
配置环境变量
将安装路径(如C:\Program Files\Tesseract-OCR)添加到系统PATH变量中:
右键“此电脑” → “属性” → “高级系统设置” → “环境变量” → 编辑“Path”添加路径。
验证安装
打开命令提示符,输入tesseract --version,若显示版本号则安装成功。
二、macOS系统安装
使用Homebrew安装
在终端执行以下命令:
brew install tesseract
brew install tesseract-lang 安装语言包(如中文)。

验证安装
运行tesseract --version和tesseract --list-langs,确认版本及语言包(如chi_sim)已加载。
三、Linux系统安装(以Ubuntu为例)
通过包管理器安装
sudo apt update
sudo apt install tesseract-ocr
sudo apt install tesseract-ocr-chi-sim 安装简体中文包。
源码安装(可选)
若需特定版本,可下载源码编译(需先安装依赖如libtiff-dev和leptonica):
wget https://github.com/tesseract-ocr/tesseract/archive/5.3.2.tar.gz
tar -xzf 5.3.2.tar.gz
cd tesseract-5.3.
./autogen.sh && ./configure
make && sudo make install。
配置语言包路径
设置环境变量TESSDATA_PREFIX指向语言包目录(如/usr/local/share/tessdata)。
四、通用配置与验证
语言包管理
默认仅含英文,其他语言需从Tesseract Language Data下载.traineddata文件,并放入tessdata目录。
中文推荐下载chi_sim(简体)和chi_tra(繁体)。
基本使用示例
tesseract image.png output -l chi_sim 识别中文文本并输出到output.txt。
Python集成
安装pytesseract库并指定Tesseract路径(Windows需手动设置):
import pytesseract
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
text = pytesseract.image_to_string('image.png', lang='chi_sim')。
五、常见问题解决
环境变量错误:确保PATH包含Tesseract路径,或通过echo %PATH%(Windows)检查。
语言包缺失:检查TESSDATA_PREFIX变量是否正确指向包含语言包的目录。
依赖问题(Linux):安装libpng-devel、libjpeg-devel等依赖库。
通过上面步骤,可完成Tesseract OCR的安装与基础配置。如需高级功能(如自定义训练),可参考相关文档。