tesseract-ocr使用教程
软件: tessera
Tesseract-OCR使用教程可分为安装、基础识别、训练自定义字库三个核心部分,具体操作如下:
一、安装Tesseract-OCR
环境配置
macOS :使用Homebrew安装tesseract-ocr(推荐版本5.5.0),并下载开源的tessdata_best和langdata_lstm数据集。
Windows/Linux :通过官网或GitHub下载安装包(如tesseract-ocr-w64-setup-5.5.0),安装时选择中文支持,并将tessdata目录添加到系统环境变量。
目录结构设置
建议使用绝对路径,根目录下创建E文件夹,包含tessdata_best、langdata_lstm、output和tmp子目录。
二、基础识别操作
命令行识别
示例命令:tesseract.exe gc.jpg result -l chi_sim,其中chi_sim为简体中文语言文件。

验证安装:在命令行输入tesseract --version确认识别功能。
Python集成
安装依赖:pip install pytesseract pillow。
示例代码:
from PIL import Image
import pytesseract
img = Image.open('gc.jpg')
text = pytesseract.image_to_string(img, lang='chi_sim')
print(text)
三、训练自定义字库
数据准备
收集训练图片,建议多角度、多样本,使用jTessBoxEditor工具标注字符边界。
合并图片为.png格式,按顺序命名(如a.png、b.png等)。
训练流程
打开jTessBoxEditor,导入图片并标注边界,保存为.box文件。
使用命令:tesstrain -o output_dir -l lang -i input_dir,其中output_dir为训练结果目录,lang为语言代码(如chi_sim)。
验证效果
通过命令行tesstrain -v output_dir查看识别报告,或使用Java代码进行验证。
四、注意事项
语言支持 :默认安装包可能不包含中文,需手动下载对应语言数据文件(如chi_sim.traineddata)并放入tessdata目录。
图像预处理 :复杂场景建议结合OpenCV进行灰度化、二值化等预处理,提高识别率。
通过上面步骤,可完成Tesseract-OCR的基础使用及自定义字库训练,满足不同场景的识别需求。
一、安装Tesseract-OCR
环境配置
macOS :使用Homebrew安装tesseract-ocr(推荐版本5.5.0),并下载开源的tessdata_best和langdata_lstm数据集。
Windows/Linux :通过官网或GitHub下载安装包(如tesseract-ocr-w64-setup-5.5.0),安装时选择中文支持,并将tessdata目录添加到系统环境变量。
目录结构设置
建议使用绝对路径,根目录下创建E文件夹,包含tessdata_best、langdata_lstm、output和tmp子目录。
二、基础识别操作
命令行识别
示例命令:tesseract.exe gc.jpg result -l chi_sim,其中chi_sim为简体中文语言文件。

验证安装:在命令行输入tesseract --version确认识别功能。
Python集成
安装依赖:pip install pytesseract pillow。
示例代码:
from PIL import Image
import pytesseract
img = Image.open('gc.jpg')
text = pytesseract.image_to_string(img, lang='chi_sim')
print(text)
三、训练自定义字库
数据准备
收集训练图片,建议多角度、多样本,使用jTessBoxEditor工具标注字符边界。
合并图片为.png格式,按顺序命名(如a.png、b.png等)。
训练流程
打开jTessBoxEditor,导入图片并标注边界,保存为.box文件。
使用命令:tesstrain -o output_dir -l lang -i input_dir,其中output_dir为训练结果目录,lang为语言代码(如chi_sim)。
验证效果
通过命令行tesstrain -v output_dir查看识别报告,或使用Java代码进行验证。
四、注意事项
语言支持 :默认安装包可能不包含中文,需手动下载对应语言数据文件(如chi_sim.traineddata)并放入tessdata目录。
图像预处理 :复杂场景建议结合OpenCV进行灰度化、二值化等预处理,提高识别率。
通过上面步骤,可完成Tesseract-OCR的基础使用及自定义字库训练,满足不同场景的识别需求。