tesseract安装教程

软件: tessera
全方位数据报表
许可分析

许可分析

免费体验
识别闲置、及时回收
许可优化

许可优化

免费体验
多维度智能分析
许可分析

许可分析

免费体验
减少成本、盘活许可
许可优化

许可优化

免费体验
以下是 Tesseract OCR 的安装教程,涵盖不同操作系统(Windows、macOS、Linux)及 Python 集成环境的配置步骤,综合了多个来源的权威指南:

一、Tesseract OCR 引擎安装

1. Windows 系统

下载安装包

访问 Tesseract GitHub Release 页面,下载最新版本的 .exe 安装程序(如 tesseract-ocr-w64-setup-v5.x.x.exe)。

安装步骤

双击安装程序,选择路径(建议 C:\Program Files\Tesseract-OCR),勾选“中文语言包”(或后续手动下载)。

环境变量配置

将安装路径(如 C:\Program Files\Tesseract-OCR)添加到系统 PATH 变量中,并新增 TESSDATA_PREFIX 变量指向 tessdata 目录(如 C:\Program Files\Tesseract-OCR\tessdata)。

验证安装

命令行输入 tesseract --version,输出版本信息即成功。

2. macOS 系统

使用 Homebrew 安装:

brew install tesseract

brew install tesseract-lang 安装语言包(含中文)

tesseract安装教程

语言包路径:

将 chi_sim.traineddata 复制到 /usr/local/Cellar/tesseract/x.x.x/share/tessdata/。

3. Linux 系统(以 Ubuntu 为例)

sudo apt update

sudo apt install tesseract-ocr

sudo apt install tesseract-ocr-chi-sim 简体中文包

验证命令同 Windows。

二、Python 模块集成(可选)

1. 安装 Python 依赖库

官方推荐模块 pytesseract

pip install pytesseract pillow

需确保 Tesseract 已安装且环境变量配置正确。

非官方模块 tesseractocr

需下载对应版本的 .whl 文件手动安装(如 tesserocr-x.x.x-cpxx-cpxxm-win_amd64.whl),版本需与 Tesseract 匹配。

2. 测试代码示例

from PIL import Image

import pytesseract

img = Image.open('test.png')

text = pytesseract.image_to_text(img, lang='chi_sim') 简体中文识别

print(text)

若报错 tessdata 路径问题,检查 TESSDATA_PREFIX 环境变量。

三、语言包与进阶配置

下载语言包

从 Tesseract 语言数据仓库 下载 .traineddata 文件(如 chi_sim.traineddata),放入 tessdata 目录。

多语言识别

命令行示例:

tesseract image.png output -l eng+chi_sim 中英文混合识别

四、常见问题解决

安装失败:检查路径无中文/空格,或重新安装 Visual C++ 依赖(Windows)。

识别率低:预处理图像(如二值化、去噪)或训练自定义字库。

上面步骤综合了官方文档及开发者社区的最佳实践,适用于大多数场景。如需更详细的参数调优或训练自定义模型,可参考相关源码文档。

index-foot-banner-pc index-foot-banner-phone

点击一下 免费体验万千客户信任的许可优化平台

与100+大型企业一起,将本增效

与100+大型企业一起,将本增效

申请免费体验 申请免费体验