tesseract-ocr安装教程?

软件: tessera
全方位数据报表
许可分析

许可分析

免费体验
识别闲置、及时回收
许可优化

许可优化

免费体验
多维度智能分析
许可分析

许可分析

免费体验
减少成本、盘活许可
许可优化

许可优化

免费体验
以下是Tesseract OCR的安装教程,涵盖Windows、macOS和Linux系统的主要步骤:

一、Windows系统安装

下载安装包

从Tesseract GitHub Release页面下载最新版本的Windows安装程序(如.exe文件),推荐选择UB Mannheim预编译包(如Tesseract-OCR-W64-Setup-5.3.1.20230401.exe),支持一键安装并自动配置环境变量。

运行安装程序

双击安装包,按提示完成安装。默认路径为C:\Program Files\Tesseract-OCR。安装时可勾选“Additional language data”选项以同时下载语言包(如中文)。

配置环境变量

将安装路径(如C:\Program Files\Tesseract-OCR)添加到系统PATH变量中:

右键“此电脑” → “属性” → “高级系统设置” → “环境变量” → 编辑“Path”添加路径。

验证安装

打开命令提示符,输入tesseract --version,若显示版本号则安装成功。

二、macOS系统安装

使用Homebrew安装

在终端执行以下命令:

brew install tesseract

brew install tesseract-lang 安装语言包(如中文)。

tesseract-ocr安装教程?

验证安装

运行tesseract --version和tesseract --list-langs,确认版本及语言包(如chi_sim)已加载。

三、Linux系统安装(以Ubuntu为例)

通过包管理器安装

sudo apt update

sudo apt install tesseract-ocr

sudo apt install tesseract-ocr-chi-sim 安装简体中文包。

源码安装(可选)

若需特定版本,可下载源码编译(需先安装依赖如libtiff-dev和leptonica):

wget https://github.com/tesseract-ocr/tesseract/archive/5.3.2.tar.gz

tar -xzf 5.3.2.tar.gz

cd tesseract-5.3.

./autogen.sh && ./configure

make && sudo make install。

配置语言包路径

设置环境变量TESSDATA_PREFIX指向语言包目录(如/usr/local/share/tessdata)。

四、通用配置与验证

语言包管理

默认仅含英文,其他语言需从Tesseract Language Data下载.traineddata文件,并放入tessdata目录。

中文推荐下载chi_sim(简体)和chi_tra(繁体)。

基本使用示例

tesseract image.png output -l chi_sim 识别中文文本并输出到output.txt。

Python集成

安装pytesseract库并指定Tesseract路径(Windows需手动设置):

import pytesseract

pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

text = pytesseract.image_to_string('image.png', lang='chi_sim')。

五、常见问题解决

环境变量错误:确保PATH包含Tesseract路径,或通过echo %PATH%(Windows)检查。

语言包缺失:检查TESSDATA_PREFIX变量是否正确指向包含语言包的目录。

依赖问题(Linux):安装libpng-devel、libjpeg-devel等依赖库。

通过上面步骤,可完成Tesseract OCR的安装与基础配置。如需高级功能(如自定义训练),可参考相关文档。

index-foot-banner-pc index-foot-banner-phone

点击一下 免费体验万千客户信任的许可优化平台

与100+大型企业一起,将本增效

与100+大型企业一起,将本增效

申请免费体验 申请免费体验