Tesseract-OCR识别中文文件

发布时间：2020-12-14 05:15:05 所属栏目：大数据来源：网络整理

导读：? 1.下载安装下载地址:https://digi.bib.uni-mannheim.de/tesseract/ 我下载的是 3.05.01，自带了中文词库。下载完成后目录结构: ? 2.测试识别 0.准备一张文字图片 1.添加环境变量到path中，可以直接使用tesseract命令。检查是否配置成功 C:UsersAdminis

1.下载安装

　　下载地址:https://digi.bib.uni-mannheim.de/tesseract/

　　我下载的是 3.05.01，自带了中文词库。

下载完成后目录结构:

2.测试识别

0.准备一张文字图片

1.添加环境变量到path中，可以直接使用tesseract命令。检查是否配置成功

C:UsersAdministratorDesktop新建文件夹>tesseract -v
tesseract 3.05.01
 leptonica-1.74.1
  libgif 4.1.6(?) : libjpeg 8d (libjpeg-turbo 1.5.0) : libpng 1.6.20 : libtiff 4.0.6 : zlib 1.2.8 : libwebp 0.4.3 : libopenjp2 2.1.0

?2.进入cmd，进入到要识别的图片的路径下。

C:UsersAdministratorDesktop新建文件夹>tesseract ./1.jpg re
Error opening data file tesseractTesseract-OCRtessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
Failed loading language ‘eng‘
Tesseract couldn‘t load any languages!
Could not initialize tesseract.

发现报错没有语言，解决办法: 将??tesseract 安装目录下的??tessdata 文件夹配置到环境变量??TESSDATA_PREFIX??

C:UsersAdministrator>set TESSDATA_PREFIX
TESSDATA_PREFIX=E:tesseractTesseract-OCRtessdata

3.再次测试

C:UsersAdministratorDesktop新建文件夹>tesseract ./1.png re
Tesseract Open Source OCR Engine v3.05.01 with Leptonica

?　　会生成一个re.txt文件，内容如下:(发现中文乱码)

?4.解决中文乱码问题:加 -l 参数指定语言即可

(1)查看支持的语言

C:UsersAdministratorDesktop新建文件夹>tesseract --list-langs
List of available languages (107):
afr
amh
ara
。。。

(2)使用??chi_sim 识别图片

C:UsersAdministratorDesktop新建文件夹>tesseract -l chi_sim ./1.png re
Tesseract Open Source OCR Engine v3.05.01 with Leptonica

?3.测试复杂的中文识别

?1.原来图片如下

2. 识别之后的内容如下

3.解决上面的问题---利用jTessBoxEditor工具进行Tesseract3.02.02样本训练

　　此工具基于java运行，所以需要安装java环境。

1.下载? ?jTessBoxEditor :http://tenet.dl.sourceforge.net/project/vietocr/jTessBoxEditor/jTessBoxEditor-1.5.zip

2.解压运行

$ java -jar jTessBoxEditor.jar

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!