加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

Tesseract-OCR识别中文文件

发布时间:2020-12-14 05:15:05 所属栏目:大数据 来源:网络整理
导读:? 1.下载安装 下载地址:https://digi.bib.uni-mannheim.de/tesseract/ 我下载的是 3.05.01,自带了中文词库。 下载完成后目录结构: ? 2.测试识别 0.准备一张文字图片 1.添加环境变量到path中,可以直接使用tesseract命令。检查是否配置成功 C:UsersAdminis

?

1.下载安装

  下载地址:https://digi.bib.uni-mannheim.de/tesseract/

  我下载的是 3.05.01,自带了中文词库。

下载完成后目录结构:

?

2.测试识别

0.准备一张文字图片

1.添加环境变量到path中,可以直接使用tesseract命令。检查是否配置成功

C:UsersAdministratorDesktop新建文件夹>tesseract -v
tesseract 3.05.01
 leptonica-1.74.1
  libgif 4.1.6(?) : libjpeg 8d (libjpeg-turbo 1.5.0) : libpng 1.6.20 : libtiff 4.0.6 : zlib 1.2.8 : libwebp 0.4.3 : libopenjp2 2.1.0

?

?2.进入cmd,进入到要识别的图片的路径下。

C:UsersAdministratorDesktop新建文件夹>tesseract ./1.jpg re
Error opening data file tesseractTesseract-OCRtessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
Failed loading language eng
Tesseract couldnt load any languages!
Could not initialize tesseract.

?

发现报错没有语言,解决办法: 将??tesseract 安装目录下的??tessdata 文件夹配置到环境变量??TESSDATA_PREFIX??

C:UsersAdministrator>set TESSDATA_PREFIX
TESSDATA_PREFIX=E:tesseractTesseract-OCRtessdata

3.再次测试

C:UsersAdministratorDesktop新建文件夹>tesseract ./1.png re
Tesseract Open Source OCR Engine v3.05.01 with Leptonica

?

?  会生成一个re.txt文件,内容如下:(发现中文乱码)

?4.解决中文乱码问题:加 -l 参数指定语言即可

(1)查看支持的语言

C:UsersAdministratorDesktop新建文件夹>tesseract --list-langs
List of available languages (107):
afr
amh
ara
。。。

?

(2)使用??chi_sim 识别图片

C:UsersAdministratorDesktop新建文件夹>tesseract -l chi_sim ./1.png re
Tesseract Open Source OCR Engine v3.05.01 with Leptonica

?

?

?3.测试复杂的中文识别

?1.原来图片如下

?

?

2. 识别之后的内容如下

?

3.解决上面的问题---利用jTessBoxEditor工具进行Tesseract3.02.02样本训练

  此工具基于java运行,所以需要安装java环境。

1.下载? ?jTessBoxEditor :http://tenet.dl.sourceforge.net/project/vietocr/jTessBoxEditor/jTessBoxEditor-1.5.zip

2.解压运行

$ java -jar jTessBoxEditor.jar

?

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读