Tesseract-OCR识别中文文件
? 1.下载安装下载地址:https://digi.bib.uni-mannheim.de/tesseract/ 我下载的是 3.05.01,自带了中文词库。 下载完成后目录结构: ? 2.测试识别0.准备一张文字图片 1.添加环境变量到path中,可以直接使用tesseract命令。检查是否配置成功 C:UsersAdministratorDesktop新建文件夹>tesseract -v tesseract 3.05.01 leptonica-1.74.1 libgif 4.1.6(?) : libjpeg 8d (libjpeg-turbo 1.5.0) : libpng 1.6.20 : libtiff 4.0.6 : zlib 1.2.8 : libwebp 0.4.3 : libopenjp2 2.1.0 ? ?2.进入cmd,进入到要识别的图片的路径下。 C:UsersAdministratorDesktop新建文件夹>tesseract ./1.jpg re Error opening data file tesseractTesseract-OCRtessdata/eng.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory. Failed loading language ‘eng‘ Tesseract couldn‘t load any languages! Could not initialize tesseract. ? 发现报错没有语言,解决办法: 将??tesseract 安装目录下的??tessdata 文件夹配置到环境变量??TESSDATA_PREFIX?? C:UsersAdministrator>set TESSDATA_PREFIX
TESSDATA_PREFIX=E:tesseractTesseract-OCRtessdata
3.再次测试 C:UsersAdministratorDesktop新建文件夹>tesseract ./1.png re Tesseract Open Source OCR Engine v3.05.01 with Leptonica ? ? 会生成一个re.txt文件,内容如下:(发现中文乱码) ?4.解决中文乱码问题:加 -l 参数指定语言即可 (1)查看支持的语言 C:UsersAdministratorDesktop新建文件夹>tesseract --list-langs List of available languages (107): afr amh ara ? (2)使用??chi_sim 识别图片 C:UsersAdministratorDesktop新建文件夹>tesseract -l chi_sim ./1.png re Tesseract Open Source OCR Engine v3.05.01 with Leptonica ? ? ?3.测试复杂的中文识别?1.原来图片如下? ? 2. 识别之后的内容如下? 3.解决上面的问题---利用jTessBoxEditor工具进行Tesseract3.02.02样本训练此工具基于java运行,所以需要安装java环境。 1.下载? ?jTessBoxEditor :http://tenet.dl.sourceforge.net/project/vietocr/jTessBoxEditor/jTessBoxEditor-1.5.zip 2.解压运行 $ java -jar jTessBoxEditor.jar ? (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |