如何用Python来识别最简单的验证码?然后在识别12306的验证码?
今天暂时就教大家识别最简单的验证码吧,12306的验证码称之为最难的验证码,这点也确实,所以涉及的东西很多,暂时就不去搞12306的验证码了,一般的小白的话也看不懂! 概述
简介 首先呢,简单的验证码是这样的: 不是这样的: 进群:548377875 ? 即可获取数十套PDF哦!
32 位系统 pip install PIL 64 位系统 pip install pillow 安装 Tesseract-OCR 在使用 pytesseract 之前,必须安装 tesseract-ocr ,因为 pytesserat 依赖于 tesseract-ocr ,否则无法使用 使用 pytesseract 识别验证码 首先将图像灰度化 二值化的图像是这个样子的: 最后进行识别 # 识别 text = pytesseract.image_to_string(out) print("识别结果:"+text) 识别结果是这样的: 高级玩法 - 除线 上面的知识简单的处理,在日常网络冲浪中,我们还会遇到这样的验证码: 这个给我们的识别增加了难度,我们要做的就是将这条线去掉。详细代码如下: 那么我们的运行结果是这样的: 总结 经过这么一些折腾,我们总算是看到了我们想要的结果,但是我很遗憾地告诉你,pytesseract 还是无法识别处理过的图片,他的识别结果是这样的: 结果有点令人痛心,不过我们也算是为我们的目标踏进了一小步。你以为这篇文章就这样完了吗?嗯,是的,这篇文章就这样完了。不过好在 pytesseract 提供了自定义训练功能,来提高识别能力(也可以自建神经网络进行识别),这个暂且放到下一篇文章来写吧,因为昨天是七夕耶。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |